Transformer

Auch bekannt als: Transformer-Architektur

Die Transformer-Architektur ist die technische Grundlage fast aller modernen Sprachmodelle. Sie ermöglicht es, Zusammenhänge zwischen weit entfernten Textteilen gleichzeitig zu erfassen, statt Wort für Wort zu lesen.

Vor Transformern lasen neuronale Netze Text sequenziell, Wort für Wort. Das machte sie langsam und vergesslich bei langen Texten. Die 2017 vorgestellte Transformer-Architektur änderte das grundlegend.

Was Transformer anders machen

Sie verarbeiten alle Wörter gleichzeitig und berechnen für jedes Wort, wie stark es mit jedem anderen zusammenhängt. Dieser Mechanismus heißt Attention. Er erlaubt dem Modell, Bezüge über große Distanzen herzustellen.

Warum das wichtig ist

Transformer sind der Grund, warum aktuelle Modelle kohärente Texte über Tausende Wörter produzieren können. Ohne diese Architektur gäbe es ChatGPT, Claude und Gemini in ihrer heutigen Form nicht.

Gelernt in Lessons

Generative KI verstehen – Was sie kann, wie sie denkt, wo sie wirkt30 Minuten · einsteiger

Verwandte Begriffe

Passende Fragen

Versteht KI wirklich, was ich sage?Nein. KI berechnet das wahrscheinlichste nächste Wort auf Basis von Mustern aus Trainingsdaten. Das fühlt sich an wie Verstehen, ist aber Mustererkennung ohne Bewusstsein oder echtes Wissen.