Zum Inhalt springen
KI verstehen & prompten · Einsteiger

Transformer

Auch bekannt als: Transformer-Architektur

Die Transformer-Architektur ist die technische Grundlage fast aller modernen Sprachmodelle. Sie ermöglicht es, Zusammenhänge zwischen weit entfernten Textteilen gleichzeitig zu erfassen, statt Wort für Wort zu lesen.

Vor Transformern lasen neuronale Netze Text sequenziell, Wort für Wort. Das machte sie langsam und vergesslich bei langen Texten. Die 2017 vorgestellte Transformer-Architektur änderte das grundlegend.

Was Transformer anders machen

Sie verarbeiten alle Wörter gleichzeitig und berechnen für jedes Wort, wie stark es mit jedem anderen zusammenhängt. Dieser Mechanismus heißt Attention. Er erlaubt dem Modell, Bezüge über große Distanzen herzustellen.

Warum das wichtig ist

Transformer sind der Grund, warum aktuelle Modelle kohärente Texte über Tausende Wörter produzieren können. Ohne diese Architektur gäbe es ChatGPT, Claude und Gemini in ihrer heutigen Form nicht.

Zuletzt aktualisiert: 16. April 2026