Transformer
Auch bekannt als: Transformer-Architektur
Die Transformer-Architektur ist die technische Grundlage fast aller modernen Sprachmodelle. Sie ermöglicht es, Zusammenhänge zwischen weit entfernten Textteilen gleichzeitig zu erfassen, statt Wort für Wort zu lesen.
Vor Transformern lasen neuronale Netze Text sequenziell, Wort für Wort. Das machte sie langsam und vergesslich bei langen Texten. Die 2017 vorgestellte Transformer-Architektur änderte das grundlegend.
Was Transformer anders machen
Sie verarbeiten alle Wörter gleichzeitig und berechnen für jedes Wort, wie stark es mit jedem anderen zusammenhängt. Dieser Mechanismus heißt Attention. Er erlaubt dem Modell, Bezüge über große Distanzen herzustellen.
Warum das wichtig ist
Transformer sind der Grund, warum aktuelle Modelle kohärente Texte über Tausende Wörter produzieren können. Ohne diese Architektur gäbe es ChatGPT, Claude und Gemini in ihrer heutigen Form nicht.