Attention-Mechanismus
Auch bekannt als: Attention, Self-Attention
Der Attention-Mechanismus erlaubt einem Modell, bei der Verarbeitung eines Wortes gleichzeitig auf alle anderen Wörter im Text zu schauen und ihre Relevanz zu gewichten. Die zentrale Innovation hinter der Transformer-Architektur.
Wenn du den Satz "Die Bank am Fluss war nass" liest, weißt du durch den Kontext, dass "Bank" eine Sitzbank ist. Der Attention-Mechanismus macht dasselbe: Er gewichtet für jedes Wort, welche anderen Wörter im Satz besonders relevant sind.
Warum das wichtig ist
Ohne Attention müsste ein Modell Text streng von links nach rechts verarbeiten und hätte bei langen Texten den Anfang vergessen, wenn es am Ende ankommt. Mit Attention kann es jederzeit auf jeden Teil des Kontexts zugreifen.
Self-Attention
Die Variante, bei der ein Text sich selbst betrachtet. Jedes Token berechnet seine Beziehung zu jedem anderen Token. Das Ergebnis: ein reichhaltiges Verständnis von Zusammenhängen, Bezügen und Abhängigkeiten.