Tokenisierung
Auch bekannt als: Tokenization, Tokenizer
Tokenisierung ist der Prozess, bei dem Text in Tokens zerlegt wird, bevor ein Sprachmodell ihn verarbeiten kann. Der Tokenizer bestimmt, welche Zeichenfolgen als eine Einheit behandelt werden.
Bevor ein Modell deinen Text versteht, muss er in eine numerische Darstellung übersetzt werden. Der Tokenizer zerlegt den Text in Stücke (Subwords), die im Vokabular des Modells vorkommen. Jedes Stück bekommt eine Nummer.
Warum verschiedene Modelle unterschiedlich tokenisieren
Jeder Anbieter hat seinen eigenen Tokenizer. "Künstliche Intelligenz" wird bei Claude anders zerlegt als bei ChatGPT. Das beeinflusst Kontextlänge und Kosten, aber nicht die inhaltliche Qualität.
Praktische Relevanz
Wenn du an Kontextlimits stößt, hilft es manchmal, Füllwörter zu streichen. Weniger Tokens = mehr Platz für relevanten Inhalt.