Tokenisierung

Auch bekannt als: Tokenization, Tokenizer

Tokenisierung ist der Prozess, bei dem Text in Tokens zerlegt wird, bevor ein Sprachmodell ihn verarbeiten kann. Der Tokenizer bestimmt, welche Zeichenfolgen als eine Einheit behandelt werden.

Bevor ein Modell deinen Text versteht, muss er in eine numerische Darstellung übersetzt werden. Der Tokenizer zerlegt den Text in Stücke (Subwords), die im Vokabular des Modells vorkommen. Jedes Stück bekommt eine Nummer.

Warum verschiedene Modelle unterschiedlich tokenisieren

Jeder Anbieter hat seinen eigenen Tokenizer. "Künstliche Intelligenz" wird bei Claude anders zerlegt als bei ChatGPT. Das beeinflusst Kontextlänge und Kosten, aber nicht die inhaltliche Qualität.

Praktische Relevanz

Wenn du an Kontextlimits stößt, hilft es manchmal, Füllwörter zu streichen. Weniger Tokens = mehr Platz für relevanten Inhalt.

Gelernt in Lessons

Generative KI verstehen – Was sie kann, wie sie denkt, wo sie wirkt30 Minuten · einsteiger

Verwandte Begriffe