Inference

Auch bekannt als: Inferenz, Modellaufruf

Inference ist der Vorgang, bei dem ein trainiertes Modell eine Eingabe verarbeitet und eine Antwort erzeugt. Jede Anfrage an ChatGPT, Claude oder Gemini ist eine Inference. Die Kosten entstehen hier, nicht beim Training.

Training und Inference sind die zwei Lebensphasen eines Modells. Training passiert einmal und kostet Millionen. Inference passiert bei jeder Nutzung und kostet Bruchteile von Cent pro Anfrage.

Warum das wichtig ist

Du bezahlst für Inference, nicht für Training. Jede Anfrage verbraucht Rechenleistung, die der Anbieter dir in Rechnung stellt, direkt (API) oder indirekt (Abo). Wer Inference versteht, versteht die Kostenstruktur.

Latenz

Die Zeit zwischen Anfrage und Antwort. Größere Modelle haben höhere Latenz. Für Echtzeit-Anwendungen (Chat) zählt Geschwindigkeit. Für Batch-Aufgaben (100 E-Mails verarbeiten) ist Latenz weniger relevant.

Gelernt in Lessons

Generative KI verstehen – Was sie kann, wie sie denkt, wo sie wirkt30 Minuten · einsteiger

Verwandte Begriffe