Inference
Auch bekannt als: Inferenz, Modellaufruf
Inference ist der Vorgang, bei dem ein trainiertes Modell eine Eingabe verarbeitet und eine Antwort erzeugt. Jede Anfrage an ChatGPT, Claude oder Gemini ist eine Inference. Die Kosten entstehen hier, nicht beim Training.
Training und Inference sind die zwei Lebensphasen eines Modells. Training passiert einmal und kostet Millionen. Inference passiert bei jeder Nutzung und kostet Bruchteile von Cent pro Anfrage.
Warum das wichtig ist
Du bezahlst für Inference, nicht für Training. Jede Anfrage verbraucht Rechenleistung, die der Anbieter dir in Rechnung stellt, direkt (API) oder indirekt (Abo). Wer Inference versteht, versteht die Kostenstruktur.
Latenz
Die Zeit zwischen Anfrage und Antwort. Größere Modelle haben höhere Latenz. Für Echtzeit-Anwendungen (Chat) zählt Geschwindigkeit. Für Batch-Aufgaben (100 E-Mails verarbeiten) ist Latenz weniger relevant.