Zum Inhalt springen
KI verstehen & prompten · Einsteiger

Evaluation

Auch bekannt als: Eval, KI-Evaluation, Modell-Evaluation

Evaluation im KI-Kontext ist die systematische Prüfung, ob ein Modell oder Agent für eine bestimmte Aufgabe zuverlässig funktioniert. Geht über Benchmarks hinaus, weil sie die echte Anwendung testet.

"Der Agent antwortet" ist kein Qualitätsnachweis. Evaluation prüft systematisch: Sind die Antworten korrekt? Im richtigen Ton? Im richtigen Format? Konsistent?

Wie Evaluation funktioniert

Eine Sammlung von Testfällen mit bekannten richtigen Antworten. Das System wird gegen diese Testfälle geprüft. Bei jeder Änderung (Prompt-Update, Modellwechsel, Tool-Update) wird die Evaluation neu durchlaufen.

LLM-as-Judge

Ein zweites Modell bewertet die Antworten des ersten. Schneller und skalierbarer als menschliche Bewertung, aber weniger zuverlässig bei Nuancen. In der Praxis oft als schneller Screening-Schritt vor menschlicher Prüfung.

Zuletzt aktualisiert: 16. April 2026