Evaluation
Auch bekannt als: Eval, KI-Evaluation, Modell-Evaluation
Evaluation im KI-Kontext ist die systematische Prüfung, ob ein Modell oder Agent für eine bestimmte Aufgabe zuverlässig funktioniert. Geht über Benchmarks hinaus, weil sie die echte Anwendung testet.
"Der Agent antwortet" ist kein Qualitätsnachweis. Evaluation prüft systematisch: Sind die Antworten korrekt? Im richtigen Ton? Im richtigen Format? Konsistent?
Wie Evaluation funktioniert
Eine Sammlung von Testfällen mit bekannten richtigen Antworten. Das System wird gegen diese Testfälle geprüft. Bei jeder Änderung (Prompt-Update, Modellwechsel, Tool-Update) wird die Evaluation neu durchlaufen.
LLM-as-Judge
Ein zweites Modell bewertet die Antworten des ersten. Schneller und skalierbarer als menschliche Bewertung, aber weniger zuverlässig bei Nuancen. In der Praxis oft als schneller Screening-Schritt vor menschlicher Prüfung.