Evaluation

Auch bekannt als: Eval, KI-Evaluation, Modell-Evaluation

Evaluation im KI-Kontext ist die systematische Prüfung, ob ein Modell oder Agent für eine bestimmte Aufgabe zuverlässig funktioniert. Geht über Benchmarks hinaus, weil sie die echte Anwendung testet.

"Der Agent antwortet" ist kein Qualitätsnachweis. Evaluation prüft systematisch: Sind die Antworten korrekt? Im richtigen Ton? Im richtigen Format? Konsistent?

Wie Evaluation funktioniert

Eine Sammlung von Testfällen mit bekannten richtigen Antworten. Das System wird gegen diese Testfälle geprüft. Bei jeder Änderung (Prompt-Update, Modellwechsel, Tool-Update) wird die Evaluation neu durchlaufen.

LLM-as-Judge

Ein zweites Modell bewertet die Antworten des ersten. Schneller und skalierbarer als menschliche Bewertung, aber weniger zuverlässig bei Nuancen. In der Praxis oft als schneller Screening-Schritt vor menschlicher Prüfung.

Gelernt in Lessons

KI-Agenten – technische Vertiefung40 Minuten · profi

Verwandte Begriffe

Passende Fragen

Wenn der KI-Agent antwortet, funktioniert er dann?Nein. Ohne systematische Evaluation weißt du nicht, ob er korrekt, hilfreich oder im richtigen Ton antwortet. Halluzinationen sehen aus wie richtige Antworten. Eine plausible Antwort ist keine gute Antwort.