Zum Inhalt springen
KI verstehen & prompten · Einsteiger

Benchmark

Auch bekannt als: KI-Benchmark, Leistungsvergleich

Ein Benchmark ist ein standardisierter Test, mit dem die Leistung von KI-Modellen verglichen wird. Typische Dimensionen: Sprachverständnis, Logik, Code, Mathematik, Faktenwissen.

Benchmarks liefern Zahlen, die auf den ersten Blick Vergleichbarkeit suggerieren. "Modell A hat 92% auf MMLU, Modell B hat 88%." Klingt klar, ist aber irreführend, weil Benchmarks nur einen kleinen Ausschnitt der realen Nutzung abbilden.

Bekannte Benchmarks

MMLU (breites Wissen), HumanEval (Code), GSM8K (Mathematik), GPQA (Expertenwissen). Jeder misst etwas anderes. Ein Modell kann bei Code führen und bei Kreativität hinterherhinken.

Was Benchmarks nicht zeigen

Wie gut das Modell für deine spezifische Aufgabe funktioniert. Dafür hilft nur eigenes Testen.

Zuletzt aktualisiert: 16. April 2026