Benchmark
Auch bekannt als: KI-Benchmark, Leistungsvergleich
Ein Benchmark ist ein standardisierter Test, mit dem die Leistung von KI-Modellen verglichen wird. Typische Dimensionen: Sprachverständnis, Logik, Code, Mathematik, Faktenwissen.
Benchmarks liefern Zahlen, die auf den ersten Blick Vergleichbarkeit suggerieren. "Modell A hat 92% auf MMLU, Modell B hat 88%." Klingt klar, ist aber irreführend, weil Benchmarks nur einen kleinen Ausschnitt der realen Nutzung abbilden.
Bekannte Benchmarks
MMLU (breites Wissen), HumanEval (Code), GSM8K (Mathematik), GPQA (Expertenwissen). Jeder misst etwas anderes. Ein Modell kann bei Code führen und bei Kreativität hinterherhinken.
Was Benchmarks nicht zeigen
Wie gut das Modell für deine spezifische Aufgabe funktioniert. Dafür hilft nur eigenes Testen.