Halluzinieren neuere KI-Modelle nicht mehr?
Sie halluzinieren weniger und drücken Unsicherheit besser aus, aber alle aktuellen Modelle halluzinieren noch. Das Problem ist kleiner geworden, nicht gelöst. Prüfprozesse bleiben Pflicht.
Die Werbebotschaft jedes neuen Modells enthält einen Hinweis auf „weniger Halluzinationen". Das stimmt. Es stimmt aber auch: Halluzinationen sind ein strukturelles Merkmal statistischer Sprachmodelle, kein Bug, der sich ausrotten ließe.
Was sich verbessert hat
- Häufigkeit: Auf Standardfragen halluzinieren neuere Modelle seltener
- Selbsteinschätzung: Sie sagen häufiger „Ich weiß es nicht" statt zu raten
- Konsistenz: Widersprüche innerhalb einer Antwort werden seltener
- Quellenhandling: Bei RAG-Anbindung zitieren sie genauer
Was unverändert bleibt
- Spezifische Details: Zahlen, Namen, Daten bleiben Risikozonen
- Seltene Fälle: Nischenwissen wird weiterhin halluziniert
- Grenzfälle: Bei unklaren Fragen raten Modelle immer noch
- Plausibilitätsfalle: Halluzinationen klingen weiterhin überzeugend
Die Konsequenz
Das Prüfverhalten nicht an das Modell delegieren. „Das neue Modell ist besser" ist kein Grund, auf Verifikation zu verzichten. Jede Output-Nutzung braucht den gleichen Kontrollschritt wie vorher, nur dass er in Summe seltener zu Korrekturen führt.