Zum Inhalt springen
KI verstehen & prompten · Fortgeschritten

Ist mehr Kontext im Prompt immer besser?

Nein. „Lost in the Middle" zeigt: Informationen in der Mitte langer Kontexte werden schlechter verarbeitet. Größere Context-Windows kosten mehr und die Aufmerksamkeitsverteilung leidet. Gezieltes RAG ist oft effektiver als das Hineinwerfen ganzer Dokumente.

Die Context-Windows moderner Modelle sind beeindruckend, Millionen Tokens sind keine Seltenheit mehr. Die Versuchung: einfach alles reinwerfen. Die Realität: Modelle verarbeiten lange Kontexte nicht gleichmäßig.

Was „Lost in the Middle" bedeutet

Forschung zeigt ein robustes Muster: Informationen am Anfang und am Ende langer Kontexte werden vom Modell besser genutzt als Informationen in der Mitte. Ein 100-seitiges Dokument in den Kontext zu werfen heißt nicht, dass das Modell alle 100 Seiten gleich gut verarbeitet.

Die drei Kostenfaktoren

Token-Kosten: Jeder zusätzliche Kontext-Token wird bei jeder Anfrage neu bezahlt. Bei vielen Anfragen summiert sich das.

Latenz: Lange Kontexte erhöhen die Antwortzeit spürbar.

Qualitätskosten: Das Modell wird über lange Kontexte unschärfer, nicht schärfer.

Wann kurzer Kontext reicht

  • Die relevanten Informationen passen auf zwei bis drei Seiten
  • Du hast den Kontext vorher kuratiert
  • Die Aufgabe ist fokussiert

Wann RAG statt großer Kontext

Bei wachsendem oder veränderlichem Wissen. RAG lädt nur die relevanten Passagen in den Kontext, nicht das ganze Dokumentkorpus. Das ist oft schneller, billiger und präziser, besonders bei Wissen, das sich regelmäßig ändert.

Die Prüffrage

„Brauche ich wirklich alles im Kontext, oder könnte ich gezielter extrahieren?" In acht von zehn Fällen lautet die Antwort: gezielter.

Zuletzt aktualisiert: 20. April 2026