Retrieval Augmented Generation
Auch bekannt als: RAG, Retrieval-Augmented Generation
Retrieval Augmented Generation kombiniert ein Sprachmodell mit einer externen Wissensdatenbank. Vor der Antwort werden relevante Dokumente abgerufen und in den Kontext injiziert, das Modell antwortet auf Basis echter Quellen statt aus dem Training.
RAG ist heute das dominierende Muster, um generative KI mit unternehmensspezifischem Wissen zu koppeln. Statt ein Modell auf eigenen Daten zu trainieren, wird zur Laufzeit gesucht: Nutzerfrage → Suche in Vektor- oder Volltext-Index → relevante Passagen → als Kontext an das Modell → Antwort mit Quellenbezug.
Warum RAG statt Fine-Tuning
Fine-Tuning verändert das Modell selbst. RAG lässt das Modell unverändert und ergänzt nur den Kontext. Das macht Updates billig (neue Daten indexieren), Zitate möglich (Quellenangabe in der Antwort) und Halluzinationen seltener.
Typische Bausteine
- Embedding-Modell: wandelt Texte in Vektoren
- Vektor-Datenbank: speichert und findet ähnliche Vektoren
- Retriever: holt Top-k Treffer zur Frage
- Reranker (optional): sortiert Treffer feiner
- LLM: generiert die Antwort aus Frage + Kontext