Guardrails
Auch bekannt als: Leitplanken, Sicherheitsgrenzen
Guardrails sind die Grenzen und Regeln, innerhalb derer ein KI-System operiert. Sie verhindern unerwünschtes Verhalten: falsche Antworten, sensible Aktionen, Kostenexplosion oder Sicherheitsverstöße.
Je autonomer ein KI-System arbeitet, desto wichtiger werden Guardrails. Bei einem Chat reicht gesunder Menschenverstand als Prüfung. Bei einem Agenten, der eigenständig E-Mails versendet, nicht.
Typen von Guardrails
Input-Guardrails: Was darf ins System rein? Filterung sensibler Daten, Validierung von Anfragen.
Output-Guardrails: Was darf raus? Fakten-Check, Tonfall-Prüfung, Compliance-Filter.
Aktions-Guardrails: Was darf der Agent tun? Bestätigungs-Dialoge bei sensiblen Aktionen, Kosten-Limits, Schritt-Limits.
Die Faustregel
Guardrails sollten zum Risiko passen. Niedrigrisiko-Chat braucht wenig. Ein Agent mit Zugriff auf Kundendaten und E-Mail braucht viel.