RLHF

Auch bekannt als: Reinforcement Learning from Human Feedback, Menschliches Feedback-Training

RLHF ist eine Trainingsmethode, bei der menschliche Bewerter dem Modell beibringen, welche Antworten hilfreich, harmlos und ehrlich sind. Der Grund, warum moderne Chat-Modelle nützlich statt nur textvorhersagend sind.

Nach dem Pre-Training kann ein Modell zwar Text generieren, aber es weiß nicht, welcher Text hilfreich ist. RLHF schließt diese Lücke.

Der Prozess

Menschen bewerten Modell-Antworten: "Antwort A ist besser als Antwort B." Aus diesen Bewertungen lernt ein Belohnungsmodell, was "gut" bedeutet. Das Sprachmodell wird dann so optimiert, dass es häufiger Antworten produziert, die das Belohnungsmodell als gut einstuft.

Warum das entscheidend ist

Ohne RLHF wären Chat-Modelle zwar sprachlich flüssig, aber unzuverlässig, manipulierbar und oft wenig hilfreich. RLHF ist der Grund, warum ChatGPT und Claude Anweisungen befolgen, statt nur Text zu vervollständigen.

Gelernt in Lessons

Generative KI verstehen – Was sie kann, wie sie denkt, wo sie wirkt30 Minuten · einsteiger

Verwandte Begriffe