Diffusion Model
Auch bekannt als: Diffusionsmodell, Diffusion
Diffusion Models sind die technische Grundlage der meisten aktuellen Bildgeneratoren. Sie lernen, Bilder aus Rauschen zu rekonstruieren, und können diesen Prozess umkehren, um aus einer Textbeschreibung ein Bild zu erzeugen.
Der Name kommt vom Trainingsprozess: Ein Bild wird schrittweise mit Rauschen überlagert, bis nur noch Zufall übrig ist. Das Modell lernt, diesen Prozess rückgängig zu machen, Schritt für Schritt von Rauschen zu Bild.
Warum das funktioniert
Beim Erzeugen startet das Modell mit reinem Rauschen und entfernt es schrittweise, gesteuert durch deine Textbeschreibung. Jeder Schritt bringt das Bild näher an das, was der Prompt beschreibt.
Stable Diffusion, Flux, Midjourney
Verschiedene Implementierungen derselben Grundidee. Sie unterscheiden sich in Trainingsdaten, Architektur-Details und Zugänglichkeit, aber das Prinzip ist dasselbe.