Zum Inhalt springen
Bilder & Videos erstellen · Einsteiger

Text-to-Video

Auch bekannt als: T2V, Videogenerierung aus Text

Text-to-Video erzeugt Videoclips aus Textbeschreibungen. Die aktuelle Generation produziert 4 bis 15 Sekunden lange Clips. Stärker in Stimmung und Atmosphäre als in komplexen Handlungen.

Du beschreibst eine Szene mit Aktion, Stimmung und Kameraführung. Das Modell generiert einen kurzen Clip. Tools wie Veo, Runway, Kling und Luma bedienen dieses Feld.

Was funktioniert

Atmosphärische Stimmungsclips, einfache Kamerabewegungen, einzelne Aktionen. Konzeptvisualisierung, B-Rolls, Social-Media-Clips.

Was noch nicht funktioniert

Komplexe Handlungen, konsistente Charaktere über längere Clips, natürliche Dialoge, präzise Lippensynchronisation. Video-KI ist deutlich weniger reif als Bild-KI.

Die Prompt-Regel

Maximal ein bis zwei Aktionen pro Clip. Weniger ist mehr bei 4 bis 8 Sekunden Laufzeit.

Zuletzt aktualisiert: 16. April 2026