Zum Inhalt springen
KI verstehen & prompten · Einsteiger

Multimodal

Auch bekannt als: Multimodalität, Multimodales Modell

Multimodal bedeutet, dass ein KI-Modell verschiedene Medientypen gleichzeitig verarbeiten und erzeugen kann: Text, Bild, Audio, Video. Statt getrennter Werkzeuge für jedes Medium gibt es zunehmend ein Modell für alles.

Die ersten Chat-Modelle konnten nur Text. Dann kamen Bildverständnis, Bildgenerierung, Audio-Input und Audio-Output dazu. Multimodale Modelle kombinieren diese Fähigkeiten in einem System.

Was das praktisch bedeutet

Du kannst ein Foto hochladen und Fragen dazu stellen. Du kannst eine Tabelle als Bild einspeisen und sie analysieren lassen. Du kannst per Sprache mit dem Modell reden und dir Bilder generieren lassen. Alles in einem Workflow.

Wohin es geht

Die Grenzen zwischen Text-, Bild- und Audio-KI verschwimmen. Mittelfristig wird es weniger spezialisierte Tools geben und mehr Allround-Modelle, die verschiedene Medien nahtlos kombinieren.

Zuletzt aktualisiert: 16. April 2026