Multimodal
Auch bekannt als: Multimodalität, Multimodales Modell
Multimodal bedeutet, dass ein KI-Modell verschiedene Medientypen gleichzeitig verarbeiten und erzeugen kann: Text, Bild, Audio, Video. Statt getrennter Werkzeuge für jedes Medium gibt es zunehmend ein Modell für alles.
Die ersten Chat-Modelle konnten nur Text. Dann kamen Bildverständnis, Bildgenerierung, Audio-Input und Audio-Output dazu. Multimodale Modelle kombinieren diese Fähigkeiten in einem System.
Was das praktisch bedeutet
Du kannst ein Foto hochladen und Fragen dazu stellen. Du kannst eine Tabelle als Bild einspeisen und sie analysieren lassen. Du kannst per Sprache mit dem Modell reden und dir Bilder generieren lassen. Alles in einem Workflow.
Wohin es geht
Die Grenzen zwischen Text-, Bild- und Audio-KI verschwimmen. Mittelfristig wird es weniger spezialisierte Tools geben und mehr Allround-Modelle, die verschiedene Medien nahtlos kombinieren.