Lessons Lernpfade Übungen Ressourcen Blog Suche loschke.ai

Multimodal

Auch bekannt als: Multimodalität, Multimodales Modell

Multimodal bedeutet, dass ein KI-Modell verschiedene Medientypen gleichzeitig verarbeiten und erzeugen kann: Text, Bild, Audio, Video. Statt getrennter Werkzeuge für jedes Medium gibt es zunehmend ein Modell für alles.

Die ersten Chat-Modelle konnten nur Text. Dann kamen Bildverständnis, Bildgenerierung, Audio-Input und Audio-Output dazu. Multimodale Modelle kombinieren diese Fähigkeiten in einem System.

Was das praktisch bedeutet

Du kannst ein Foto hochladen und Fragen dazu stellen. Du kannst eine Tabelle als Bild einspeisen und sie analysieren lassen. Du kannst per Sprache mit dem Modell reden und dir Bilder generieren lassen. Alles in einem Workflow.

Wohin es geht

Die Grenzen zwischen Text-, Bild- und Audio-KI verschwimmen. Mittelfristig wird es weniger spezialisierte Tools geben und mehr Allround-Modelle, die verschiedene Medien nahtlos kombinieren.

Gelernt in Lessons

Verwandte Begriffe

Large Language ModelEin Large Language Model ist ein auf Milliarden Textbeispielen trainiertes neuronales Netz, das Sprache versteht und generiert. ChatGPT, Claude und Gemini basieren auf dieser Technologie.

Passende Fragen

Welche Arten von generativen KI-Modellen gibt es?Fünf Hauptkategorien: Sprachmodelle (Text, Code, Analyse), Bildmodelle (Fotos, Illustrationen, Design), Audiomodelle (Musik, Stimme, Sound), Videomodelle (Clips, Animationen) und multimodale Modelle, die mehrere Formate kombinieren. Die Grenzen verschwimmen zunehmend.