Multimodal, ça décrit une IA capable de traiter plusieurs types de données : texte, image, audio, vidéo, dans une même requête. Au lieu de seulement lire, le modèle peut « voir » une photo ou « entendre » un son et raisonner dessus. C'est ce qui te permet d'envoyer une image et de poser une question écrite à son sujet.
Exemple — Envoyer la photo d'un graphique et demander « explique cette tendance » utilise une IA multimodale.