Multimodalidad en IA¶

Un modelo multimodal procesa y genera más de un tipo de dato (texto, imagen, audio, vídeo) dentro de una arquitectura unificada, en lugar de encadenar sistemas separados. La distinción importa: un sistema que pasa imagen por un modelo de visión y texto por un LLM, y combina sus salidas con heurísticas, no es multimodal en el sentido técnico. La multimodalidad real implica que las representaciones de distintas modalidades comparten un espacio semántico común, de forma que el modelo puede razonar sobre relaciones entre texto e imagen sin necesidad de separar los procesos. Los ejemplos más conocidos son GPT-4V, Gemini 1.5 Pro y Claude 3 Opus, que pueden describir imágenes, responder preguntas sobre ellas y combinar información visual y textual en una misma cadena de razonamiento.

En qué series aparece¶

Multimodalidad en IA generativa

La serie completa sobre multimodalidad: el problema de alinear modalidades, las arquitecturas que lo resuelven, cómo se evalúan los modelos y qué riesgos específicos introduce.

Leer →

Preguntas frecuentes¶

¿Qué significa que un modelo sea multimodal? Significa que el modelo recibe y/o produce más de una modalidad de datos dentro del mismo proceso de inferencia. Un modelo texto-imagen puede tomar un texto y generar una imagen, o tomar una imagen y generar texto. Un modelo verdaderamente multimodal puede combinar las dos direcciones y razonar sobre las relaciones entre modalidades, no solo convertir entre ellas.

¿GPT-4V es multimodal? Sí. GPT-4V (la versión con visión de GPT-4) acepta imágenes como parte del contexto y las procesa junto al texto dentro del mismo modelo, permitiendo respuestas que combinan razonamiento visual y lingüístico. Representa uno de los primeros LLMs de uso masivo con capacidad multimodal integrada en lugar de añadida externamente.

¿Qué es un modelo de visión-lenguaje? Un modelo de visión-lenguaje (Vision-Language Model, VLM) es un tipo de modelo multimodal entrenado específicamente para alinear representaciones visuales (imágenes, fotogramas de vídeo) con representaciones lingüísticas. Puede responder preguntas sobre imágenes, describir escenas, o generar texto condicional a contenido visual. CLIP, Flamingo y LLaVA son ejemplos de distintas arquitecturas de VLM.

¿La multimodalidad mejora el razonamiento? En tareas que requieren integrar información visual y textual (como seguir instrucciones con diagramas o responder preguntas sobre gráficos), los modelos multimodales superan con claridad a los de solo texto. Sin embargo, la integración de modalidades también introduce nuevas formas de fallo: el modelo puede ignorar partes de la imagen, malinterpretar relaciones espaciales o ser susceptible a adversarials visuales que no afectarían a un modelo de texto.

¿Cuáles son los límites actuales de la multimodalidad? Los modelos multimodales actuales todavía tienen dificultades con razonamiento espacial preciso (contar objetos, identificar posiciones relativas), comprensión de vídeo largo con eventos distribuidos en el tiempo, y generación de salidas coherentes en múltiples modalidades simultáneamente. El alineamiento entre modalidades sigue siendo un problema abierto: los embeddings visuales y textuales comparten espacio pero no siempre se corresponden de forma precisa con el significado.