Saltar a contenido

Capítulo 2 — Alineamiento: de pares a interacciones

⏱️ Tiempo de lectura: 7 min

El capítulo anterior estableció que la multimodalidad no se agota en el par texto-imagen ni en la existencia de un único espacio de representación compartida. Este capítulo describe cómo se construye el alineamiento entre modalidades: qué tipo de datos se necesitan, cómo evoluciona el problema cuando las modalidades son más de dos, y qué sucede cuando los datos son de baja calidad o están mal estructurados.

La progresión no es arbitraria. Los sistemas multimodales se entrenan en etapas, cada una construyendo sobre la anterior, de forma que los problemas que aparecen en las etapas finales casi siempre tienen su raíz en debilidades de las etapas previas.


1. Pares imagen-texto: la base y sus límites

El punto de partida es el más sencillo conceptualmente: pares de imagen y texto que van juntos. Una fotografía con su pie de foto, una imagen de producto acompañada de su descripción, un diagrama junto a su leyenda. Internet contiene miles de millones de estos pares, y los modelos fundacionales de visión-lenguaje como CLIP o ALIGN se entrenaron extrayéndolos a escala CLIP.

El proceso de aprendizaje con estos pares sigue una lógica de contrastive learning: el modelo aprende a proyectar la imagen y el texto al mismo espacio de representación de forma que los pares que van juntos queden cerca y los que no van juntos queden lejos. La función de pérdida penaliza al modelo cuando asocia una imagen con la descripción de otra imagen, y lo recompensa cuando las representaciones del par correcto son similares. Ese entrenamiento produce un encoder visual y un encoder textual alineados, capaces de encontrar la descripción más compatible con una imagen sin haber sido entrenados con ese par específico, lo que surge directamente de que el espacio compartido captura relaciones semánticas en el par imagen-texto en lugar de memorizar ejemplos.

La limitación de este enfoque está en el ruido de los datos. El pie de foto de una fotografía no siempre describe con precisión lo que aparece en ella: puede referirse a algo que ocurrió antes o después, puede ser una descripción de contexto más que de contenido, o puede ser simplemente irrelevante.

Cuando el modelo aprende de millones de estos pares ruidosos, las representaciones que construye son estadísticamente sólidas pero frágiles en los detalles, lo que tiene consecuencias visibles cuando el sistema se enfrenta a preguntas que requieren precisión.

La respuesta del campo a esas fragilidades no fue abandonar el paradigma contrastivo sino refinarlo. SigLIP sustituyó la función de pérdida clásica de CLIP por entrenamiento sigmoid por pares independientes, lo que mejora la estabilidad en lotes pequeños y produce representaciones más transferibles en tareas de localización SigLIP.

DINOv2 tomó una dirección distinta: en lugar de depender de supervisión textual, entrena el encoder visual con auto-supervisión sobre una colección curada de imágenes, produciendo representaciones más densas que capturan estructura espacial fina y generalizan mejor en segmentación y recuperación visual DINOv2. Ambos apuntan a la misma conclusión: el bottleneck de calidad de representación en sistemas multimodales no estaba solo en el alineamiento con texto, sino en la riqueza del propio encoder visual.

Pero la limitación más importante no es el ruido: es que el par imagen-texto deja fuera modalidades enteras. Audio, vídeo, documentos y señales continuas no encajan en ese marco sin extensiones adicionales, y esa estrechez condiciona qué sistemas puede producir quien solo trabaja con ese tipo de datos.


2. Más allá del par: alineamiento de múltiples modalidades

Una de las observaciones más importantes de la última etapa del campo es que el alineamiento no necesita estar anclado en imagen-texto para funcionar. ImageBind lo demostró de forma directa: usando únicamente pares que incluyen imagen como denominador común (imagen-texto, imagen-audio, imagen-profundidad, imagen-térmico, imagen-IMU), el sistema aprende un espacio de embedding compartido sobre seis modalidades sin haber necesitado nunca pares directos audio-texto o audio-profundidad ImageBind.

El resultado es que la consulta textual recupera audio, la imagen recupera profundidad o térmico, y todas las modalidades quedan alineadas por transitividad a través del ancla visual.

Esa misma lógica de alineamiento se ha extendido al nivel de producto. Gemini Embedding 2 trata el embedding multimodal como una primitiva nativa que unifica texto, imágenes, vídeo, audio y documentos en un único espacio de representación usable para búsqueda, clasificación y clustering cruzado entre modalidades Gemini Embedding 2. La diferencia con los sistemas anteriores no es solo cuantitativa (más modalidades) sino cualitativa: el embedding ya no es el subproducto de un modelo de comprensión, sino el objeto central del sistema.

Lo que cambia cuando el alineamiento va más allá del par texto-imagen es la estructura del dato de entrenamiento. Para visión-lenguaje, internet proporcionaba miles de millones de pares naturales. Para audio-texto, vídeo-texto o documento-layout, los pares de alta calidad son mucho más escasos, más ruidosos y más dependientes de trabajo humano o de síntesis controlada. Esa asimetría en la disponibilidad de datos explica en gran medida por qué las capacidades de los sistemas son asimétricas: los modelos comprenden imágenes mejor que audio, y audio mejor que documentos con layout complejo.

Alineamiento por transitividad — de par imagen-texto a seis modalidades
Cómo ImageBind aprende un espacio compartido sin necesitar pares directos entre modalidades no visuales.
TEXTO
Texto
IMAGEN
Imagen
AUDIO
Audio
PROF
Profundidad
TERM
Térmico
IMU
IMU
VÍDEO
Vídeo
Millones de pares naturales existen para texto + imagen: pies de foto, descripciones de productos, artículos con imágenes. Para audio-texto: escasos y caros de etiquetar. Para profundidad-layout: requieren sensores especializados y trabajo humano. Las modalidades fuera del par texto-imagen quedan sin conexión en el espacio de representación.
transitividad par par par par par par
IMAGEN
ancla
TEXTO
Texto
AUDIO
Audio
PROF
Profundidad
TERM
Térmico
IMU
IMU
VÍDEO
Vídeo
Alineamiento por transitividad (línea punteada): ImageBind (2023) aprende el espacio usando solo los 5 tipos de pares que incluyen imagen. El modelo nunca ve un par audio↔texto directo, pero como ambos están alineados con imagen, quedan alineados entre sí.
Una consulta textual puede recuperar audio. Una imagen puede recuperar profundidad o térmico. Todas las modalidades quedan conectadas sin haberlo entrenado explícitamente.
CLIP / Par imagen-texto
Alineamiento binario
Solo recuperación imagen↔texto
N modalidades → N(N−1)/2 pares para conectarlas todas
2 modalidades conectadas
TEXTO
IMAGEN
pares necesarios para N=6
N(N−1)/2 = 15
ImageBind / Gemini Embedding 2
Alineamiento nativo multimodal
Recuperación cruzada entre cualquier par de modalidades
N modalidades → N pares (todos a través del ancla)
6+ modalidades conectadas
Gemini Embedding 2 (2026): texto, imagen, vídeo, audio y documentos como primitiva nativa
TEXTO
IMAGEN
AUDIO
PROF
VÍDEO
IMU
pares necesarios para N=6
N = 6
Nota: La asimetría en disponibilidad de datos explica la asimetría de capacidades. Los modelos comprenden imágenes mejor que audio, y audio mejor que documentos con layout complejo, porque los pares de entrenamiento de alta calidad son mucho más abundantes para imagen que para las otras modalidades.

3. Instrucción visual: el siguiente nivel

Los pares imagen-texto (y sus extensiones a otras modalidades) entrenan representaciones, pero no entrenan al modelo para seguir instrucciones. Para que un sistema pueda responder a "¿qué anomalías hay en este gráfico?" o "transcribe el texto de esta imagen y corrígelo", necesita un entrenamiento adicional sobre datos de instrucción visual.

Los datos de instrucción visual son triples de imagen, instrucción textual y respuesta esperada. El modelo aprende a condicionarse simultáneamente sobre la imagen y la instrucción para generar la respuesta correcta, que es el formato que usan modelos como LLaVA o InstructBLIP.

Generar estos datos de instrucción de alta calidad es significativamente más costoso que extraer pares de internet, porque requiere o bien anotación humana (cara y lenta) o bien generación sintética mediante modelos de lenguaje potentes que reciben la imagen descrita y generan instrucciones y respuestas plausibles. La generación sintética escala, pero introduce sesgos propios del modelo generador: si el modelo que genera los datos tiene puntos ciegos, el modelo que se entrena con ellos los heredará.

El modelo LLaVA, publicado en 2023, demostró que la generación sintética de datos de instrucción visual usando GPT-4 producía modelos capaces de seguir instrucciones visuales con calidad notable dado el coste de generación de los datos LLaVA. El enfoque se ha extendido como práctica habitual para proyectos que no disponen de presupuesto para anotación humana a gran escala, aunque conviene tener presente que la calidad del resultado queda acotada por la calidad del modelo que genera los datos sintéticos.

De pares a triples: instrucción visual
Los pares imagen-texto enseñan representaciones. Los triples de instrucción enseñan comportamiento. Son etapas distintas y no pueden sustituirse.
Preentrenamiento contrastivo CLIP · ALIGN · ImageBind
🖼Imagen
+
📝Texto descriptivo
Contrastive learning
acercar pares correctos · alejar pares incorrectos
Representación compartida
Aprende a reconocer — qué cosas hablan del mismo contenido
Ajuste fino de instrucción LLaVA · InstructBLIP
🖼Imagen
+
Instrucción
+
Respuesta
Supervised fine-tuning
minimizar error en la respuesta esperada
Modelo que sigue instrucciones
Aprende a responder — cómo actuar ante una instrucción específica
El par aprende a reconocer. El triple aprende a responder. Un modelo con solo pares sabe qué cosas se parecen, pero no sabe seguir instrucciones. Uno con solo triples no tiene representaciones de base suficientemente robustas para generalizar fuera de las instrucciones vistas en el ajuste fino.

4. Por qué la calidad de datos manda

La lección más consistente de los sistemas multimodales es que la calidad de los datos de entrenamiento determina la robustez de las representaciones mucho más que las decisiones de arquitectura. Un modelo con arquitectura subóptima entrenado con datos de alta calidad tiende a superar a uno con arquitectura de vanguardia entrenado con datos ruidosos, al menos en las tareas que esos datos cubren bien.

Esa importancia absoluta de los datos se traduce en dos efectos que afectan directamente a cómo interpretar los resultados publicados.

El primero es que los benchmarks de evaluación de modelos multimodales son frecuentemente incompletos en su diagnóstico: un modelo puede obtener puntuaciones altas en tareas de descripción de imágenes mientras falla en tareas de localización o verificación, simplemente porque los datos con los que fue entrenado enfatizaron el primero y dejaron el segundo mal cubierto, de forma que la distribución de los datos de entrenamiento se refleja directamente en el perfil de capacidades del modelo.

El segundo efecto es que las debilidades se amplifican en cadena: si el preentrenamiento con pares imagen-texto produce representaciones donde ciertos tipos de imágenes están asociados débilmente con sus descripciones correctas, el entrenamiento de instrucción visual posterior no puede corregir ese problema desde cero, porque construye sobre las representaciones que recibe, con sus fortalezas y sus lagunas.

Radford et al. documentaron este patrón al analizar los fallos de CLIP en categorías de imágenes subrepresentadas en los datos de entrenamiento CLIP: el modelo generalizaba bien en categorías comunes y sistemáticamente peor en categorías infrecuentes, incluso cuando las imágenes eran de calidad equivalente. La corrección requería reequilibrar los datos, no cambiar la arquitectura.

Calidad de datos y perfil de capacidades
La distribución del conjunto de entrenamiento determina qué sabe hacer el modelo. Las debilidades de la base se amplifican en cada etapa posterior.
Categorías frecuentes en entrenamiento
personas
datos
modelo
vehículos
datos
modelo
animales domésticos
datos
modelo
Categorías infrecuentes en entrenamiento
dispositivos médicos
datos
modelo
arte especializado
datos
modelo
documentos técnicos
datos
modelo
Observación de Radford et al. (CLIP, 2021)
La distribución de los datos de entrenamiento se refleja directamente en el perfil de capacidades del modelo. CLIP generalizaba bien en categorías comunes y sistemáticamente peor en categorías infrecuentes, aunque la calidad de las imágenes fuera equivalente. La corrección requería reequilibrar los datos, no cambiar la arquitectura.

5. El rol del alineamiento con preferencias humanas

Más allá del entrenamiento supervisado, los modelos multimodales más recientes incluyen una fase de alineamiento con preferencias humanas, análoga al RLHF que se aplica a los modelos de lenguaje. En esta fase, evaluadores humanos comparan respuestas del modelo a preguntas visuales y expresan cuál es mejor, de forma que el modelo aprende a generar respuestas que los humanos consideran útiles, correctas y alineadas con sus expectativas.

Esta fase captura algo que el entrenamiento supervisado puro no puede medir directamente: las preferencias subjetivas sobre cómo debe describir el modelo lo que ve, qué nivel de detalle es apropiado para distintos tipos de preguntas, y cómo equilibrar precisión y legibilidad en las respuestas.

El riesgo es que las preferencias de los evaluadores no son uniformes y pueden introducir sesgos culturales, de género o de gusto estético que se codifican en el modelo. Si los evaluadores tienden a preferir descripciones más largas y elaboradas, el modelo aprenderá a generar respuestas más largas con independencia de si esa longitud es apropiada para la pregunta. El sesgo no está en la arquitectura ni en los datos visuales sino en quién evalúa y qué criterios aplica, lo que hace que sea difícil de detectar con benchmarks estándar y más fácil de detectar en uso real.

Progresión del entrenamiento multimodal
Tres etapas con requisitos de datos distintos. Los fallos de cada etapa se propagan a las siguientes: datos ruidosos en la base producen representaciones frágiles que el ajuste fino no puede corregir.
Preentrenamiento con pares imagen-texto
Aprendizaje contrastivo
I₁ · T₁ par correcto
I₁ T₁ ↔ cerca
sim(vI, vT) ↑ — acercar en el espacio
I₁ · T₂ par incorrecto
I₁ T₂ ↔ lejos
sim(vI, vT') ↓ — alejar en el espacio
CLIP 400M pares · ALIGN 1.800M pares — alta escala, baja precisión por par
Qué sale bien
Categorías frecuentes aprenden representaciones sólidas. "perro", "ciudad", "comida" aparecen millones de veces en combinaciones distintas.
Categorías frecuentes
robusto
Qué falla
Pares ruidosos (pie de foto irrelevante, imagen de contexto) y categorías infrecuentes producen representaciones frágiles que el ajuste fino no puede corregir.
Categorías raras
frágil
Datos ruidosos aquí → representaciones frágiles → el ajuste fino trabaja sobre una base débil

Siguiente capítulo

Capítulo 3 — Arquitecturas → — Las cuatro familias de arquitectura multimodal, sus diferencias en calidad, coste y latencia, y por qué el embedding multimodal y la generación multimodal no son la misma capa del sistema.

6. Referencias

Fuentes base
Clave Fuente Descripción breve
R1 Radford et al. (2021)Learning Transferable Visual Models From Natural Language Supervision (arXiv) CLIP y el aprendizaje contrastivo a escala.
R2 Liu et al. (2023)Visual Instruction Tuning (arXiv) LLaVA: generación sintética de datos de instrucción visual con GPT-4.
R3 Li et al. (2023)BLIP-2: Bootstrapping Language-Image Pre-training (arXiv) Estrategia de entrenamiento en etapas para sistemas visión-lenguaje.
R4 Jain et al. (2023)VCoder: Versatile Vision Encoders for Multimodal Large Language Models (arXiv) Estudio de cómo la elección del encoder visual determina el perfil de capacidades del sistema multimodal, más allá de la arquitectura del LLM.
R5 Girdhar et al. (2023)ImageBind: One Embedding Space To Bind Them All (CVPR) Alineamiento de seis modalidades usando solo pares con imagen como ancla.
R6 Google DeepMind (2026)Gemini Embedding 2 (blog) Embedding nativo multimodal sobre texto, imágenes, vídeo, audio y documentos.
R7 Zhai et al. (2023)Sigmoid Loss for Language Image Pre-Training (arXiv) SigLIP: función de pérdida sigmoid por pares independientes que mejora la estabilidad respecto a CLIP.
R8 Oquab et al. (2023)DINOv2: Learning Robust Visual Features without Supervision (arXiv) DINOv2: encoder visual auto-supervisado con representaciones densas y mayor generalización espacial.