Capítulo 2 — Alineamiento: de pares a interacciones¶

⏱️ Tiempo de lectura: 7 min

El capítulo anterior estableció que la multimodalidad no se agota en el par texto-imagen ni en la existencia de un único espacio de representación compartida. Este capítulo describe cómo se construye el alineamiento entre modalidades: qué tipo de datos se necesitan, cómo evoluciona el problema cuando las modalidades son más de dos, y qué sucede cuando los datos son de baja calidad o están mal estructurados.

La progresión no es arbitraria. Los sistemas multimodales se entrenan en etapas, cada una construyendo sobre la anterior, de forma que los problemas que aparecen en las etapas finales casi siempre tienen su raíz en debilidades de las etapas previas.

1. Pares imagen-texto: la base y sus límites¶

El punto de partida es el más sencillo conceptualmente: pares de imagen y texto que van juntos. Una fotografía con su pie de foto, una imagen de producto acompañada de su descripción, un diagrama junto a su leyenda. Internet contiene miles de millones de estos pares, y los modelos fundacionales de visión-lenguaje como CLIP o ALIGN se entrenaron extrayéndolos a escala CLIP.

El proceso de aprendizaje con estos pares sigue una lógica de contrastive learning: el modelo aprende a proyectar la imagen y el texto al mismo espacio de representación de forma que los pares que van juntos queden cerca y los que no van juntos queden lejos. La función de pérdida penaliza al modelo cuando asocia una imagen con la descripción de otra imagen, y lo recompensa cuando las representaciones del par correcto son similares. Ese entrenamiento produce un encoder visual y un encoder textual alineados, capaces de encontrar la descripción más compatible con una imagen sin haber sido entrenados con ese par específico, lo que surge directamente de que el espacio compartido captura relaciones semánticas en el par imagen-texto en lugar de memorizar ejemplos.

La limitación de este enfoque está en el ruido de los datos. El pie de foto de una fotografía no siempre describe con precisión lo que aparece en ella: puede referirse a algo que ocurrió antes o después, puede ser una descripción de contexto más que de contenido, o puede ser simplemente irrelevante.

Cuando el modelo aprende de millones de estos pares ruidosos, las representaciones que construye son estadísticamente sólidas pero frágiles en los detalles, lo que tiene consecuencias visibles cuando el sistema se enfrenta a preguntas que requieren precisión.

La respuesta del campo a esas fragilidades no fue abandonar el paradigma contrastivo sino refinarlo. SigLIP sustituyó la función de pérdida clásica de CLIP por entrenamiento sigmoid por pares independientes, lo que mejora la estabilidad en lotes pequeños y produce representaciones más transferibles en tareas de localización SigLIP.

DINOv2 tomó una dirección distinta: en lugar de depender de supervisión textual, entrena el encoder visual con auto-supervisión sobre una colección curada de imágenes, produciendo representaciones más densas que capturan estructura espacial fina y generalizan mejor en segmentación y recuperación visual DINOv2. Ambos apuntan a la misma conclusión: el bottleneck de calidad de representación en sistemas multimodales no estaba solo en el alineamiento con texto, sino en la riqueza del propio encoder visual.

Pero la limitación más importante no es el ruido: es que el par imagen-texto deja fuera modalidades enteras. Audio, vídeo, documentos y señales continuas no encajan en ese marco sin extensiones adicionales, y esa estrechez condiciona qué sistemas puede producir quien solo trabaja con ese tipo de datos.

2. Más allá del par: alineamiento de múltiples modalidades¶

Una de las observaciones más importantes de la última etapa del campo es que el alineamiento no necesita estar anclado en imagen-texto para funcionar. ImageBind lo demostró de forma directa: usando únicamente pares que incluyen imagen como denominador común (imagen-texto, imagen-audio, imagen-profundidad, imagen-térmico, imagen-IMU), el sistema aprende un espacio de embedding compartido sobre seis modalidades sin haber necesitado nunca pares directos audio-texto o audio-profundidad ImageBind.

El resultado es que la consulta textual recupera audio, la imagen recupera profundidad o térmico, y todas las modalidades quedan alineadas por transitividad a través del ancla visual.

Esa misma lógica de alineamiento se ha extendido al nivel de producto. Gemini Embedding 2 trata el embedding multimodal como una primitiva nativa que unifica texto, imágenes, vídeo, audio y documentos en un único espacio de representación usable para búsqueda, clasificación y clustering cruzado entre modalidades Gemini Embedding 2. La diferencia con los sistemas anteriores no es solo cuantitativa (más modalidades) sino cualitativa: el embedding ya no es el subproducto de un modelo de comprensión, sino el objeto central del sistema.

Lo que cambia cuando el alineamiento va más allá del par texto-imagen es la estructura del dato de entrenamiento. Para visión-lenguaje, internet proporcionaba miles de millones de pares naturales. Para audio-texto, vídeo-texto o documento-layout, los pares de alta calidad son mucho más escasos, más ruidosos y más dependientes de trabajo humano o de síntesis controlada. Esa asimetría en la disponibilidad de datos explica en gran medida por qué las capacidades de los sistemas son asimétricas: los modelos comprenden imágenes mejor que audio, y audio mejor que documentos con layout complejo.

Alineamiento por transitividad — de par imagen-texto a seis modalidades

Cómo ImageBind aprende un espacio compartido sin necesitar pares directos entre modalidades no visuales.

TEXTO

Texto

IMAGEN

Imagen

AUDIO

Audio

PROF

Profundidad

TERM

Térmico

IMU

VÍDEO

Vídeo

Millones de pares naturales existen para texto + imagen: pies de foto, descripciones de productos, artículos con imágenes. Para audio-texto: escasos y caros de etiquetar. Para profundidad-layout: requieren sensores especializados y trabajo humano. Las modalidades fuera del par texto-imagen quedan sin conexión en el espacio de representación.

IMAGEN
ancla

TEXTO

Texto

AUDIO

Audio

PROF

Profundidad

TERM

Térmico

IMU

VÍDEO

Vídeo

Alineamiento por transitividad (línea punteada): ImageBind (2023) aprende el espacio usando solo los 5 tipos de pares que incluyen imagen. El modelo nunca ve un par audio↔texto directo, pero como ambos están alineados con imagen, quedan alineados entre sí.

Una consulta textual puede recuperar audio. Una imagen puede recuperar profundidad o térmico. Todas las modalidades quedan conectadas sin haberlo entrenado explícitamente.

CLIP / Par imagen-texto

Alineamiento binario

Solo recuperación imagen↔texto

N modalidades → N(N−1)/2 pares para conectarlas todas

2 modalidades conectadas

pares necesarios para N=6

N(N−1)/2 = 15

ImageBind / Gemini Embedding 2

Alineamiento nativo multimodal

Recuperación cruzada entre cualquier par de modalidades

N modalidades → N pares (todos a través del ancla)

6+ modalidades conectadas

Gemini Embedding 2 (2026): texto, imagen, vídeo, audio y documentos como primitiva nativa

pares necesarios para N=6

N = 6

Nota: La asimetría en disponibilidad de datos explica la asimetría de capacidades. Los modelos comprenden imágenes mejor que audio, y audio mejor que documentos con layout complejo, porque los pares de entrenamiento de alta calidad son mucho más abundantes para imagen que para las otras modalidades.

3. Instrucción visual: el siguiente nivel¶

Los pares imagen-texto (y sus extensiones a otras modalidades) entrenan representaciones, pero no entrenan al modelo para seguir instrucciones. Para que un sistema pueda responder a "¿qué anomalías hay en este gráfico?" o "transcribe el texto de esta imagen y corrígelo", necesita un entrenamiento adicional sobre datos de instrucción visual.

Los datos de instrucción visual son triples de imagen, instrucción textual y respuesta esperada. El modelo aprende a condicionarse simultáneamente sobre la imagen y la instrucción para generar la respuesta correcta, que es el formato que usan modelos como LLaVA o InstructBLIP.

Generar estos datos de instrucción de alta calidad es significativamente más costoso que extraer pares de internet, porque requiere o bien anotación humana (cara y lenta) o bien generación sintética mediante modelos de lenguaje potentes que reciben la imagen descrita y generan instrucciones y respuestas plausibles. La generación sintética escala, pero introduce sesgos propios del modelo generador: si el modelo que genera los datos tiene puntos ciegos, el modelo que se entrena con ellos los heredará.

El modelo LLaVA, publicado en 2023, demostró que la generación sintética de datos de instrucción visual usando GPT-4 producía modelos capaces de seguir instrucciones visuales con calidad notable dado el coste de generación de los datos LLaVA. El enfoque se ha extendido como práctica habitual para proyectos que no disponen de presupuesto para anotación humana a gran escala, aunque conviene tener presente que la calidad del resultado queda acotada por la calidad del modelo que genera los datos sintéticos.

De pares a triples: instrucción visual

Los pares imagen-texto enseñan representaciones. Los triples de instrucción enseñan comportamiento. Son etapas distintas y no pueden sustituirse.

Preentrenamiento contrastivo CLIP · ALIGN · ImageBind

🖼Imagen

+

📝Texto descriptivo

↓

Contrastive learning

acercar pares correctos · alejar pares incorrectos

↓

Representación compartida

Aprende a reconocer — qué cosas hablan del mismo contenido

→

Ajuste fino de instrucción LLaVA · InstructBLIP

🖼Imagen

+

❓Instrucción

+

✓Respuesta

↓

Supervised fine-tuning

minimizar error en la respuesta esperada

↓

Modelo que sigue instrucciones

Aprende a responder — cómo actuar ante una instrucción específica

El par aprende a reconocer. El triple aprende a responder. Un modelo con solo pares sabe qué cosas se parecen, pero no sabe seguir instrucciones. Uno con solo triples no tiene representaciones de base suficientemente robustas para generalizar fuera de las instrucciones vistas en el ajuste fino.

4. Por qué la calidad de datos manda¶

La lección más consistente de los sistemas multimodales es que la calidad de los datos de entrenamiento determina la robustez de las representaciones mucho más que las decisiones de arquitectura. Un modelo con arquitectura subóptima entrenado con datos de alta calidad tiende a superar a uno con arquitectura de vanguardia entrenado con datos ruidosos, al menos en las tareas que esos datos cubren bien.

Esa importancia absoluta de los datos se traduce en dos efectos que afectan directamente a cómo interpretar los resultados publicados.

El primero es que los benchmarks de evaluación de modelos multimodales son frecuentemente incompletos en su diagnóstico: un modelo puede obtener puntuaciones altas en tareas de descripción de imágenes mientras falla en tareas de localización o verificación, simplemente porque los datos con los que fue entrenado enfatizaron el primero y dejaron el segundo mal cubierto, de forma que la distribución de los datos de entrenamiento se refleja directamente en el perfil de capacidades del modelo.

El segundo efecto es que las debilidades se amplifican en cadena: si el preentrenamiento con pares imagen-texto produce representaciones donde ciertos tipos de imágenes están asociados débilmente con sus descripciones correctas, el entrenamiento de instrucción visual posterior no puede corregir ese problema desde cero, porque construye sobre las representaciones que recibe, con sus fortalezas y sus lagunas.

Radford et al. documentaron este patrón al analizar los fallos de CLIP en categorías de imágenes subrepresentadas en los datos de entrenamiento CLIP: el modelo generalizaba bien en categorías comunes y sistemáticamente peor en categorías infrecuentes, incluso cuando las imágenes eran de calidad equivalente. La corrección requería reequilibrar los datos, no cambiar la arquitectura.

Calidad de datos y perfil de capacidades

La distribución del conjunto de entrenamiento determina qué sabe hacer el modelo. Las debilidades de la base se amplifican en cada etapa posterior.

Categorías frecuentes en entrenamiento

personas

datos

modelo

vehículos

datos

modelo

animales domésticos

datos

modelo

≠

Categorías infrecuentes en entrenamiento

dispositivos médicos

datos

modelo

arte especializado

datos

modelo

documentos técnicos

datos

modelo

Observación de Radford et al. (CLIP, 2021)

La distribución de los datos de entrenamiento se refleja directamente en el perfil de capacidades del modelo. CLIP generalizaba bien en categorías comunes y sistemáticamente peor en categorías infrecuentes, aunque la calidad de las imágenes fuera equivalente. La corrección requería reequilibrar los datos, no cambiar la arquitectura.

5. El rol del alineamiento con preferencias humanas¶

Más allá del entrenamiento supervisado, los modelos multimodales más recientes incluyen una fase de alineamiento con preferencias humanas, análoga al RLHF que se aplica a los modelos de lenguaje. En esta fase, evaluadores humanos comparan respuestas del modelo a preguntas visuales y expresan cuál es mejor, de forma que el modelo aprende a generar respuestas que los humanos consideran útiles, correctas y alineadas con sus expectativas.

Esta fase captura algo que el entrenamiento supervisado puro no puede medir directamente: las preferencias subjetivas sobre cómo debe describir el modelo lo que ve, qué nivel de detalle es apropiado para distintos tipos de preguntas, y cómo equilibrar precisión y legibilidad en las respuestas.

El riesgo es que las preferencias de los evaluadores no son uniformes y pueden introducir sesgos culturales, de género o de gusto estético que se codifican en el modelo. Si los evaluadores tienden a preferir descripciones más largas y elaboradas, el modelo aprenderá a generar respuestas más largas con independencia de si esa longitud es apropiada para la pregunta. El sesgo no está en la arquitectura ni en los datos visuales sino en quién evalúa y qué criterios aplica, lo que hace que sea difícil de detectar con benchmarks estándar y más fácil de detectar en uso real.

Progresión del entrenamiento multimodal

Tres etapas con requisitos de datos distintos. Los fallos de cada etapa se propagan a las siguientes: datos ruidosos en la base producen representaciones frágiles que el ajuste fino no puede corregir.

Preentrenamiento con pares imagen-texto

Aprendizaje contrastivo

I₁ · T₁ par correcto

sim(v_I, v_T) ↑ — acercar en el espacio

I₁ · T₂ par incorrecto

sim(v_I, v_T') ↓ — alejar en el espacio

CLIP 400M pares · ALIGN 1.800M pares — alta escala, baja precisión por par

Qué sale bien

Categorías frecuentes aprenden representaciones sólidas. "perro", "ciudad", "comida" aparecen millones de veces en combinaciones distintas.

Categorías frecuentes

robusto

Qué falla

Pares ruidosos (pie de foto irrelevante, imagen de contexto) y categorías infrecuentes producen representaciones frágiles que el ajuste fino no puede corregir.

Categorías raras

frágil

⤷ Datos ruidosos aquí → representaciones frágiles → el ajuste fino trabaja sobre una base débil

Siguiente capítulo

Capítulo 3 — Arquitecturas → — Las cuatro familias de arquitectura multimodal, sus diferencias en calidad, coste y latencia, y por qué el embedding multimodal y la generación multimodal no son la misma capa del sistema.

6. Referencias¶

Fuentes base

Clave	Fuente	Descripción breve
R1	Radford et al. (2021) — Learning Transferable Visual Models From Natural Language Supervision (arXiv)	CLIP y el aprendizaje contrastivo a escala.
R2	Liu et al. (2023) — Visual Instruction Tuning (arXiv)	LLaVA: generación sintética de datos de instrucción visual con GPT-4.
R3	Li et al. (2023) — BLIP-2: Bootstrapping Language-Image Pre-training (arXiv)	Estrategia de entrenamiento en etapas para sistemas visión-lenguaje.
R4	Jain et al. (2023) — VCoder: Versatile Vision Encoders for Multimodal Large Language Models (arXiv)	Estudio de cómo la elección del encoder visual determina el perfil de capacidades del sistema multimodal, más allá de la arquitectura del LLM.
R5	Girdhar et al. (2023) — ImageBind: One Embedding Space To Bind Them All (CVPR)	Alineamiento de seis modalidades usando solo pares con imagen como ancla.
R6	Google DeepMind (2026) — Gemini Embedding 2 (blog)	Embedding nativo multimodal sobre texto, imágenes, vídeo, audio y documentos.
R7	Zhai et al. (2023) — Sigmoid Loss for Language Image Pre-Training (arXiv)	SigLIP: función de pérdida sigmoid por pares independientes que mejora la estabilidad respecto a CLIP.
R8	Oquab et al. (2023) — DINOv2: Learning Robust Visual Features without Supervision (arXiv)	DINOv2: encoder visual auto-supervisado con representaciones densas y mayor generalización espacial.