Saltar a contenido

Multimodalidad en IA generativa

⏱️ Tiempo de lectura: 2 min

Estado En construcción Nivel General
Progreso
0/5

La multimodalidad es el salto de “hablar con una IA” a interactuar con un sistema que puede combinar texto con imágenes, audio o vídeo.
El cambio importante no es añadir entradas/salidas nuevas, sino que el modelo pueda cruzar información entre lo que “lee” en lenguaje natural con lo que “observa” en una imagen o lo que “escucha” en un audio.

Índice

1. El problema: "unificar" señales distintas

  • Qué significa que un modelo pueda relacionar lo que “ve”/“oye” con lo que “entiende” en texto: una representación común, no un truco de entrada/salida.
  • Qué cosas esperamos de un sistema multimodal y por qué son difíciles (describir, localizar, comparar, verificar y actuar).

2. Alineamiento: de pares a mundos (texto↔imagen↔audio)

  • Cómo se entrena la base de pares simples (imagen↔texto) a instrucciones multimodales (pregunta→respuesta, explicación, extracción).
  • Por qué la calidad y estructura de datos manda: si los pares son ruidosos, el modelo aprende asociaciones frágiles.

3. Arquitecturas: encoder-decoder, fusión, y modelos nativamente tokenizados

  • Tres formas de conectar visión y lenguaje: convertir imagen/audio en señales “entendibles” por el modelo, fusionarlas con texto, y decidir cuándo mezclar información.
  • Calidad vs coste vs latencia, y por qué algunas arquitecturas son más fáciles de servir que otras.

4. Evaluación

  • Por qué medir multimodalidad es más difícil que medir texto (y cómo evitar autoengaños y fugas de evaluación).
  • Hay que medir grounding (si la respuesta está sustentada en la imagen/audio).
  • Hay fugas por contaminación de benchmarks y por “prior” lingüístico (responder por probabilidad, no por evidencia).

5. Riesgos: prompt-injection visual, jailbreaks y seguridad operacional

  • Prompt injection multimodal.
  • Fugas de sistema/políticas, y manipulación de herramientas (si hay tool-use).
  • Privacidad (imágenes/documentos) y data poisoning.