Evaluar si un modelo de lenguaje produce respuestas precisas y útiles es ya un problema complejo, pero cuando se añade la dimensión visual o auditiva la dificultad se multiplica de dos formas distintas.
La primera es que los benchmarks actuales de multimodalidad tienen dos problemas sistemáticos que llevan a sobrestimar las capacidades reales (la contaminación de datos de evaluación y la dominancia del texto en los benchmarks).
La segunda es que la evaluación ha estado dominada históricamente por tareas de visión-lenguaje, lo que ha dejado sin medir bien capacidades enteras: comprensión de documentos con layout complejo, razonamiento sobre audio, coherencia temporal en vídeo o calidad de salidas generadas en modalidades distintas al texto. OCRBench v2 y MMAU son recordatorios recientes de que ese espacio evaluado hasta ahora de forma superficial sigue siendo terreno difícil para los mejores modelos actuales.
En el contexto de los sistemas multimodales, grounding es el grado en que la respuesta del modelo está sustentada en el contenido real de la imagen o el audio, y no en inferencias estadísticas sobre qué tipo de respuesta es probable dado el texto de la pregunta. Un modelo puede responder correctamente a "¿qué color tiene el coche de la imagen?" sin haber procesado realmente la imagen, si el color más frecuente en su entrenamiento para coches en contextos similares coincide con el correcto.
Ese modelo no tiene grounding, sino un sesgo lingüístico fuerte que produce la respuesta acertada por razones equivocadas, y la diferencia resulta invisible mientras el sesgo estadístico y la respuesta correcta apunten en la misma dirección.
Para medir grounding, los benchmarks necesitan incluir ejemplos donde la respuesta correcta viola las expectativas estadísticas. Si todas las preguntas sobre frutas en las imágenes tienen respuestas que coinciden con las frutas más representadas en el entrenamiento, no hay forma de distinguir un modelo con comprensión visual real de uno que responde por probabilidad.
El Visual Question Answering Challenge (VQA), uno de los benchmarks más usados históricamente, tiene exactamente este problema Goyal et al., 2017. Un análisis publicado en 2017 mostró que un modelo que ignoraba completamente las imágenes y respondía basándose solo en la distribución de respuestas más frecuentes para cada tipo de pregunta obtenía resultados sorprendentemente altos. Las mejoras en los benchmarks posteriores introdujeron técnicas de balanceo para reducir este sesgo, aunque no lo eliminaron por completo.
Grounding: qué significa que un modelo "vea" de verdad
La diferencia entre responder desde la evidencia visual y responder desde la distribución estadística aprendida durante el entrenamiento.
La pregunta central de la evaluación
Cuando un modelo responde correctamente, ¿lo hace porque procesó la imagen o porque la respuesta era estadísticamente probable independientemente de ella?
Sin grounding
La imagen no determina la respuesta
imagen ignorada
↓
Prior estadístico
distribución aprendida en el entrenamiento
↓
"Blanco"
respuesta más frecuente en el corpus
vs
Con grounding
La imagen determina la respuesta
imagen analizada
↓
Evidencia visual
contenido real de la imagen procesado
↓
"Rojo"
color real del objeto en la imagen
Pregunta de referencia en ambas columnas
"¿De qué color es el coche de la imagen?" — El coche real es rojo, pero en el corpus de entrenamiento los coches son mayoritariamente blancos o grises.
El problema de fondo
El fallo solo es detectable cuando el prior estadístico y la respuesta correcta divergen. Si la imagen muestra lo más probable, el modelo sin grounding y el modelo con grounding producen la misma respuesta, y el benchmark no puede distinguirlos.
Fallo invisible
Prior coincide con la imagen
Imagen real
coche blanco
+
Prior más fuerte
"blanco"
→
Resultado
"Blanco" ✓
El modelo acierta, pero pudo hacerlo sin mirar la imagen. El benchmark no detecta nada.
Fallo visible
Prior diverge de la imagen
Imagen real
coche rojo
+
Prior más fuerte
"blanco"
→
Resultado
"Blanco" ✗
El modelo falla. Solo este caso permite detectar la ausencia de grounding real.
Implicación para el diseño de benchmarks
Un benchmark sin casos del segundo tipo no puede distinguir un modelo con comprensión visual real de uno que adivina por probabilidad. Los resultados solo serán válidos si el conjunto de evaluación incluye sistemáticamente ejemplos donde el prior estadístico falla.
La solución: contraejemplos diseñados
Los benchmarks que corrigen este problema incluyen sistemáticamente imágenes donde la respuesta correcta viola las expectativas estadísticas más frecuentes del corpus de entrenamiento.
1
Objetos con propiedades atípicas
Un plátano azul, un coche verde brillante, un edificio triangular. Si el modelo responde con el color o la forma más habitual, el fallo es inequívoco y no puede atribuirse al azar.
2
Conteos que violan la norma estadística
Si "2 o 3" domina en el corpus, el benchmark incluye imágenes con 7, 11 o 14 elementos del mismo tipo. Un modelo sin grounding cae en el rango estadístico habitual aunque la imagen muestre otra cosa.
3
Configuraciones espaciales infrecuentes
La esfera debajo del cubo. La taza a la izquierda del plato cuando el prior de entrenamiento es "a la derecha". Casos donde la configuración real invierte la expectativa estadística.
MMStar
Diseñado con contraejemplos donde el prior estadístico lleva sistemáticamente al error. Chen et al., 2024.
SEEDBench
Evalúa consistencia y razonamiento espacial, no solo exactitud en respuesta final. Li et al., 2023.
El segundo problema sistemático es la contaminación. Los modelos fundacionales se preentrenan con cantidades masivas de datos de internet, y no hay garantías de que los pares imagen-descripción o los conjuntos de evaluación no aparezcan en esos datos.
La contaminación en texto ya es un problema documentado: modelos que obtienen resultados excepcionales en ciertos benchmarks de razonamiento son capaces de recitar las respuestas correctas cuando se les proporciona el identificador del problema, lo que sugiere que el benchmark estaba en sus datos de entrenamiento. En multimodalidad el problema es potencialmente mayor, porque las imágenes de los benchmarks son frecuentemente fotografías disponibles públicamente que pueden haber aparecido en el conjunto de preentrenamiento junto con sus descripciones o etiquetas.
La solución técnica es usar benchmarks con datos de evaluación que no existían en internet en el momento del preentrenamiento del modelo o que están protegidos de la indexación, aunque en la práctica la recomendación más útil es interpretar los resultados con escepticismo cuando el modelo evaluado tiene preentrenamiento masivo sobre datos de internet, sobre todo si el benchmark es antiguo.
Los laboratorios más rigurosos realizan análisis de contaminación antes de publicar resultados: buscan en sus datos de entrenamiento imágenes similares a las del benchmark de evaluación y excluyen esas imágenes del análisis final. Sin ese análisis, los resultados publicados son una cota superior de la capacidad real del modelo en ese benchmark, no una medida directa.
Contaminación de benchmarks: cuando el examen ya fue visto
Las imágenes de evaluación aparecen en los datos de preentrenamiento. La puntuación refleja memorización, no capacidad real de generalización.
El problema
Los modelos fundacionales se preentrenan con cantidades masivas de datos de internet. No hay garantías de que los pares imagen-descripción usados para evaluación no aparecieran en esos datos. Si el modelo ya ha visto las imágenes del benchmark durante el entrenamiento, la puntuación no mide generalización.
Mecanismo de contaminación
Internet
fotografías públicas con etiquetas · datasets publicados · pares imagen-texto
→
Preentrenamiento
datos de entrenamiento del modelo
→
Benchmark
imágenes de evaluación (posiblemente ya vistas)
→
Puntuación inflada
no refleja capacidad real de generalización
Sin análisis de contaminación, los resultados publicados son una cota superior de la capacidad real del modelo en ese benchmark, no una medida directa.
La diferencia clave respecto al texto
La contaminación en texto ya es un problema documentado. En multimodalidad el problema es estructuralmente mayor: las imágenes de benchmark son con frecuencia fotografías públicas que pudieron aparecer en el preentrenamiento junto con sus descripciones, etiquetas y contexto textual circundante.
Contaminación en texto
Vector de contaminación
Respuestas correctas del benchmark aparecen en datos de entrenamiento
Señal de alerta
El modelo recita respuestas cuando se le da el ID del problema
Detección
Búsqueda de cadenas de texto en los datos de entrenamiento
Contaminación multimodal
más grave
Vector de contaminación
La imagen completa + su caption + texto circundante pueden estar en preentrenamiento
Problema adicional
Los benchmarks de imágenes usan frecuentemente fotos públicas existentes antes del modelo
Detección
Búsqueda de imágenes similares (perceptual hash) en datos de entrenamiento — más costosa
Implicación práctica
Los benchmarks más antiguos son los más sospechosos: más tiempo disponibles en internet significa más probabilidad de que sus imágenes estén en los datos de preentrenamiento de los modelos actuales. Los resultados son más fiables cuanto más reciente y más protegido de la indexación es el benchmark.
Mitigación en la práctica
Los laboratorios más rigurosos realizan análisis de contaminación antes de publicar resultados. Sin este análisis, los resultados son una cota superior de la capacidad real, no una medida directa.
1
Búsqueda de similitud perceptual
Calcular hashes perceptuales de las imágenes del benchmark y buscar coincidencias en los datos de preentrenamiento. La similitud exacta no es necesaria: imágenes casi idénticas ya constituyen contaminación.
2
Exclusión del análisis final
Las imágenes con coincidencias en los datos de entrenamiento se excluyen del análisis de resultados. Los resultados publicados indican qué porcentaje del benchmark fue excluido por esta razón.
3
Uso de benchmarks con datos no indexados
La solución más robusta es usar benchmarks creados con datos que no existían en internet en el momento del preentrenamiento del modelo, o que están protegidos de la indexación pública.
Regla de interpretación
El escepticismo sobre los resultados debe ser mayor cuanto más antiguo es el benchmark, más masivo es el preentrenamiento del modelo y más accesibles públicamente estaban las imágenes del benchmark en el momento del entrenamiento.
3. El sesgo lingüístico: responder por probabilidad, no por evidencia¶
El sesgo/prior lingüístico es la tendencia de los modelos a generar respuestas que son estadísticamente probables dado el texto de la pregunta, con independencia del contenido de la imagen. Es la forma más sutil de falta de grounding y la más difícil de detectar con benchmarks estándar, porque los errores que produce son invisibles cuando la distribución estadística coincide con la distribución de respuestas correctas.
Los experimentos de ablación son la herramienta estándar para medirlo: se presenta al modelo la pregunta sin imagen y se observa si la distribución de respuestas cambia significativamente. Cuando el modelo sin imagen obtiene resultados similares al modelo con imagen, el sesgo lingüístico está dominando la respuesta.
El efecto es especialmente marcado en categorías donde las distribuciones de entrenamiento están sesgadas: preguntas sobre el color habitual de ciertos objetos, la especie de un animal cuando solo hay uno visible, o el número de elementos en escenas donde dos o tres es la frecuencia dominante. En todos esos casos hay una distribución de respuesta muy sesgada que el modelo aprende durante el entrenamiento y que funciona como atajo, prescindiendo de la imagen cuando el sesgo es suficientemente fuerte.
El diseño de benchmarks que resisten el sesgo lingüístico requiere técnicas activas: contraejemplos donde el objeto tiene un color inusual, escenas donde el número de elementos viola las expectativas, configuraciones espaciales que son poco frecuentes en el entrenamiento. MMStar y SEEDBench son ejemplos de benchmarks diseñados con atención explícita a este problema.
Prior lingüístico: responder por probabilidad, no por evidencia
La tendencia de los modelos a generar respuestas estadísticamente probables dado el texto de la pregunta, con independencia del contenido real de la imagen.
Qué es el prior lingüístico
Durante el preentrenamiento, el modelo aprende distribuciones de respuesta para cada tipo de pregunta. Esas distribuciones actúan como atajos: ante preguntas cuya respuesta es muy predecible, el modelo la genera directamente desde el prior sin necesitar la imagen.
¿De qué color es el coche?
Distribución de respuesta aprendida (sin ver la imagen)
blanco
42%
gris
26%
negro
17%
rojo
8%
otros
7%
Resultado
El modelo responde "blanco" aunque el coche de la imagen sea rojo. Cuando el prior es suficientemente fuerte, el modelo no necesita consultar la imagen para generar la respuesta más probable.
Por qué es difícil de detectar
El error es invisible cuando la distribución estadística coincide con la distribución de respuestas correctas. En benchmarks donde la mayoría de los coches son blancos o grises, un modelo sin visión real puede obtener puntuaciones altas usando solo el prior.
La herramienta de diagnóstico
El experimento de ablación consiste en presentar la misma pregunta al modelo con y sin imagen. Si la distribución de respuestas no cambia significativamente, el prior lingüístico domina la generación y la imagen no está contribuyendo a la respuesta.
Escenario real
coche rojo en la imagen
"¿De qué color es el coche?"
Modelo + imagen
imagen activa
↓
"Blanco"
responde por prior, no por imagen
prior domina
Modelo sin imagen
imagen eliminada
↓
"Blanco"
misma respuesta sin ver nada
prior confirmado
Interpretación del resultado
Si la respuesta es la misma con y sin imagen, la imagen no está contribuyendo a la generación. El modelo no está "viendo": está generando desde la distribución estadística aprendida durante el entrenamiento. Un resultado diferente entre ambas condiciones es evidencia necesaria (pero no suficiente) de que la imagen influye en la respuesta.
Dónde el prior es más fuerte
El efecto es especialmente marcado en categorías donde las distribuciones de entrenamiento están sesgadas. En esas categorías, la respuesta estadísticamente más probable es tan dominante que el modelo prescinde de la evidencia visual aunque esté presente.
Colores de objetos frecuentes
"¿De qué color es el coche?"
Los coches en datasets de imágenes cotidianas son predominantemente blancos, grises y negros. El prior de "blanco" es tan fuerte que supera la evidencia para colores inusuales.
Benchmark robusto: incluir objetos con colores deliberadamente inusuales para ese tipo de objeto.
Especies de animales
"¿Qué animal hay en la imagen?"
Si hay un solo animal visible, el prior de "cuál es la especie más representada en escenas similares" es muy fuerte. El perro domina en imágenes domésticas, el gato le sigue. Especies raras se pierden.
Benchmark robusto: incluir especies poco frecuentes en el corpus en contextos domésticos o urbanos.
Conteo de elementos
"¿Cuántos objetos hay en la imagen?"
El rango 2-4 domina en imágenes de datasets cotidianos. Cuando se pregunta por el número de elementos, el modelo tiende a responder en ese rango independientemente de lo que muestre la imagen.
Benchmark robusto: incluir imágenes con cantidades que violen el rango estadístico habitual (0, 1, 7, 12, 20).
La exactitud en la respuesta final no captura toda la información relevante sobre las capacidades de un modelo multimodal. Los evaluadores más rigurosos incluyen tres dimensiones adicionales que revelan aspectos distintos de la comprensión visual.
Consistencia. Un modelo genuinamente capaz debería responder de forma consistente a parafraseos de la misma pregunta. Cuando la respuesta cambia drásticamente ante una formulación semánticamente equivalente, el modelo no tiene comprensión robusta del contenido visual, sino sensibilidad a la forma superficial de la pregunta.
Localización cuando es relevante. Para tareas donde la respuesta depende de la ubicación de elementos en la imagen, la evaluación debería verificar no solo si la respuesta final es correcta sino también si el modelo puede señalar dónde en la imagen está el elemento relevante. Un modelo que responde correctamente "hay tres coches" pero no puede delimitar dónde están tiene un tipo de comprensión distinto al de un modelo que puede hacerlo, y esa diferencia importa en aplicaciones donde la localización es parte del resultado esperado Hu et al., 2024.
Calibración. Los modelos deberían poder expresar incertidumbre cuando el contenido visual es ambiguo o cuando la pregunta no tiene respuesta clara dado el contenido disponible. Un modelo que siempre genera una respuesta con alta confianza, incluso ante imágenes ambiguas o preguntas que no pueden responderse sin información adicional, no está calibrado correctamente, lo que en producción se traduce en respuestas falsamente definitivas donde el sistema debería abstenerse o pedir aclaración.
Cuatro dimensiones que la exactitud no captura
Un modelo puede acertar en el benchmark por razones equivocadas. Estas cuatro métricas revelan si la comprensión visual es real o aparente.
⊙
Grounding
¿La respuesta está anclada en el contenido real de la imagen?
Qué mide
Si la respuesta del modelo depende del contenido real de la imagen o del prior estadístico aprendido durante el entrenamiento. Un modelo con grounding produce respuestas distintas ante imágenes distintas aunque la pregunta sea la misma.
Fallo de grounding
↓
"blanco"
responde el color más frecuente en el corpus, ignora la imagen
Con grounding
↓
"naranja"
responde desde la evidencia visual real
Test diagnóstico
Experimento de ablación: presentar la misma pregunta sin imagen. Si la respuesta no cambia, el prior domina y el grounding es aparente, no real.
⇄
Consistencia
¿Responde igual a parafraseos semánticamente equivalentes?
Qué mide
Un modelo con comprensión robusta debería producir la misma respuesta ante formulaciones distintas de la misma pregunta sobre la misma imagen. Cuando la respuesta cambia drásticamente ante una reformulación semánticamente equivalente, el modelo es sensible a la forma superficial del texto, no al contenido visual.
Misma imagen · misma pregunta · formulaciones distintas
"¿Cuántas personas hay en la imagen?"
"Tres"
"¿Qué número de personas aparece en la escena?"
"Tres personas"
"En la imagen, ¿se pueden contar cuántas personas hay?"
"Sí, hay cuatro"
inconsistencia
Señal de fallo
La respuesta cambia al reformular sin cambiar el contenido. El modelo no tiene una representación estable del contenido visual: responde en función de cómo está formulada la pregunta, no de lo que muestra la imagen.
SEEDBench
Incluye evaluación de consistencia sobre la misma imagen con preguntas reformuladas. Li et al., 2023.
◎
Localización
¿Puede señalar dónde en la imagen está el elemento relevante?
Qué mide
Para tareas donde la respuesta depende de la posición de elementos en la imagen, la evaluación debería verificar no solo si la respuesta final es correcta sino también si el modelo puede delimitar dónde se encuentra el elemento relevante. Ambos tipos de comprensión son distintos y los dos importan en aplicaciones reales.
Comprensión parcial
"Hay tres coches"
respuesta correcta · sin localización
Comprensión con localización
"Tres coches: izq, centro-arr, der"
respuesta + delimitación espacial
Por qué importa en producción
Un sistema de detección de objetos, análisis de escenas o asistencia en tiempo real necesita saber dónde están los elementos, no solo que existen. La localización es la dimensión que distingue "saber qué hay" de "saber dónde está".
≈
Calibración
¿Expresa incertidumbre ante imágenes ambiguas o preguntas sin respuesta posible?
Qué mide
Un modelo bien calibrado expresa incertidumbre cuando el contenido visual es ambiguo o cuando la pregunta no tiene respuesta clara dado el contenido disponible. En producción, un modelo que siempre responde con alta confianza genera afirmaciones falsamente definitivas donde debería abstenerse o pedir aclaración.
Modelo mal calibrado
"¿Qué marca de coche es ese?" [imagen borrosa, logo irreconocible]
"Es un Toyota Corolla de 2019."
confianza alta · sin evidencia · alucinación
Modelo bien calibrado
"¿Qué marca de coche es ese?" [imagen borrosa, logo irreconocible]
"La imagen no tiene suficiente resolución para identificar la marca con certeza. El vehículo parece un sedán de tamaño mediano, pero no puedo precisar más."
incertidumbre expresada · respuesta ajustada a la evidencia
Señal de fallo en producción
Un modelo que siempre genera una respuesta con alta confianza, incluso ante imágenes ambiguas o preguntas sin respuesta posible dado el contenido disponible, no está calibrado. En producción eso se traduce en respuestas falsamente definitivas donde el sistema debería abstenerse o escalar la incertidumbre al usuario.
5. Dominios donde la evaluación sigue siendo difícil¶
La evaluación de multimodalidad ha estado dominada por VQA y tareas de grounding visual porque son las más fáciles de automatizar y de convertir en benchmarks con respuestas de elección única. Eso ha creado un punto ciego sistemático: los dominios donde la evaluación es más difícil de automatizar son precisamente los que más revelan sobre las limitaciones reales de los modelos.
Documentos con layout complejo. OCRBench v2, publicado en 2024, evaluó a modelos multimodales avanzados en tareas de localización de texto, reconocimiento de manuscrito y razonamiento lógico sobre documentos Liu et al., 2024. Los resultados mostraron que incluso modelos con puntuaciones altas en VQA tropiezan en escenarios de documento real: texto en orientaciones no estándar, tablas con celdas fusionadas, fórmulas matemáticas integradas en flujo de texto, o preguntas que requieren cruzar información de varias regiones del mismo documento. OmniDocBench, presentado en CVPR 2025, extendió esa evaluación a documentos con layouts no estándar: múltiples columnas, figuras flotantes, elementos con alineación no lineal. La evaluación de 13 modelos SOTA mostró el mismo colapso: sistemas que alcanzan entre el 80 y el 90% de precisión en texto estándar caen al 36,9% en reconstrucción de layouts complejos, lo que confirma que el límite no está en el reconocimiento visual sino en la integración de estructura y semántica en escenas que no son prosa lineal Ouyang et al., 2025.
OCRBench v2: "leer" un documento ≠ "razonar sobre" él
Los modelos que leen texto limpio con alta precisión tropiezan ante el layout real de documentos. OCRBench v2 mide la brecha entre ambos regímenes.
Caso resuelto
Texto estándar en orientación horizontal
Documento de entrada
Fuente estándar · orientación horizontal · sin estructura compleja
Resultado del modelo
Extracción de texto
Texto extraído con alta fidelidad. Errores tipográficos menores ocasionales en caracteres poco frecuentes.
Precisión típica
~90%
Tareas bien resueltas
Transcribir párrafos de texto continuo
Leer números y fechas en formato estándar
Identificar títulos y secciones con formato claro
Por qué funciona bien aquí
El texto en orientación horizontal con fuente estándar está bien representado en los datos de preentrenamiento de los modelos. El modelo puede aplicar su capacidad de reconocimiento de patrones directamente sin necesitar razonar sobre estructura.
Zona de dificultad
Layout complejo: estructura que rompe el parsing lineal
Documento de entrada
Celdas fusionadas · texto rotado · fórmula integrada en flujo
Resultado del modelo
Problemas frecuentes
Confusión en la asignación de valores a columnas con celdas fusionadas. Texto rotado ignorado o mal transcrito. Fórmulas descontextualizadas del flujo de datos.
Precisión típica
~54%
Rendimiento degradado
Leer texto en orientación no estándar
Asignar valores a filas en tablas con celdas fusionadas
Extraer fórmulas integradas en texto narrativo
Por qué falla aquí
El modelo procesa el documento como secuencia de texto, no como estructura con relaciones espaciales entre celdas. Las celdas fusionadas, el texto rotado y las fórmulas requieren interpretar el layout como semántico, no solo extraer cadenas de caracteres.
Límite principal
Razonamiento cruzado entre regiones del documento
Documento de entrada
Dos regiones del documento a páginas de distancia
La pregunta que falla
Pregunta de razonamiento cruzado
"¿El IVA declarado en la sección 5.4 coincide con el 21% de la base imponible indicada en la sección 2.1?"
Pasos necesarios
1
Localizar "base imponible" en región A → €1.458,53
2
Localizar "IVA" en región B → €388,97
3
Calcular: €1.458,53 × 0,21 = €306,29
!
€388,97 ≠ €306,29 → discrepancia. El modelo frecuentemente no llega aquí.
Rendimiento crítico
Vincular información de regiones distantes en el documento
Verificar consistencia numérica entre secciones
Razonar sobre la estructura lógica del documento
La brecha que reveló OCRBench v2
La diferencia entre "leer" y "razonar sobre" un documento sigue siendo sustancial. Un modelo puede extraer texto con alta precisión y aun así fallar ante preguntas que requieren cruzar información de regiones distintas, porque eso exige mantener coherencia lógica a través de la estructura del documento, no solo reconocer caracteres.
Audio experto. MMAU, publicado por Adobe Research en 2024, evaluó comprensión y razonamiento sobre audio en tres categorías: habla, sonidos no verbales del entorno y música Sakshi et al., 2024. Los resultados mostraron que incluso los modelos más fuertes quedan significativamente por debajo del rendimiento humano experto en las tareas más difíciles de cada categoría, y que la degradación es especialmente marcada cuando la tarea requiere razonar sobre la causa del sonido (no solo identificarlo), inferir contexto de múltiples fuentes sonoras simultáneas, o distinguir entre variantes musicales que comparten estructura superficial. Esos límites son especialmente relevantes para sistemas de audio nativo como Gemini 2.5 o Qwen2.5-Omni, donde las expectativas de capacidad suelen estar por encima de lo que los benchmarks disponibles pueden confirmar.
Razonamiento experto. MMMU, publicado en 2023, evaluó la capacidad de los modelos de razonar sobre contenido visual en 30 asignaturas universitarias agrupadas en 6 disciplinas (Arte y Diseño, Negocios, Ciencia, Salud y Medicina, Humanidades y Ciencias Sociales, e Ingeniería y Tecnología). A diferencia de los benchmarks de descripción de imágenes, MMMU exige integrar conocimiento de dominio con comprensión visual: no basta con leer bien la imagen, el modelo tiene que saber qué significa lo que ve. Los resultados mostraron una brecha persistente entre los mejores modelos y el rendimiento humano experto, sobre todo en disciplinas donde la imagen no es ilustración sino que contiene la evidencia decisiva: diagramas de circuito, gráficos de laboratorio, radiografías Yue et al., 2023.
Vídeo larga duración. Video-MME, publicado en 2024, evaluó la comprensión de vídeos en rangos desde minutos hasta horas, con preguntas que requieren tracking temporal, análisis de cambios entre segmentos y síntesis de información distribuida a lo largo de todo el vídeo. La evaluación reveló una caída pronunciada en calidad a medida que aumenta la duración: los modelos que comprenden bien vídeos cortos fallan en las versiones largas de las mismas tareas, porque el mecanismo de atención pierde coherencia temporal a escala de minutos u horas, un límite que los benchmarks de imagen o vídeo corto no capturan Fu et al., 2024. ZeroBench, publicado en febrero de 2025, señaló otro ángulo del problema: evaluó 20 modelos frontier en cien tareas de cognición espacial visual sobre imágenes estáticas, y todos obtuvieron un 0,0% de precisión Roberts et al., 2025. No se trata de coherencia temporal sino de algo más básico: el razonamiento espacial puro, en escenas que cualquier niño de tres años resuelve sin esfuerzo, excede de forma sistemática lo que cualquier modelo actual puede hacer. LVOmniBench, presentado en 2026, confirmó el patrón en larga duración con vídeos reales de entre 10 y 90 minutos: todos los modelos de código abierto quedan por debajo del 35% de precisión, con el mejor modelo comercial evaluado alcanzando solo el 65%.
Video-MME: la comprensión de vídeo no escala con la duración
Los modelos que comprenden bien vídeos cortos fallan en versiones largas de las mismas tareas. La coherencia de atención se degrada a escala de minutos u horas.
Exactitud en preguntas temporales
78%
mejor resultado en Video-MME (segmento corto)
0:001:30
ventana de atención activa
Densidad de atención temporal
Situación
Toda la información cabe en el contexto activo
El modelo puede atender a cualquier frame del vídeo con la misma eficacia. Las preguntas que requieren vincular el inicio con el final del clip son manejables porque la distancia en tokens es pequeña.
Tareas bien resueltas
Identificar el objeto que aparece primero
Contar acciones en el clip
Describir la secuencia de eventos
Verificar si algo cambia entre inicio y final
Exactitud en preguntas temporales
54%
caída de 24 pp respecto a vídeo corto
0:007:3015:00
contexto activo (últimos frames)
Densidad de atención temporal
Situación
El contexto no cubre todo el vídeo
El modelo tiene que comprimir o descartar frames del inicio para mantener el vídeo en el contexto. Las preguntas que vinculan información del principio y el final del vídeo fallan porque una de las referencias está comprimida o descartada.
Rendimiento degradado
Describir la segunda mitad del vídeo
Comparar algo del inicio con el final
Contar cuántas veces aparece X a lo largo del vídeo
Verificar si el estado inicial se mantuvo
Exactitud en preguntas temporales
38%
caída de 40 pp respecto a vídeo corto · apenas supera nivel aleatorio
0:0030 min60 min
solo final
Densidad de atención temporal
Situación
La mayor parte del vídeo es inaccesible
El modelo solo tiene acceso coherente a los últimos minutos del vídeo. Las preguntas sobre eventos anteriores se responden por prior o se inventan. El modelo no sabe qué ha perdido: genera respuestas con la misma confianza que en vídeos cortos.
Rendimiento crítico
Resumir el vídeo completo
Identificar el personaje que aparece en el minuto 12
Verificar si una afirmación es consistente con el vídeo entero
Describir la evolución de un tema a lo largo de la hora
Implicación para sistemas en producción
Los sistemas que analizan reuniones largas, películas o conferencias completas están en este régimen. Los benchmarks de vídeo corto no predicen su rendimiento real. Un modelo con 78% en clips cortos puede estar cerca del nivel aleatorio en vídeos de una hora.
Alucinaciones visuales. HallusionBench, publicado en 2023, fue diseñado para detectar alucinaciones específicas en sistemas visión-lenguaje: casos donde el modelo afirma ver elementos ausentes, niega la presencia de elementos visibles, o atribuye relaciones espaciales incorrectas a objetos que puede identificar individualmente. Los resultados mostraron que la alucinación visual es un patrón consistente en todos los modelos evaluados, no un fenómeno marginal, y que la frecuencia varía según el tipo de tarea (conteo, razonamiento espacial, existencia) de forma que no hay un modelo robusto en todas las categorías a la vez Liu et al., 2023.
HallusionBench: tres patrones de alucinación visual
La alucinación visual no es un fenómeno marginal. HallusionBench identificó tres patrones distintos y consistentes en todos los modelos evaluados, incluyendo los más capaces.
Imagen real
Solo hay un vaso en la imagen
Pregunta
"¿Hay algún libro en la imagen?"
Modelo hallucinating
"Sí, en la parte izquierda de la imagen hay un libro de tapa roja apoyado contra la pared."
alucinación · elemento inexistente
Respuesta correcta
"No, no hay ningún libro en la imagen. Solo aparece un vaso sobre la mesa."
correcto · grounding real
Mecanismo subyacente
El modelo genera un objeto plausible para la escena descrita (mesa + vaso → libro es coherente con una escena doméstica) usando su prior sobre decorados típicos, sin verificar la evidencia visual. La respuesta es fluida y convincente.
Imagen real
Documento con cifras claramente visibles
Pregunta
"¿Aparece alguna cifra de IVA en este documento?"
Modelo hallucinating
"La imagen no contiene información numérica suficientemente clara para identificar cifras de IVA con certeza."
alucinación · elemento presente negado
Respuesta correcta
"Sí. El documento muestra IVA: €388,97 sobre una base imponible de €1.458,53."
correcto · grounding real
Mecanismo subyacente
El modelo expresa incertidumbre sobre contenido que sí está presente, posiblemente porque el documento tiene una tipografía o un layout fuera de su distribución de entrenamiento. La alucinación es inversa: en lugar de generar algo que no existe, niega algo que sí existe.
Imagen real
El cubo está encima de la esfera
Pregunta
"¿Qué objeto está encima: el cubo o la esfera?"
Modelo hallucinating
"La esfera está encima del cubo. La esfera azul reposa sobre la superficie superior del cubo verde."
alucinación · relación espacial invertida
Respuesta correcta
"El cubo está encima. La esfera está en la parte inferior y el cubo descansa sobre ella."
correcto · grounding real
Mecanismo subyacente
Las esferas son más livianas y se asocian con estar encima en el corpus de entrenamiento (globos, pelotas sobre superficies). El prior estadístico de "esfera encima" es más fuerte que la evidencia visual de la disposición real, especialmente cuando ambos objetos son reconocibles individualmente.
Patrón común a los tres tipos
1
Afirmar ausente
2
Negar presente
3
Relación espacial errónea
En todos los casos el prior lingüístico supera la evidencia visual. La respuesta suena confiada y fluida aunque sea factualmente incorrecta. Los benchmarks estándar de VQA no detectan estos patrones porque no están diseñados para hacerlo.
Salidas multimodales. No hay benchmarks establecidos que midan bien la calidad de respuesta oral en tiempo real, la coherencia entre texto y voz generados simultáneamente, o la precisión de imágenes generadas condicionadas en texto más imagen de entrada. Esta ausencia de métricas significa que no sabemos con precisión dónde están los límites actuales de los sistemas que trabajan en ese espacio.
Siguiente capítulo
Capítulo 5 — Riesgos → — Qué riesgos son específicos de la multimodalidad, por qué el grounding deficiente tiene consecuencias distintas según la modalidad, y cómo cambia el perfil de riesgo cuando percepción y acción quedan acopladas en el mismo sistema.
Benchmark de localización de texto, manuscrito y razonamiento lógico sobre documentos.
R6
Sakshi et al. (2024) — MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark (Adobe Research)
Benchmark de comprensión y razonamiento de audio con habla, sonidos no verbales y música.
R7
Yue et al. (2023) — MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI (arXiv)
Benchmark de razonamiento visual en 57 disciplinas universitarias con brecha persistente respecto a humanos expertos.
R8
Fu et al. (2024) — Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis (arXiv)
Benchmark de comprensión de vídeo en rangos de duración desde minutos hasta horas.
R9
Liu et al. (2023) — HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models (arXiv)
Benchmark específico para detectar alucinaciones visuales en sistemas visión-lenguaje.
R10
Ouyang et al. (2024) — OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations (arXiv)
Benchmark de parsing de PDFs con layouts complejos; presentado en CVPR 2025.
R11
Roberts et al. (2025) — ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models (arXiv)
Benchmark imposible: 20 modelos frontier evaluados, todos con 0,0% en cognición espacial visual.