Saltar a contenido

Capítulo 4 — Evaluación: medir sin autoengañarse

⏱️ Tiempo de lectura: 9 min

Evaluar si un modelo de lenguaje produce respuestas precisas y útiles es ya un problema complejo, pero cuando se añade la dimensión visual o auditiva la dificultad se multiplica de dos formas distintas.

La primera es que los benchmarks actuales de multimodalidad tienen dos problemas sistemáticos que llevan a sobrestimar las capacidades reales (la contaminación de datos de evaluación y la dominancia del texto en los benchmarks).

La segunda es que la evaluación ha estado dominada históricamente por tareas de visión-lenguaje, lo que ha dejado sin medir bien capacidades enteras: comprensión de documentos con layout complejo, razonamiento sobre audio, coherencia temporal en vídeo o calidad de salidas generadas en modalidades distintas al texto. OCRBench v2 y MMAU son recordatorios recientes de que ese espacio evaluado hasta ahora de forma superficial sigue siendo terreno difícil para los mejores modelos actuales.


1. Qué significa evaluar el grounding

En el contexto de los sistemas multimodales, grounding es el grado en que la respuesta del modelo está sustentada en el contenido real de la imagen o el audio, y no en inferencias estadísticas sobre qué tipo de respuesta es probable dado el texto de la pregunta. Un modelo puede responder correctamente a "¿qué color tiene el coche de la imagen?" sin haber procesado realmente la imagen, si el color más frecuente en su entrenamiento para coches en contextos similares coincide con el correcto.

Ese modelo no tiene grounding, sino un sesgo lingüístico fuerte que produce la respuesta acertada por razones equivocadas, y la diferencia resulta invisible mientras el sesgo estadístico y la respuesta correcta apunten en la misma dirección.

Para medir grounding, los benchmarks necesitan incluir ejemplos donde la respuesta correcta viola las expectativas estadísticas. Si todas las preguntas sobre frutas en las imágenes tienen respuestas que coinciden con las frutas más representadas en el entrenamiento, no hay forma de distinguir un modelo con comprensión visual real de uno que responde por probabilidad.

El Visual Question Answering Challenge (VQA), uno de los benchmarks más usados históricamente, tiene exactamente este problema Goyal et al., 2017. Un análisis publicado en 2017 mostró que un modelo que ignoraba completamente las imágenes y respondía basándose solo en la distribución de respuestas más frecuentes para cada tipo de pregunta obtenía resultados sorprendentemente altos. Las mejoras en los benchmarks posteriores introdujeron técnicas de balanceo para reducir este sesgo, aunque no lo eliminaron por completo.

Grounding: qué significa que un modelo "vea" de verdad
La diferencia entre responder desde la evidencia visual y responder desde la distribución estadística aprendida durante el entrenamiento.
La pregunta central de la evaluación
Cuando un modelo responde correctamente, ¿lo hace porque procesó la imagen o porque la respuesta era estadísticamente probable independientemente de ella?
Sin grounding
La imagen no determina la respuesta
imagen ignorada
Prior estadístico
distribución aprendida en el entrenamiento
"Blanco"
respuesta más frecuente en el corpus
vs
Con grounding
La imagen determina la respuesta
imagen analizada
Evidencia visual
contenido real de la imagen procesado
"Rojo"
color real del objeto en la imagen
Pregunta de referencia en ambas columnas
"¿De qué color es el coche de la imagen?" — El coche real es rojo, pero en el corpus de entrenamiento los coches son mayoritariamente blancos o grises.

2. El problema de la contaminación de benchmarks

El segundo problema sistemático es la contaminación. Los modelos fundacionales se preentrenan con cantidades masivas de datos de internet, y no hay garantías de que los pares imagen-descripción o los conjuntos de evaluación no aparezcan en esos datos.

La contaminación en texto ya es un problema documentado: modelos que obtienen resultados excepcionales en ciertos benchmarks de razonamiento son capaces de recitar las respuestas correctas cuando se les proporciona el identificador del problema, lo que sugiere que el benchmark estaba en sus datos de entrenamiento. En multimodalidad el problema es potencialmente mayor, porque las imágenes de los benchmarks son frecuentemente fotografías disponibles públicamente que pueden haber aparecido en el conjunto de preentrenamiento junto con sus descripciones o etiquetas.

La solución técnica es usar benchmarks con datos de evaluación que no existían en internet en el momento del preentrenamiento del modelo o que están protegidos de la indexación, aunque en la práctica la recomendación más útil es interpretar los resultados con escepticismo cuando el modelo evaluado tiene preentrenamiento masivo sobre datos de internet, sobre todo si el benchmark es antiguo.

Los laboratorios más rigurosos realizan análisis de contaminación antes de publicar resultados: buscan en sus datos de entrenamiento imágenes similares a las del benchmark de evaluación y excluyen esas imágenes del análisis final. Sin ese análisis, los resultados publicados son una cota superior de la capacidad real del modelo en ese benchmark, no una medida directa.

Contaminación de benchmarks: cuando el examen ya fue visto
Las imágenes de evaluación aparecen en los datos de preentrenamiento. La puntuación refleja memorización, no capacidad real de generalización.
El problema
Los modelos fundacionales se preentrenan con cantidades masivas de datos de internet. No hay garantías de que los pares imagen-descripción usados para evaluación no aparecieran en esos datos. Si el modelo ya ha visto las imágenes del benchmark durante el entrenamiento, la puntuación no mide generalización.
Mecanismo de contaminación
Internet
fotografías públicas con etiquetas · datasets publicados · pares imagen-texto
Preentrenamiento
datos de entrenamiento del modelo
Benchmark
imágenes de evaluación (posiblemente ya vistas)
Puntuación inflada
no refleja capacidad real de generalización
Sin análisis de contaminación, los resultados publicados son una cota superior de la capacidad real del modelo en ese benchmark, no una medida directa.

3. El sesgo lingüístico: responder por probabilidad, no por evidencia

El sesgo/prior lingüístico es la tendencia de los modelos a generar respuestas que son estadísticamente probables dado el texto de la pregunta, con independencia del contenido de la imagen. Es la forma más sutil de falta de grounding y la más difícil de detectar con benchmarks estándar, porque los errores que produce son invisibles cuando la distribución estadística coincide con la distribución de respuestas correctas.

Los experimentos de ablación son la herramienta estándar para medirlo: se presenta al modelo la pregunta sin imagen y se observa si la distribución de respuestas cambia significativamente. Cuando el modelo sin imagen obtiene resultados similares al modelo con imagen, el sesgo lingüístico está dominando la respuesta.

El efecto es especialmente marcado en categorías donde las distribuciones de entrenamiento están sesgadas: preguntas sobre el color habitual de ciertos objetos, la especie de un animal cuando solo hay uno visible, o el número de elementos en escenas donde dos o tres es la frecuencia dominante. En todos esos casos hay una distribución de respuesta muy sesgada que el modelo aprende durante el entrenamiento y que funciona como atajo, prescindiendo de la imagen cuando el sesgo es suficientemente fuerte.

El diseño de benchmarks que resisten el sesgo lingüístico requiere técnicas activas: contraejemplos donde el objeto tiene un color inusual, escenas donde el número de elementos viola las expectativas, configuraciones espaciales que son poco frecuentes en el entrenamiento. MMStar y SEEDBench son ejemplos de benchmarks diseñados con atención explícita a este problema.

Prior lingüístico: responder por probabilidad, no por evidencia
La tendencia de los modelos a generar respuestas estadísticamente probables dado el texto de la pregunta, con independencia del contenido real de la imagen.
Qué es el prior lingüístico
Durante el preentrenamiento, el modelo aprende distribuciones de respuesta para cada tipo de pregunta. Esas distribuciones actúan como atajos: ante preguntas cuya respuesta es muy predecible, el modelo la genera directamente desde el prior sin necesitar la imagen.
¿De qué color es el coche?
Distribución de respuesta aprendida (sin ver la imagen)
blanco
42%
gris
26%
negro
17%
rojo
8%
otros
7%
Resultado
El modelo responde "blanco" aunque el coche de la imagen sea rojo. Cuando el prior es suficientemente fuerte, el modelo no necesita consultar la imagen para generar la respuesta más probable.
Por qué es difícil de detectar
El error es invisible cuando la distribución estadística coincide con la distribución de respuestas correctas. En benchmarks donde la mayoría de los coches son blancos o grises, un modelo sin visión real puede obtener puntuaciones altas usando solo el prior.

4. Métricas más allá de la exactitud

La exactitud en la respuesta final no captura toda la información relevante sobre las capacidades de un modelo multimodal. Los evaluadores más rigurosos incluyen tres dimensiones adicionales que revelan aspectos distintos de la comprensión visual.

Consistencia. Un modelo genuinamente capaz debería responder de forma consistente a parafraseos de la misma pregunta. Cuando la respuesta cambia drásticamente ante una formulación semánticamente equivalente, el modelo no tiene comprensión robusta del contenido visual, sino sensibilidad a la forma superficial de la pregunta.

Localización cuando es relevante. Para tareas donde la respuesta depende de la ubicación de elementos en la imagen, la evaluación debería verificar no solo si la respuesta final es correcta sino también si el modelo puede señalar dónde en la imagen está el elemento relevante. Un modelo que responde correctamente "hay tres coches" pero no puede delimitar dónde están tiene un tipo de comprensión distinto al de un modelo que puede hacerlo, y esa diferencia importa en aplicaciones donde la localización es parte del resultado esperado Hu et al., 2024.

Calibración. Los modelos deberían poder expresar incertidumbre cuando el contenido visual es ambiguo o cuando la pregunta no tiene respuesta clara dado el contenido disponible. Un modelo que siempre genera una respuesta con alta confianza, incluso ante imágenes ambiguas o preguntas que no pueden responderse sin información adicional, no está calibrado correctamente, lo que en producción se traduce en respuestas falsamente definitivas donde el sistema debería abstenerse o pedir aclaración.

Cuatro dimensiones que la exactitud no captura
Un modelo puede acertar en el benchmark por razones equivocadas. Estas cuatro métricas revelan si la comprensión visual es real o aparente.
Grounding
¿La respuesta está anclada en el contenido real de la imagen?
Qué mide
Si la respuesta del modelo depende del contenido real de la imagen o del prior estadístico aprendido durante el entrenamiento. Un modelo con grounding produce respuestas distintas ante imágenes distintas aunque la pregunta sea la misma.
Fallo de grounding
naranja
"blanco"
responde el color más frecuente en el corpus, ignora la imagen
Con grounding
naranja
"naranja"
responde desde la evidencia visual real
Test diagnóstico
Experimento de ablación: presentar la misma pregunta sin imagen. Si la respuesta no cambia, el prior domina y el grounding es aparente, no real.

5. Dominios donde la evaluación sigue siendo difícil

La evaluación de multimodalidad ha estado dominada por VQA y tareas de grounding visual porque son las más fáciles de automatizar y de convertir en benchmarks con respuestas de elección única. Eso ha creado un punto ciego sistemático: los dominios donde la evaluación es más difícil de automatizar son precisamente los que más revelan sobre las limitaciones reales de los modelos.

Documentos con layout complejo. OCRBench v2, publicado en 2024, evaluó a modelos multimodales avanzados en tareas de localización de texto, reconocimiento de manuscrito y razonamiento lógico sobre documentos Liu et al., 2024. Los resultados mostraron que incluso modelos con puntuaciones altas en VQA tropiezan en escenarios de documento real: texto en orientaciones no estándar, tablas con celdas fusionadas, fórmulas matemáticas integradas en flujo de texto, o preguntas que requieren cruzar información de varias regiones del mismo documento. OmniDocBench, presentado en CVPR 2025, extendió esa evaluación a documentos con layouts no estándar: múltiples columnas, figuras flotantes, elementos con alineación no lineal. La evaluación de 13 modelos SOTA mostró el mismo colapso: sistemas que alcanzan entre el 80 y el 90% de precisión en texto estándar caen al 36,9% en reconstrucción de layouts complejos, lo que confirma que el límite no está en el reconocimiento visual sino en la integración de estructura y semántica en escenas que no son prosa lineal Ouyang et al., 2025.

OCRBench v2: "leer" un documento ≠ "razonar sobre" él
Los modelos que leen texto limpio con alta precisión tropiezan ante el layout real de documentos. OCRBench v2 mide la brecha entre ambos regímenes.
Caso resuelto
Texto estándar en orientación horizontal
Documento de entrada
Fuente estándar · orientación horizontal · sin estructura compleja
Resultado del modelo
Extracción de texto
Texto extraído con alta fidelidad. Errores tipográficos menores ocasionales en caracteres poco frecuentes.
Precisión típica
~90%
Tareas bien resueltas
Transcribir párrafos de texto continuo
Leer números y fechas en formato estándar
Identificar títulos y secciones con formato claro
Por qué funciona bien aquí
El texto en orientación horizontal con fuente estándar está bien representado en los datos de preentrenamiento de los modelos. El modelo puede aplicar su capacidad de reconocimiento de patrones directamente sin necesitar razonar sobre estructura.

Audio experto. MMAU, publicado por Adobe Research en 2024, evaluó comprensión y razonamiento sobre audio en tres categorías: habla, sonidos no verbales del entorno y música Sakshi et al., 2024. Los resultados mostraron que incluso los modelos más fuertes quedan significativamente por debajo del rendimiento humano experto en las tareas más difíciles de cada categoría, y que la degradación es especialmente marcada cuando la tarea requiere razonar sobre la causa del sonido (no solo identificarlo), inferir contexto de múltiples fuentes sonoras simultáneas, o distinguir entre variantes musicales que comparten estructura superficial. Esos límites son especialmente relevantes para sistemas de audio nativo como Gemini 2.5 o Qwen2.5-Omni, donde las expectativas de capacidad suelen estar por encima de lo que los benchmarks disponibles pueden confirmar.

Razonamiento experto. MMMU, publicado en 2023, evaluó la capacidad de los modelos de razonar sobre contenido visual en 30 asignaturas universitarias agrupadas en 6 disciplinas (Arte y Diseño, Negocios, Ciencia, Salud y Medicina, Humanidades y Ciencias Sociales, e Ingeniería y Tecnología). A diferencia de los benchmarks de descripción de imágenes, MMMU exige integrar conocimiento de dominio con comprensión visual: no basta con leer bien la imagen, el modelo tiene que saber qué significa lo que ve. Los resultados mostraron una brecha persistente entre los mejores modelos y el rendimiento humano experto, sobre todo en disciplinas donde la imagen no es ilustración sino que contiene la evidencia decisiva: diagramas de circuito, gráficos de laboratorio, radiografías Yue et al., 2023.

Vídeo larga duración. Video-MME, publicado en 2024, evaluó la comprensión de vídeos en rangos desde minutos hasta horas, con preguntas que requieren tracking temporal, análisis de cambios entre segmentos y síntesis de información distribuida a lo largo de todo el vídeo. La evaluación reveló una caída pronunciada en calidad a medida que aumenta la duración: los modelos que comprenden bien vídeos cortos fallan en las versiones largas de las mismas tareas, porque el mecanismo de atención pierde coherencia temporal a escala de minutos u horas, un límite que los benchmarks de imagen o vídeo corto no capturan Fu et al., 2024. ZeroBench, publicado en febrero de 2025, señaló otro ángulo del problema: evaluó 20 modelos frontier en cien tareas de cognición espacial visual sobre imágenes estáticas, y todos obtuvieron un 0,0% de precisión Roberts et al., 2025. No se trata de coherencia temporal sino de algo más básico: el razonamiento espacial puro, en escenas que cualquier niño de tres años resuelve sin esfuerzo, excede de forma sistemática lo que cualquier modelo actual puede hacer. LVOmniBench, presentado en 2026, confirmó el patrón en larga duración con vídeos reales de entre 10 y 90 minutos: todos los modelos de código abierto quedan por debajo del 35% de precisión, con el mejor modelo comercial evaluado alcanzando solo el 65%.

Video-MME: la comprensión de vídeo no escala con la duración
Los modelos que comprenden bien vídeos cortos fallan en versiones largas de las mismas tareas. La coherencia de atención se degrada a escala de minutos u horas.
Exactitud en preguntas temporales
78%
mejor resultado en Video-MME (segmento corto)
0:00 1:30
ventana de atención activa
Densidad de atención temporal
coherencia alta · todo el vídeo en contexto
Situación
Toda la información cabe en el contexto activo
El modelo puede atender a cualquier frame del vídeo con la misma eficacia. Las preguntas que requieren vincular el inicio con el final del clip son manejables porque la distancia en tokens es pequeña.
Tareas bien resueltas
Identificar el objeto que aparece primero
Contar acciones en el clip
Describir la secuencia de eventos
Verificar si algo cambia entre inicio y final

Alucinaciones visuales. HallusionBench, publicado en 2023, fue diseñado para detectar alucinaciones específicas en sistemas visión-lenguaje: casos donde el modelo afirma ver elementos ausentes, niega la presencia de elementos visibles, o atribuye relaciones espaciales incorrectas a objetos que puede identificar individualmente. Los resultados mostraron que la alucinación visual es un patrón consistente en todos los modelos evaluados, no un fenómeno marginal, y que la frecuencia varía según el tipo de tarea (conteo, razonamiento espacial, existencia) de forma que no hay un modelo robusto en todas las categorías a la vez Liu et al., 2023.

HallusionBench: tres patrones de alucinación visual
La alucinación visual no es un fenómeno marginal. HallusionBench identificó tres patrones distintos y consistentes en todos los modelos evaluados, incluyendo los más capaces.
Imagen real
vaso sin objetos sin objetos
Solo hay un vaso en la imagen
Pregunta
"¿Hay algún libro en la imagen?"
Modelo hallucinating
"Sí, en la parte izquierda de la imagen hay un libro de tapa roja apoyado contra la pared."
alucinación · elemento inexistente
Respuesta correcta
"No, no hay ningún libro en la imagen. Solo aparece un vaso sobre la mesa."
correcto · grounding real
Mecanismo subyacente
El modelo genera un objeto plausible para la escena descrita (mesa + vaso → libro es coherente con una escena doméstica) usando su prior sobre decorados típicos, sin verificar la evidencia visual. La respuesta es fluida y convincente.

Salidas multimodales. No hay benchmarks establecidos que midan bien la calidad de respuesta oral en tiempo real, la coherencia entre texto y voz generados simultáneamente, o la precisión de imágenes generadas condicionadas en texto más imagen de entrada. Esta ausencia de métricas significa que no sabemos con precisión dónde están los límites actuales de los sistemas que trabajan en ese espacio.


Siguiente capítulo

Capítulo 5 — Riesgos → — Qué riesgos son específicos de la multimodalidad, por qué el grounding deficiente tiene consecuencias distintas según la modalidad, y cómo cambia el perfil de riesgo cuando percepción y acción quedan acopladas en el mismo sistema.

6. Referencias

Fuentes base
Clave Fuente Descripción breve
R1 Goyal et al. (2017)Making the V in VQA Matter (arXiv) Análisis del prior lingüístico en VQA y VQA v2.
R2 Li et al. (2023)SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension (arXiv) Benchmark diseñado para reducir contaminación y prior lingüístico.
R3 Chen et al. (2024)MMStar: Are We on the Right Way for Evaluating Large Vision-Language Models? (arXiv) Análisis de fugas en benchmarks multimodales y propuesta de evaluación más rigurosa.
R4 Hu et al. (2024)Evaluating Visual Grounding in Large Vision-Language Models (arXiv) Revisión de métricas de evaluación de grounding visual en VLMs con énfasis en localización y calibración.
R5 Liu et al. (2024)OCRBench v2 (arXiv) Benchmark de localización de texto, manuscrito y razonamiento lógico sobre documentos.
R6 Sakshi et al. (2024)MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark (Adobe Research) Benchmark de comprensión y razonamiento de audio con habla, sonidos no verbales y música.
R7 Yue et al. (2023)MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI (arXiv) Benchmark de razonamiento visual en 57 disciplinas universitarias con brecha persistente respecto a humanos expertos.
R8 Fu et al. (2024)Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis (arXiv) Benchmark de comprensión de vídeo en rangos de duración desde minutos hasta horas.
R9 Liu et al. (2023)HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models (arXiv) Benchmark específico para detectar alucinaciones visuales en sistemas visión-lenguaje.
R10 Ouyang et al. (2024)OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations (arXiv) Benchmark de parsing de PDFs con layouts complejos; presentado en CVPR 2025.
R11 Roberts et al. (2025)ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models (arXiv) Benchmark imposible: 20 modelos frontier evaluados, todos con 0,0% en cognición espacial visual.