[Traducción] VLMs are blind: estudio sobre tareas visuales en las que fallan los modelos visión-lenguaje (fáciles para humanos) (feat. BlindTest)

(discuss.pytorch.kr)

8 puntos por ninebow 2024-07-13 | Aún no hay comentarios. | Compartir por WhatsApp

Introducción al artículo VLMs (Vision-Language Models) are Blind

En los últimos 8 meses, con la aparición de modelos de visión-lenguaje (VLM) como GPT-4V(ision), han aumentado rápidamente las aplicaciones de procesamiento de imagen-texto. Un VLM (Vision-Language Model, modelo de visión-lenguaje) puede identificar con precisión los objetos en una escena y, con base en ello, realizar tareas complejas. Por ejemplo, tareas como calcular el costo de una cerveza sobre una mesa a partir de la imagen de la escena y de una imagen del menú. Sin embargo, los VLM muestran limitaciones sorprendentes en ciertas tareas, lo que plantea la duda de si realmente perciben las imágenes como lo hacen los humanos. Para evaluar estas limitaciones, este artículo propone BlindTest, un conjunto de 7 tareas visuales. BlindTest presenta tareas muy fáciles para los humanos, pero que representan un gran desafío para los VLM más recientes.

El problema principal que aborda este artículo es la brecha entre las capacidades percibidas de los VLM y su rendimiento real en tareas visuales básicas. Aunque los VLM muestran resultados sobresalientes en benchmarks visuales de alto nivel, tienen dificultades con tareas simples que requieren comprensión espacial precisa y conteo. Resolver este problema es esencial para avanzar en la aplicación práctica de los VLM en escenarios de la vida real.

Algunos VLM implementados recientemente integran visión y lenguaje desde etapas tempranas de la arquitectura del modelo, lo que permite una interacción más fluida entre datos visuales y de texto. Otro enfoque combina los componentes de visión y lenguaje en una etapa posterior, con buen desempeño en comprensión del lenguaje, pero un rendimiento más débil en percepción visual. Los benchmarks actuales evalúan a los VLM en tareas complejas de razonamiento visual como MMMU y AI2D, pero con frecuencia pasan por alto tareas visuales de bajo nivel.

Este artículo introduce un nuevo benchmark llamado BlindTest para examinar las limitaciones de los modelos actuales de visión-lenguaje (VLM). BlindTest está compuesto por tareas visuales intuitivas y fáciles para las personas, como verificar si dos círculos se superponen o contar la cantidad de figuras en una imagen.

Modelo de visión-lenguaje (VLM, Vision-Language Model)

Los autores probaron cuatro VLM de última generación: GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet y Claude-3.5 Sonnet. Estos modelos ocupan posiciones altas en benchmarks multimodales recientes de visión y muestran un rendimiento sobresaliente en distintos temas. Por ejemplo, han obtenido muy buenos resultados en benchmarks como MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA y EgoSchema. Sin embargo, los benchmarks existentes solo miden el rendimiento general de los VLM y no dejan en claro sus limitaciones específicas. Por eso, diseñamos un nuevo benchmark para evaluar cómo responden los VLM ante tareas visuales simples. Este benchmark incluye formas geométricas 2D básicas y requiere un conocimiento previo mínimo.

Benchmark BlindTest

BlindTest está compuesto por 7 tareas visuales simples, y cada una evalúa cómo los VLM realizan percepción visual básica.

Task 1. Contar la cantidad de intersecciones 📈📉

En esta tarea se evalúan casos en los que dos funciones lineales de 2 segmentos tienen 0, 1 o 2 puntos de intersección. Para ello, se generaron 150 imágenes de gráficos de líneas en 2D. Cada gráfico está definido por tres coordenadas x fijas y coordenadas y seleccionadas aleatoriamente, y se dibuja sobre un lienzo blanco. En este proceso, se configuró que las líneas tuvieran exactamente 0, 1 o 2 puntos de intersección.

Cada pregunta se formula de dos maneras diferentes. La primera es "¿Cuántas veces se cruzan entre sí los gráficos de líneas azul y rojo?(How many times do the blue and red line plots cross each other?)", y la segunda es "¿Cuántas veces se intersectan las líneas azul y roja?(How many times do the blue and red lines intersect?)". Esto busca evaluar si el VLM puede reconocer diferencias sutiles en la redacción y extraer el mismo significado. Las distintas formulaciones de la pregunta son útiles para poner a prueba la capacidad de comprensión del modelo desde varios ángulos.

El rendimiento de los cuatro modelos en la tarea de contar intersecciones de líneas fue el siguiente. GPT-4o mostró una precisión de 48.67%, Gemini-1.5 Pro de 69.67%, Sonnet-3 de 64.00% y Sonnet-3.5 de 77.33%. Esto muestra que los VLM tienen dificultades para determinar si las líneas se cruzan. En particular, la gran diferencia de rendimiento entre modelos sugiere que su capacidad de procesamiento visual varía considerablemente. Estos resultados destacan la necesidad de más investigación para mejorar la comprensión visual de los VLM.

Task 2. Verificar el estado de dos círculos 🔴🔵

En esta tarea se evalúa si dos círculos rellenos del mismo tamaño se están tocando o superponiendo entre sí. Para ello, se generaron 672 imágenes. El tamaño, la distancia y la dirección de los círculos se configuraron de distintas maneras, y el tamaño del lienzo se estableció en 384, 769 y 1155 píxeles. El diámetro de los círculos se fijó en 1/4, 1/5, 1/6 y 1/7 del tamaño del lienzo, mientras que la distancia y la orientación de los círculos se definieron aleatoriamente.

Cada pregunta se formula de dos maneras diferentes. La primera es "¿Los dos círculos se tocan entre sí? Responde con Sí/No.(Are the two circles touching each other? Answer with Yes/No)", y la segunda es "¿Los dos círculos se superponen? Responde con Sí/No.(Are the two circles overlapping? Answer with Yes/No.)". Esto busca evaluar si el modelo puede reconocer diferencias sutiles en la redacción y extraer el mismo significado. Las distintas formulaciones de la pregunta son útiles para poner a prueba la capacidad de comprensión del modelo desde varios ángulos.

El rendimiento de los cuatro modelos al determinar si dos círculos están en contacto fue el siguiente. GPT-4o obtuvo en promedio 72.69%, Gemini-1.5 Pro 92.78%, Sonnet-3 84.52% y Sonnet-3.5 91.66% de precisión. Esto muestra que los VLM presentan cierto nivel de desempeño al juzgar si los círculos se superponen, pero todavía necesitan mejoras. En particular, la gran diferencia de rendimiento entre modelos sugiere que su capacidad de procesamiento visual varía.

Task 3. Identificar la letra encerrada en un círculo 🔤⭕

En esta tarea, se generan imágenes de distintas cadenas de texto en las que cada carácter es encerrado en un círculo en orden, para evaluar si el VLM puede reconocer qué letra fue marcada. Las cadenas seleccionadas son Acknowledgement, Subdermatoglyphic y tHyUiKaRbNqWeOpXcZvM, y cada carácter de cada cadena se marca en orden con un círculo. Con esto se evalúa si el VLM puede reconocer los pequeños espacios entre caracteres.

Se pregunta con dos prompts diferentes. El primero es "¿Qué letra está encerrada en un círculo?(Which letter is being circled?)", y el segundo es "¿Qué carácter está resaltado con un óvalo rojo?(Which character is being highlighted with a red oval?)". Esto busca evaluar si el modelo puede reconocer diferencias sutiles en la redacción y extraer el mismo significado. Las distintas formulaciones de la pregunta son útiles para poner a prueba la capacidad de comprensión del modelo desde varios ángulos.

El rendimiento de los cuatro modelos en la tarea de reconocer la letra encerrada en un círculo fue el siguiente. GPT-4o obtuvo en promedio 70.18%, Gemini-1.5 Pro 92.81%, Sonnet-3 73.34% y Sonnet-3.5 89.22% de precisión. Esto muestra que los VLM tienen dificultades para reconocer letras encerradas en un círculo.

Es decir, todos los VLM tuvieron dificultades para identificar con precisión los caracteres. En particular, se produjeron muchos errores cuando el círculo se superponía ligeramente con la letra. Esto muestra que los VLM no procesan con precisión la información visual detallada. Además, la gran diferencia de rendimiento entre modelos sugiere que su capacidad de procesamiento visual varía.

Task 4. Contar figuras superpuestas ∞

En esta tarea se realiza el conteo de la cantidad de círculos superpuestos, como en el logotipo olímpico. Para ello, se generaron 120 imágenes, y se hicieron experimentos incluyendo tanto círculos como pentágonos. Cada imagen contiene 5, 6, 7, 8 o 9 figuras superpuestas dispuestas en dos filas, y el tamaño y color de las figuras se configuraron de distintas maneras.

En esta tarea se hacen preguntas con dos prompts. El primero es: "¿Cuántos {shapes} hay en la imagen? Responde solo con el número en formato numérico.(How many {shapes} are in the image? Answer with only the number in numerical format)"; el segundo es: "Cuenta la cantidad de {shapes} en la imagen. Responde con un número entre llaves, por ejemplo {3}.(Count the {shapes} in the image. Answer with a number in curly brackets e.g. {3}.)". {shapes} se refiere a círculos o pentágonos. Esto busca evaluar si el modelo puede reconocer diferencias sutiles en la redacción y extraer el mismo significado.

El desempeño de los cuatro modelos al contar figuras superpuestas fue el siguiente. GPT-4o mostró una precisión de 42.50% para círculos y 19.16% para pentágonos, mientras que Gemini-1.5 Pro obtuvo 20.83% para círculos y 9.16% para pentágonos. Sonnet-3 logró 31.66% para círculos y 11.66% para pentágonos, y Sonnet-3.5 obtuvo 44.16% para círculos y 75.83% para pentágonos.

La mayoría de los modelos mostró un rendimiento bajo en esta tarea. En particular, tuvieron alta precisión cuando había 5 círculos, pero el desempeño cayó drásticamente por encima de esa cantidad. Esto muestra que los VLM no reconocen con precisión las figuras superpuestas.

Task 5. Conteo de cuadrados superpuestos 🔳🔲

En esta tarea, se generan imágenes superponiendo varias capas de cuadrados. Cada imagen incluye cuadrados de distintos tamaños, y el tamaño y la posición de los cuadrados se configuran aleatoriamente. Cada imagen contiene una cierta cantidad de cuadrados superpuestos, y el número de cuadrados es uno de estos: 2, 3, 4 o 5. Esta tarea busca evaluar si el VLM puede contar con precisión la cantidad de figuras superpuestas.

En esta tarea se hace la pregunta: "Cuenta el número total de cuadrados en la imagen.(Count the total number of squares in the image)". Esto busca evaluar si el VLM puede contar con precisión la cantidad de figuras superpuestas. También busca evaluar si el modelo puede reconocer diferencias sutiles en la redacción y extraer el mismo significado.

El desempeño de los cuatro modelos al contar cuadrados superpuestos fue el siguiente. GPT-4o obtuvo 48.33%, Gemini-1.5 Pro 80.00%, Sonnet-3 55.00% y Sonnet-3.5 87.50% de precisión. Esto muestra que los VLM tienen dificultades para contar la cantidad de cuadrados superpuestos.

Como puede verse en los resultados, todos los modelos mostraron una precisión consistentemente baja también en esta tarea. En particular, los errores aumentaron a medida que crecía el número de cuadrados. Esto muestra que los VLM tienen dificultades para reconocer con precisión figuras superpuestas. Además, la gran diferencia de desempeño entre modelos sugiere que su capacidad de procesamiento visual difiere.

Task 6. Conteo de matrices de cuadrícula ▦

En esta tarea, se generan imágenes de cuadrículas de distintos tamaños para realizar el conteo del número de filas y columnas. Cada imagen está compuesta por una cuadrícula con una cierta cantidad de filas y columnas, y algunas imágenes incluyen texto en cada celda. Además, el tamaño y la forma de la cuadrícula se configuran de manera diversa. Esto busca evaluar si el VLM puede contar con precisión el número de filas y columnas de una cuadrícula.

Cada pregunta está compuesta por dos redacciones distintas. La primera es: "Cuenta el número de filas y columnas y responde con números entre llaves. Por ejemplo, filas={5} columnas={6}(Count the number of rows and columns and answer with numbers in curly brackets. For example, rows={5} columns={6})"; la segunda es: "Cuenta el número de filas y columnas de la tabla. Responde solo con los números en un par. Por ejemplo, (5,6)(How many rows and columns are in the table? Answer with only the numbers in a pair (row, column), e.g., (5,6))." Esto busca evaluar si el modelo puede reconocer diferencias sutiles en la redacción y extraer el mismo significado.

El desempeño de los cuatro modelos al contar filas y columnas fue el siguiente. GPT-4o mostró una precisión promedio de 39.58%, Gemini-1.5 Pro de 35.79%, Sonnet-3 de 36.17% y Sonnet-3.5 de 74.26%.

Los resultados experimentales mostraron que el desempeño mejoró en las cuadrículas que incluían texto, pero aun así no alcanzó una alta precisión. Esto indica que los VLM no reconocen con exactitud la estructura detallada de la cuadrícula y por eso tienen dificultades para contar filas y columnas. En particular, la gran diferencia de desempeño entre modelos sugiere que su capacidad de procesamiento visual difiere.

Task 7. Seguir una ruta de un solo color 🔂

En esta tarea, se sigue una ruta monocromática para leer un mapa de metro. Cada imagen está compuesta por 4 estaciones fijas (A, B, C, D) y rutas que las conectan entre sí. Esto busca evaluar si el VLM puede seguir una ruta de un solo color.

Cada pregunta se compuso con dos prompts diferentes. El primero es: "¿Cuántas rutas de un solo color van de A a C? Responde con un número entre llaves. Por ejemplo: {3}(How many single-colored paths go from A to C? Answer with a number in curly brackets, e.g., {3})"; el segundo es: "Cuenta las rutas de un solo color que van de A a C. Responde con un número entre llaves. Por ejemplo: {3}(Count the one-colored routes that go from A to C. Answer with a number in curly brackets, e.g., {3}.)". Esto busca evaluar si el modelo puede reconocer diferencias sutiles en la redacción y extraer el mismo significado.

El desempeño de los cuatro modelos al seguir rutas de un solo color fue el siguiente. GPT-4o mostró una precisión promedio de 45.89%, Gemini-1.5 Pro de 40.01%, Sonnet-3 de 23.78% y Sonnet-3.5 de 50.18%. Es decir, todos los modelos mostraron un rendimiento bajo en esta tarea.

En particular, el desempeño cayó bruscamente a medida que aumentó el número de rutas. Esto muestra que los VLM tienen dificultades para seguir rutas de un solo color. La gran diferencia de desempeño entre modelos también sugiere que su capacidad de procesamiento visual difiere.

Resultados del experimento

Todos los VLM mostraron baja precisión incluso en tareas visuales simples. En particular, mostraron un desempeño marcadamente bajo en tareas como contar intersecciones de segmentos de línea, verificar el estado de dos círculos y comprobar caracteres encerrados en un círculo. Esto sugiere que los VLM no reconocen con precisión la información visual detallada. Además, también mostraron un desempeño consistentemente bajo en tareas como contar figuras superpuestas, contar cuadrados superpuestos, contar matrices de cuadrícula y seguir rutas de un solo color.

En general, el experimento confirmó que la capacidad de percepción visual de los VLM es limitada. Estos resultados implican que se necesitan muchas más mejoras para que los VLM alcancen una capacidad de reconocimiento visual al nivel humano.

Estudios relacionados y conclusión

Los benchmarks existentes de VLM se centran principalmente en evaluar capacidades de comprensión visual de alto nivel. Sin embargo, BlindTest es el primer benchmark que evalúa capacidades básicas de percepción visual, y muestra con claridad qué limitaciones tienen los VLM en tareas visuales simples.

Por ejemplo, benchmarks como MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA y EgoSchema solo miden el desempeño general de los VLM, pero no logran revelar con claridad sus limitaciones específicas. Por lo tanto, BlindTest es una herramienta importante para evaluar con mayor precisión la capacidad de percepción visual de los VLM. Además, BlindTest será un criterio importante para evaluar si los VLM no perciben imágenes como lo hacen los humanos.

El bajo desempeño en las tareas de BlindTest sugiere que los VLM actuales todavía no dominan tareas básicas de percepción visual que requieren una comprensión espacial precisa. Esta limitación muestra que los modelos tienden a depender de sus capacidades de procesamiento del lenguaje, lo que puede no ser adecuado para la percepción visual. Estos resultados subrayan la necesidad de más investigación y desarrollo para mejorar las capacidades visuales de los VLM.

En investigaciones futuras, se necesitan nuevos enfoques para mejorar las capacidades de percepción visual de los VLM. Por ejemplo, se puede mejorar el módulo de visión usando un enfoque de fusión temprana (early fusion). Además, es necesario diversificar los datos de entrenamiento para que los VLM puedan mostrar un mejor rendimiento en tareas visuales simples. Con estos esfuerzos, será posible mejorar las capacidades de percepción visual de los VLM.

Leer más

Este artículo se basa en un texto resumido con un modelo GPT, por lo que puede haber partes organizadas de forma distinta al contenido o la intención del texto original. Si el tema te interesa, te recomendamos consultar también la fuente original. Si mientras lees encuentras algo extraño o incorrecto, te agradeceremos que nos lo indiques en los comentarios. 🤗

⚠️Publicidad⚠️: ¿Te resultó útil este artículo preparado por 🔥PyTorch Korea User Group🇰🇷? Si te registras como miembro, te enviaremos por correo electrónico💌 los artículos principales. (La opción predeterminada es Weekly, pero también puedes cambiarla a Daily.)