Los modelos de lenguaje con visión no resuelven bien las tareas visuales
Resumen
- Los modelos de lenguaje con visión (VLMs) muestran un alto rendimiento en aplicaciones de procesamiento de imagen y texto, pero fallan en 7 tareas visuales que para los humanos son muy fáciles.
- Este estudio muestra que la capacidad de percepción visual de los VLMs es limitada.
Task 1: Cálculo de intersecciones de líneas
- Imagen: se generaron 150 gráficos de líneas 2D donde se cruzan dos segmentos de línea
- Pregunta: "¿Cuántas veces se cruzan la línea azul y la línea roja?"
- Resultado: los modelos no pudieron calcular con precisión las intersecciones
Task 2: Dos círculos
- Imagen: se generaron 672 imágenes que incluyen dos círculos con distintos tamaños, distancias y orientaciones
- Pregunta: "¿Los dos círculos se tocan entre sí?" o "¿Los dos círculos se superponen?"
- Resultado: los modelos fallan de forma consistente cuando la distancia es pequeña
Task 3: Letras rodeadas por círculos
- Imagen: se generaron imágenes donde cada letra de una palabra está rodeada por un círculo rojo
- Pregunta: "¿Qué letra está rodeada por un círculo?"
- Resultado: los modelos tienden a predecir letras adyacentes
Task 4: Conteo de figuras superpuestas
- Imagen: se generaron imágenes con círculos y pentágonos superpuestos, como en el logotipo olímpico
- Pregunta: "¿Cuántas figuras hay en la imagen?"
- Resultado: los modelos no pudieron contar con precisión la cantidad de figuras
Task 5: Conteo de rectángulos anidados
- Imagen: se generaron imágenes que incluyen rectángulos anidados
- Pregunta: "¿Cuántos rectángulos hay en total en la imagen?"
- Resultado: los modelos no pudieron contar con precisión la cantidad de rectángulos anidados
Task 6: Conteo de filas y columnas en una cuadrícula
- Imagen: se generaron imágenes que incluyen cuadrículas con texto y cuadrículas vacías
- Pregunta: "¿Cuántas filas y columnas hay en la cuadrícula?"
- Resultado: el rendimiento mejoró en las cuadrículas con texto, pero falló en las cuadrículas vacías
Task 7: Seguimiento de una ruta de un solo color
- Imagen: se generaron imágenes que incluyen mapas de líneas de metro
- Pregunta: "¿Cuántas rutas de un solo color hay de A a C?"
- Resultado: los modelos no pudieron calcular con precisión la cantidad de rutas
Resumen de GN⁺
- Este estudio muestra que la capacidad de percepción visual de los modelos de lenguaje con visión (VLMs) es limitada.
- Los VLMs fallan de forma consistente en tareas visuales que son fáciles para los humanos.
- Esto sugiere que se necesita más investigación para mejorar la capacidad de percepción visual de los VLMs.
- Otros proyectos con funciones similares incluyen GPT-4 de OpenAI y Gemini-1.5 Pro de Google.
1 comentarios
Comentarios de Hacker News
Creo que la conclusión es incorrecta
Se comparte una experiencia con Captcha
Problemas de los VLM para contar objetos y reconocer relaciones espaciales
Crítica al rendimiento de los modelos SOTA actuales
Opinión sobre la forma en que los VLM procesan imágenes
Se considera exagerado el título "Vision language models are blind"
Comprensión de cómo los modelos interpretan los datos de entrada
Opinión sobre el nivel de GPT-4
La IA tiene dificultades para leer imágenes de calendarios escolares