2 puntos por GN⁺ 2024-07-11 | 1 comentarios | Compartir por WhatsApp

Los modelos de lenguaje con visión no resuelven bien las tareas visuales

Resumen

  • Los modelos de lenguaje con visión (VLMs) muestran un alto rendimiento en aplicaciones de procesamiento de imagen y texto, pero fallan en 7 tareas visuales que para los humanos son muy fáciles.
  • Este estudio muestra que la capacidad de percepción visual de los VLMs es limitada.

Task 1: Cálculo de intersecciones de líneas

  • Imagen: se generaron 150 gráficos de líneas 2D donde se cruzan dos segmentos de línea
  • Pregunta: "¿Cuántas veces se cruzan la línea azul y la línea roja?"
  • Resultado: los modelos no pudieron calcular con precisión las intersecciones

Task 2: Dos círculos

  • Imagen: se generaron 672 imágenes que incluyen dos círculos con distintos tamaños, distancias y orientaciones
  • Pregunta: "¿Los dos círculos se tocan entre sí?" o "¿Los dos círculos se superponen?"
  • Resultado: los modelos fallan de forma consistente cuando la distancia es pequeña

Task 3: Letras rodeadas por círculos

  • Imagen: se generaron imágenes donde cada letra de una palabra está rodeada por un círculo rojo
  • Pregunta: "¿Qué letra está rodeada por un círculo?"
  • Resultado: los modelos tienden a predecir letras adyacentes

Task 4: Conteo de figuras superpuestas

  • Imagen: se generaron imágenes con círculos y pentágonos superpuestos, como en el logotipo olímpico
  • Pregunta: "¿Cuántas figuras hay en la imagen?"
  • Resultado: los modelos no pudieron contar con precisión la cantidad de figuras

Task 5: Conteo de rectángulos anidados

  • Imagen: se generaron imágenes que incluyen rectángulos anidados
  • Pregunta: "¿Cuántos rectángulos hay en total en la imagen?"
  • Resultado: los modelos no pudieron contar con precisión la cantidad de rectángulos anidados

Task 6: Conteo de filas y columnas en una cuadrícula

  • Imagen: se generaron imágenes que incluyen cuadrículas con texto y cuadrículas vacías
  • Pregunta: "¿Cuántas filas y columnas hay en la cuadrícula?"
  • Resultado: el rendimiento mejoró en las cuadrículas con texto, pero falló en las cuadrículas vacías

Task 7: Seguimiento de una ruta de un solo color

  • Imagen: se generaron imágenes que incluyen mapas de líneas de metro
  • Pregunta: "¿Cuántas rutas de un solo color hay de A a C?"
  • Resultado: los modelos no pudieron calcular con precisión la cantidad de rutas

Resumen de GN⁺

  • Este estudio muestra que la capacidad de percepción visual de los modelos de lenguaje con visión (VLMs) es limitada.
  • Los VLMs fallan de forma consistente en tareas visuales que son fáciles para los humanos.
  • Esto sugiere que se necesita más investigación para mejorar la capacidad de percepción visual de los VLMs.
  • Otros proyectos con funciones similares incluyen GPT-4 de OpenAI y Gemini-1.5 Pro de Google.

1 comentarios

 
GN⁺ 2024-07-11
Comentarios de Hacker News
  • Creo que la conclusión es incorrecta

    • La analogía de la "visión de una persona miope" es una exageración
    • Hay ejemplos de GPT-4v realizando bien tareas visuales detalladas
    • Los modelos grandes de GenAI funcionan bien cuando se entrenan con muchos datos
    • La evidencia presentada por los autores es insuficiente
  • Se comparte una experiencia con Captcha

    • GPT-4o ayudó a resolver un problema con una puerta de garaje
    • Identificó una instalación incorrecta en una foto, pero pasó por alto una tuerca faltante
  • Problemas de los VLM para contar objetos y reconocer relaciones espaciales

    • El Set of Marks de Microsoft podría ayudar
    • Proporcionar etiquetas que se puedan "decir" contribuye a mejorar el rendimiento
  • Crítica al rendimiento de los modelos SOTA actuales

    • Fallan en tareas que para los humanos son fáciles
    • Ejemplos: contar cruces de líneas, detectar superposición de círculos, etc.
  • Opinión sobre la forma en que los VLM procesan imágenes

    • Los humanos pueden enfocarse en áreas de interés, pero los VLM procesan toda la imagen con la misma resolución
    • Hay curiosidad sobre cómo entrenar modelos con datos de interacción
  • Se considera exagerado el título "Vision language models are blind"

    • La forma en que los VLM procesan la entrada de imágenes es distinta
    • Pueden perder detalles a baja resolución
    • Como ejemplo, la respuesta de Sonnet 3.5 fue en general correcta, aunque tuvo algunos errores
  • Comprensión de cómo los modelos interpretan los datos de entrada

    • Los LLM y los modelos multimodales carecen de capacidad de razonamiento concreto
    • Ejemplo: ChatGPT resume bien textos, pero no cuenta bien las palabras
    • El problema clave para desarrollar AGI es combinar inteligencia de alto nivel y de bajo nivel
  • Opinión sobre el nivel de GPT-4

    • Se cita la afirmación de Mira Murati de que GPT-4 está a nivel de preparatoria
  • La IA tiene dificultades para leer imágenes de calendarios escolares

    • Si se le preguntan fechas específicas, acierta algunas, pero omite otras o inventa fechas nuevas
    • Si se elimina el ruido, el rendimiento mejora un poco, pero sigue sin ser confiable