Las limitaciones visuales de los modelos de lenguaje con visión

(vlmsareblind.github.io)

2 puntos por GN⁺ 2024-07-11 | 1 comentarios | Compartir por WhatsApp

Los modelos de lenguaje con visión (VLM) como GPT-4o, Gemini-1.5 Pro, Sonnet-3 y Sonnet-3.5 obtienen puntajes altos en benchmarks de comprensión visual, pero en tareas visuales de bajo nivel que las personas resuelven fácilmente se quedan en una precisión promedio de 58.57%
BlindTest evalúa el reconocimiento espacial preciso con 7 tareas simples, como contar intersecciones de líneas, contacto y superposición entre dos círculos, encontrar la letra marcada, contar figuras superpuestas, rectángulos anidados, filas y columnas de tablas, y rutas de metro
El promedio general supera la línea base aleatoria de 24%, pero incluso el mejor modelo, Sonnet-3.5, se queda en 74.94%, muy lejos del 100% que se esperaría de una persona
Incluso al cambiar la resolución y el grosor de las líneas, los modelos no logran manejar de forma estable elementos geométricos básicos que están muy cerca o superpuestos, ni relaciones posicionales precisas
Cuando una tabla incluye texto, mejora el rendimiento para contar filas y columnas, pero en entradas que requieren seguimiento espacial, como un mapa de metro con más rutas, el rendimiento cae con fuerza

Configuración del problema de BlindTest y resultados generales

Se publicaron el Paper (ArXiv), el Code y el Dataset
Los cuatro VLM evaluados fueron GPT-4o, Gemini-1.5 Pro, Sonnet-3 y Sonnet-3.5
BlindTest revisa el reconocimiento espacial preciso de los VLM con tareas visuales de bajo nivel que los humanos resuelven fácilmente
La precisión promedio total fue de 58.57%, superior a la línea base aleatoria de 24%, pero todavía lejos del 100% esperado
En el promedio total por modelo, Sonnet-3.5 fue el mejor con 74.94%
Los principales fallos se repiten en relaciones posicionales precisas, distancias cortas, superposición, seguimiento de rutas y reconocimiento de elementos geométricos básicos

Contar intersecciones de líneas

Es una tarea para contar si una polilínea azul y otra roja, cada una compuesta por 2 segmentos, se cruzan 0, 1 o 2 veces
Las imágenes se generaron como 1,800 gráficos de líneas 2D sobre un lienzo blanco
- Cada línea se define con tres puntos de coordenada x fija y espaciado uniforme
- Las coordenadas y se muestrean aleatoriamente para producir exactamente 0, 1 o 2 intersecciones
Las opciones de respuesta correctas son {0, 1, 2} y la línea base aleatoria es de 33%
La precisión promedio fue GPT-4o 41.61%, Gemini-1.5 Pro 66.94%, Sonnet-3 43.41% y Sonnet-3.5 75.36%
En los ejemplos, los VLM no logran contar de forma consistente los puntos de intersección

Determinar contacto y superposición entre dos círculos

Es una tarea de Yes/No para preguntar si dos círculos rellenos del mismo tamaño se tocan o se superponen
Hay 672 imágenes generadas variando el tamaño, la distancia, la orientación y el tamaño del lienzo
- El diámetro del círculo es 1/4, 1/5, 1/6 o 1/7 del tamaño del lienzo
- La distancia entre circunferencias va de -0.15 veces el diámetro a 0.5 veces el diámetro
- La orientación es 90°, 0°, -45° y 45°
- Los tamaños del lienzo son 384, 769 y 1155 píxeles
La respuesta correcta se determina por la distancia d entre las circunferencias
- d < 0: se superponen y se tocan
- d = 0: no se superponen pero sí se tocan
- d > 0: no se superponen ni se tocan
La precisión promedio fue GPT-4o 72.69%, Gemini-1.5 Pro 92.78%, Sonnet-3 84.52% y Sonnet-3.5 91.66%
Los VLM fallan de forma persistente cuando el espacio es pequeño, y GPT-4o muestra casos inestables incluso con separaciones grandes

Encontrar la letra marcada con un óvalo rojo

Aunque por sí solos los VLM pueden identificar figuras básicas como un círculo rojo y también leer palabras en inglés, cuando se superpone un óvalo rojo sobre una letra específica dentro de una palabra les cuesta identificar exactamente qué letra es
Las cadenas usadas fueron Acknowledgement, Subdermatoglyphic y tHyUiKaRbNqWeOpXcZvM
- Las tres cadenas tienen variaciones en el ancho y alto de las letras
- Los cuatro modelos pueden leer todos los caracteres cuando reciben solo la imagen de la cadena
- La cadena aleatoria se incluyó para medir el impacto de la familiaridad de la palabra sobre la precisión
Para cada combinación de cadena y letra marcada se generaron imágenes de 512×512, combinando 3 grosores de línea del óvalo rojo, 2 tamaños de fuente y 4 posiciones dentro del lienzo
- 360 imágenes para Acknowledgement
- 408 imágenes para Subdermatoglyphic
- 480 imágenes para tHyUiKaRbNqWeOpXcZvM
La precisión promedio fue GPT-4o 70.18%, Gemini-1.5 Pro 92.81%, Sonnet-3 73.34% y Sonnet-3.5 89.22%
Cuando se equivocan, los modelos tienden a predecir una letra adyacente a la marcada

Contar figuras superpuestas y rectángulos anidados

La tarea de contar círculos o pentágonos superpuestos, como en el logo olímpico, busca comprobar si incluso los VLM que pueden contar círculos separados tienen dificultades con figuras superpuestas
La tarea de figuras superpuestas coloca entre 5 y 9 figuras del mismo tamaño en dos filas sobre lienzos de 384, 769 y 1155 píxeles
- El diámetro de los círculos es C/5 o C/10
- La longitud del lado de los pentágonos es C/5 o C/10
- Se generaron 120 imágenes en total
- Las respuestas correctas son {5, 6, 7, 8, 9} y la línea base aleatoria es de 20%
La precisión con círculos superpuestos fue GPT-4o 42.50%, Gemini-1.5 Pro 20.83%, Sonnet-3 31.66% y Sonnet-3.5 44.16%
La precisión con pentágonos superpuestos fue GPT-4o 19.16%, Gemini-1.5 Pro 9.16%, Sonnet-3 11.66% y Sonnet-3.5 75.83%
La tarea de rectángulos anidados consiste en contar entre 2 y 5 rectángulos colocados dentro del rectángulo más externo sin tocarse entre sí
- Se generaron 120 imágenes en total
- La precisión fue GPT-4o 55.83%, Gemini-1.5 Pro 87.08%, Sonnet-3 65.00% y Sonnet-3.5 92.08%
- En los ejemplos, solo Sonnet-3.5 logra contar rectángulos con éxito en muchas imágenes

Contar filas y columnas de tablas y seguir rutas de metro

La tarea de contar filas y columnas en tablas verifica si, incluso en situaciones donde los VLM muestran alto rendimiento con entradas que contienen tablas, realmente pueden contar bien una estructura de cuadrícula simple
La cuadrícula puede ser N×N, N×N' o N'×N, donde N va de 3 a 9 y N' es N+1
- Los tamaños del lienzo son 500, 1250 y 2000 píxeles
- Hay 2 grosores de línea
- Incluye tanto cuadrículas vacías como cuadrículas con palabras aleatorias en cada celda, para un total de 444 imágenes
Para acertar, hay que identificar correctamente tanto las filas como las columnas; la precisión promedio fue GPT-4o 39.58%, Gemini-1.5 Pro 39.39%, Sonnet-3 36.17% y Sonnet-3.5 74.26%
- El promedio en cuadrículas vacías fue 34.37%
- El promedio en cuadrículas con texto fue 60.33%
- Cuando hay texto en las celdas, mejora el rendimiento de todos los VLM, especialmente el de Sonnet-3.5
La tarea del mapa de metro consiste en contar cuántas rutas de un solo color conectan dos estaciones específicas entre cuatro estaciones A, B, C y D
- Se usan lienzos de 512 o 1024 píxeles
- Las rutas se generan con búsqueda en profundidad sobre una cuadrícula invisible de 18×18
- Cada estación tiene exactamente N∈{1, 2, 3} rutas salientes
- Se generaron 180 mapas en total
La precisión promedio en rutas de metro fue GPT-4o 47.89%, Gemini-1.5 Pro 41.60%, Sonnet-3 23.24% y Sonnet-3.5 55.53%
- El promedio fue 59.16% cuando cada estación tenía 1 ruta
- 40.69% cuando tenía 2 rutas
- 26.35% cuando tenía 3 rutas
A medida que aumenta el número de rutas salientes por estación, el rendimiento de los VLM tiende a empeorar

1 comentarios

GN⁺ 2024-07-11

Opiniones de Hacker News

Es divertido, pero la conclusión parece bastante desviada. Es exagerado escribir en el resumen que “su visión, en el mejor de los casos, se parece a la miopía, donde los detalles se ven borrosos”, y también me pregunto si realmente pusieron a prueba esa hipótesis de forma adecuada.
Si pudiera compartir ejemplos en los que GPT-4v realizó tareas visuales detalladas bastante difíciles en el trabajo, eso bastaría para refutar esta conclusión. Personalmente, valoro más este artículo https://arxiv.org/abs/2404.04125, cuyo argumento es que los grandes modelos de IA generativa lo hacen bastante bien bajo la premisa de que durante el entrenamiento vieron muchísimos datos de ese tipo. Si uno diseña tareas raras a propósito, pueden fallar mucho y debilitar la primera impresión de AGI, pero en la práctica no usamos solo tareas hechas para hacer tropezar al modelo. En tareas específicas pueden rendir bien, y este paper no presenta suficiente evidencia sustancial sobre esas dos facetas.
- Veo bastantes “abogados de la IA” en los comentarios, pero dado que estos modelos se comercializan como si fueran un sustituto de la visión humana para usos como Be My Eyes para personas con baja visión, creo que el título es justo: https://www.youtube.com/watch?v=Zq710AKC1gg
  Se da a entender que estos modelos están cerca del nivel humano cuando en realidad no lo están. El paper muestra que todavía hay una brecha grande, en la que los modelos se confunden de forma inesperada incluso con problemas simples. Hay que exponer más este tipo de tareas para que la gente entienda que hacen falta salvaguardas y advertencias suficientes antes de creer que son aptos para uso general.
- “Divertido” es la palabra correcta. Encontraron buenos casos límite en el procesamiento visual de los modelos y, curiosamente, no están conceptualmente tan lejos de algunas ilusiones ópticas que también engañan a las personas.
  Pero llamar “ciegos” a los modelos o insinuar que en general tienen bajo rendimiento se refuta fácilmente con solo sacar el celular y cargar una foto en la app de ChatGPT. Hay quienes mencionan BeMyEyes y critican a los “abogados de la IA”, pero con una suscripción de 20 dólares al mes y un celular se puede probar de inmediato. En tareas del mundo real funciona sorprendentemente bien y, aunque no es perfecto, es lo bastante útil en la práctica; en muchos casos es mejor que las alternativas o directamente no hay alternativa.
- La expresión “miopía donde los detalles se ven borrosos” no está tan lejos de la realidad. La mayoría de los modelos ven las imágenes en baja resolución y con colores limitados, así que esa descripción se acerca bastante.
- ¿De verdad “los grandes modelos de IA generativa lo hacen bastante bien” es un argumento de venta? Hace 15 años ya había escáneres con apps en Windows que extraían texto después de escanear documentos, y esas máquinas tenían algo así como 256 MB de RAM.
  La tecnología puede ser extremadamente buena en tareas aisladas de nicho. Los sistemas OCR de hace 10 años también eran muy confiables en una única tarea configurada. Lo que la IA prometió es un nuevo paradigma que no queda atrapado en un nicho específico definido por un desarrollador; si falla de forma consistente en cosas simples en las que una persona común no se equivocaría, toda la propuesta de valor se derrumba.
- La premisa de “no puedo compartirlo, pero...” es interesante. Suena como si el modelo fuera tan bueno en un procesamiento visual específico y secreto que no deberíamos considerar evaluaciones como contar figuras o una precisión mejor que lanzar una moneda.
Ayer tuve una experiencia bastante sorprendente con GPT-4o. La puerta de mi garaje había empezado a caerse hace poco y, al revisarla, vi que el propietario había instalado mal una abrazadera para cable de acero, dejando sin tensión el cable de torsión.
No sabía cómo se llamaba esa pieza, así que le pregunté a ChatGPT y, como esperaba, la identificó. Como prueba, le pregunté si notaba algo llamativo en la foto, y detectó correctamente que el cable estaba instalado al revés: el lado que debía estar bajo tensión estaba por encima del extremo suelto, en vez de presionarlo y sujetarlo firmemente. Para diagnosticar eso habría que seguir el cable en el espacio y deducir, a partir de la geometría, qué lado está bajo tensión, aunque por supuesto no puedo descartar que haya sido una conjetura afortunada. Lo realmente sorprendente fue que, aunque faltaba claramente una de las dos tuercas, no lo notó ni siquiera después de señalarme que había un segundo problema de instalación. Captura: https://imgur.com/a/QqCNzOM
- Una persona tendría que seguir el cable. Pero el LLM pudo haber respondido basándose en el hecho de que preguntar primero por la abrazadera normalmente ocurre cuando algo está mal, y en que este es un tipo de falla muy común.
  Que sacara la regla mnemotécnica “never saddle a dead horse” también es evidencia de que este problema es común. Sería bueno hacerle la misma pregunta después de arreglarlo.
- A simple vista, yo como humano no pude ver lo suficiente en esa foto como para inferir qué lado debía estar bajo tensión. No soy una persona entrenada, pero después de leer la explicación sí sabía qué aspecto esperar.
  Como en otra respuesta, soy escéptico de que el LLM simplemente haya acertado por suerte.
- Para seguirlo en el espacio se necesita memoria de corto plazo y capacidad de razonamiento. El modelo no tiene eso, así que al final seguramente lo adivinó.
Hasta ahora, los VLM no se han desempeñado bien en tareas como contar objetos o entender relaciones espaciales, por ejemplo, si el café está a la derecha del microondas.
Hay formas de ayudar a los VLM; un ejemplo representativo es Set of Marks de Microsoft https://github.com/microsoft/SoM. Consiste en delinear y etiquetar regiones mediante segmentación antes de enviar la imagen al VLM. Darles a las regiones etiquetas “expresables con palabras” ayuda a anclar las capacidades visuales del VLM, y en este artículo también explica por qué en “Task 6: Counting the rows and columns of a grid” el rendimiento es mucho mejor cuando hay palabras dentro de la cuadrícula.
- No sabía que contar objetos fuera un problema. Es irónico: hasta donde sé, la primera implementación de una red neuronal fue la retina artificial numa-rete, creada alrededor de 1960 en el Biological Computer Lab.
  Era una computadora analógica paralela con “neuronas” equipadas con fotoceldas dispuestas en una cuadrícula, y se decía que podía contar “la cantidad de objetos independientemente del tamaño, la posición, la forma y la intensidad de la iluminación”. A quienes trabajan en este campo les podría interesar el artículo de 1962 de Heinz Von Foerster, “Perception of Form in Biological and Man Made Systems”: https://distributedmuseum.illinois.edu/exhibit/biological_computer_laboratory/, https://sites.evergreen.edu/arunchandra/wp-content/uploads/sites/395/2018/05/bcl082.pdf
- Los modelos visuales usan CLIP o algo similar, y no tienen el concepto de entender objetos concretos dentro de una imagen. Solo ven embeddings correlacionados, parecido a los embeddings de texto.
  Funciona como describir una imagen como “hay pájaros posados en cables eléctricos frente a un cielo azul con nubes” y luego hacer coincidir el embedding de esa descripción con el embedding de la foto. Si preguntas si hay pájaros, puede saberlo, pero no cuántos. Es decir, salvo que en los datos de entrenamiento fuera común describir la cantidad de pájaros posados sobre objetos y que ese número coincidiera con suficiente frecuencia con la cantidad real en la descripción de la imagen. Si quieres contar objetos, necesitas algo como YOLO.
Vision Transformer realiza una cantidad sorprendentemente grande de compresión en el tokenizador. En el paper de Chameleon se dice que el tokenizador “codifica una imagen de 512 × 512 en 1024 tokens discretos provenientes de un codebook de tamaño 8192”.
Eso equivale a 256 píxeles por token y, si consideramos cada píxel como 24 bits, es como comprimir 256 * 24 = 6144 bits en 13 bits, que es log2(8192). An Image is Worth 32 Tokens for Reconstruction and Generation lleva esto todavía más lejos. Si estos modelos funcionan de forma parecida, no es raro que tengan dificultades con algunas tareas visuales.
- No es tan simple. Si le pides a GPT-4o que haga una copia de una imagen así, en general la produce con bastante fidelidad. Por ejemplo, también genera una imagen con 5 cuadrados.
  Así que, en cierta medida, sí está “viendo”. Pero parece faltarle la lógica para responder este tipo de preguntas. El conjunto de datos completo se puede probar directamente aquí: https://huggingface.co/datasets/XAI/vlmsareblind/viewer/default/train
- GPT-4o es muy bueno en algunas tareas visuales, como OCR. Así que la ceguera selectiva, como dijiste, podría ser el resultado de que toda la capacidad se concentra en reducir la pérdida en unas pocas tareas estrechas para las que había más datos de entrenamiento.
  Podría ser más bien un problema de capacidad que una falla estructural de generalización, y quizá se resuelva naturalmente al escalar más.
- Al pensar en un ejemplo similar con una modalidad sensorial humana que no sea la vista, se me ocurrió la situación de intentar explicarle el sabor de una fruta a alguien que nunca la ha probado.
Si los modelos de punta actuales —GPT-4o, Gemini-1.5 Pro, Sonnet-3 y Sonnet-3.5— están a este nivel, su rendimiento es bastante vergonzosamente malo. Estos modelos se publicitan y venden como capaces de entender imágenes, por ejemplo para guiar a personas ciegas o enseñar geometría a un niño.
Las tareas en las que fallan son absurdamente simples para una persona. Por ejemplo: contar cuántas veces se cruzan dos líneas, detectar si dos círculos se superponen, elegir la letra encerrada en un círculo dentro de una palabra, o contar la cantidad de círculos en un dibujo parecido al logo olímpico. Este artículo debería estar en la parte superior de la primera página.
- No entiendo por qué esto sería siquiera un poco “vergonzoso”. Estos modelos no son cerebros humanos, y que la gente los equipare con cerebros humanos es un fracaso más vergonzoso que el de los propios modelos.
  No sorprende en absoluto que el modelo no pueda manejar muchos casos “obvios para una persona”. El aprendizaje automático ha tenido esta característica desde el principio, y es un error clásico que comete la gente al tratar con estos sistemas. Cuando un modelo de machine learning muestra mayor precisión que una persona en la tarea X, los humanos asumen que tendrá esa capacidad en todas las demás tareas. Si una persona tiene una habilidad sobresaliente, es probable que también destaque en otras tareas, pero eso no aplica a los modelos de machine learning. A la inversa, también es incorrecto pensar que, porque el modelo no es bueno en la tarea Y, su capacidad en la tarea X es una ilusión y no es confiable.
- Esta reacción se lee como: “¡Mi perro que habla siempre se equivoca en problemas de cálculo, qué vergüenza!”.
  ¿La cinta caminadora de expectativas realmente se aceleró tanto que ahora cualquier rendimiento inferior al humano en cualquier categoría de problemas resulta vergonzoso?
El hallazgo en sí es interesante, pero el título “Vision language models are blind” es exagerado y distorsiona los resultados. Es cierto que la forma en que los VLM detectan y procesan la entrada de imágenes es muy distinta de la humana, y que a baja resolución la imagen se divide en bloques y luego se mapea a tokens discretos
Ese mapeo tiene bastante pérdida, así que en la práctica no accede a detalles finos. En ese sentido, los resultados tienen todo el sentido y no sorprenden, pero la expresión “son ciegos” tiene una connotación fuerte y este estudio no la respalda. Incluso en el primer ejemplo, los cuatro gráficos de líneas 2D, cuando le pregunté 5 veces a Sonnet 3.5, 2 veces dio respuestas bastante buenas. Se equivocó al decir que el tercer gráfico tenía 1 punto de intersección cuando en realidad tenía 2, pero en general lo hizo bastante bien, y las otras 3 veces también respondió que el tercer gráfico tenía 1
Desde la perspectiva de alguien que solo sabe superficialmente cómo funcionan los VLM, aquí me da la impresión de que quienes hablan de corporeización quizá tengan algo de razón. Las personas pueden refinar iterativamente el reconocimiento de imágenes y enfocarse en regiones de interés, pero un VLM tiene que procesar toda la imagen con la misma fidelidad
Me pregunto si habrá una forma de imitar eso. Por ejemplo, empezar con tokens visuales de baja fidelidad y permitir que el VLM emita tokens para “enfocarse” en regiones específicas de la imagen con mayor resolución. Aunque no sé bien si sería posible entrenar eficientemente un modelo con datos “interactivos” de ese tipo
- ¿No es eso precisamente el mecanismo de atención? Por eso creo que se usan Transformers para este tipo de tareas
  Aunque no sea necesariamente mayor resolución, es una forma de enfocarse en ciertas regiones mediante conexiones neuronales más fuertes
- En realidad, a los humanos les toma tiempo desarrollar la vista y nacen con visión borrosa, así que el aprendizaje humano empieza con imágenes de baja resolución. También hay teorías de que esto no es una limitación, sino que podría ser una ventaja para el desarrollo del sistema de procesamiento visual
  Las personas de países pobres a las que les extirpan cataratas un poco más tarde deberían tener, por el hardware de ese momento, una visión perfecta, pero aun así parecen conservar déficits de por vida. No se sabe del todo cuánto influye en los humanos el aprendizaje inicial de baja resolución, y puede que esto esté relacionado con la neurobiología humana específica más que con una verdad general de los sistemas conexionistas. Aun así, es interesante pensar que algunos resultados de las redes neuronales artificiales pueden depender mucho del paradigma de entrenamiento, y que no todos los defectos se resolverán solo con actualizar la arquitectura central
- Para imitar el procesamiento de la atención humana, una mejora relativamente fácil de obtener podría ser una gran cantidad de datos de seguimiento ocular emparejados con lo que la persona estaba mirando
- Estos modelos ya aprendieron a enfocarse en partes específicas de una imagen. Para empezar, ese es el propósito explícito de los Transformers
- La capacidad humana de “refinar” iterativamente la percepción no tiene relación con la cognición corporeizada
Es irónico que fallen en pruebas simples que hasta un niño podría resolver. Pero cuando le pedí a Gemini que leyera una postal manuscrita en cursiva rusa con mucho ruido visual, leyó el texto e incluso lo tradujo al inglés
Ni siquiera tuve que decirle que el texto estaba en ruso. Por un lado, lo que pueden hacer los LLM es increíblemente impresionante; por otro, suelen tropezar fuerte con problemas que parecen simples. En los autos autónomos vemos algo parecido: accidentes en situaciones que casi cualquier conductor humano habría evitado fácilmente
- Para un niño es simple. Porque nuestra visión evolucionó para reconocer esos patrones, ya que eran importantes para la supervivencia. Leer ruso no lo era
  Desde el punto de vista algorítmico, estas tareas visuales son en realidad bastante difíciles de programar explícitamente
He dado algunas clases de geometría computacional, y calcular eficientemente las intersecciones de N segmentos de línea no es tan simple como parece al principio. En algún punto se necesita computación para reconocerlas, y como un LLM no fue entrenado específicamente para esta tarea, no sorprende que tenga dificultades
En general, la geometría básica parece un área menos explorada desde el punto de vista del aprendizaje
- Determinar si hay un perro en una foto o entender el sentimiento de un párrafo tampoco es simple. La complejidad en sí no parece ser el punto central
  Parece haber una diferencia entre los tipos de razonamiento que aprendieron estos modelos y los tipos de razonamiento necesarios para el razonamiento matemático concreto
- Los humanos tampoco tienen una capacidad de “calcular intersecciones”. Salvo por algunas partes que aprendimos con esfuerzo mediante álgebra, tenemos un mecanismo de “mirar y contar”
  No recibimos visualmente líneas en un plano y calculamos dónde se cruzan. Sabemos cómo se ve un punto de intersección, vemos uno, incrementamos un contador y buscamos el siguiente. Si son menos de alrededor de 5, los procesamos de una vez; si son más, los contamos de verdad, a veces en pequeños grupos y a veces uno por uno
Todos los modelos, en especial Claude 3.5 Sonnet, parecen hacerlo mucho mejor que al azar, así que claramente no son ciegos. La única tarea en la que Claude Sonnet 3.5 no fue mejor que el azar fue una en la que había que seguir varios caminos, es decir, cuando la respuesta de A a C era 3, y eso a mí también me tomó unos segundos resolverlo
Da la impresión de que primero decidieron el título del paper y luego evaluaron al nuevo Claude 3.5 Sonnet con imágenes abstractas. La frase “su visión es, en el mejor de los casos, similar a una miopía en la que los detalles se ven borrosos” tampoco tiene sentido. Estas imágenes evalúan la capacidad abstracta del modelo, no su agudeza visual
- Entonces digamos que legalmente tiene discapacidad visual

Las limitaciones visuales de los modelos de lenguaje con visión

Configuración del problema de BlindTest y resultados generales

Contar intersecciones de líneas

Determinar contacto y superposición entre dos círculos

Encontrar la letra marcada con un óvalo rojo

Contar figuras superpuestas y rectángulos anidados

Contar filas y columnas de tablas y seguir rutas de metro

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News