Comparación de generación de texto alternativo para imágenes usando LLM locales

(dri.es)

3 puntos por GN⁺ 2025-03-13 | 1 comentarios | Compartir por WhatsApp

De unas 10,000 fotos guardadas en el blog, cerca de 9,000 no tenían alt-text
Para resolverlo, se probaron 12 LLM (modelos de lenguaje grandes): 10 ejecutados localmente y 2 modelos en la nube (GPT-4, Claude 3.5 Sonnet)
Escribir alt-text es una tarea importante para mejorar la accesibilidad para personas con discapacidad visual, pero hacerlo manualmente implica una gran carga
El objetivo fue probar la precisión con la que los modelos de IA generan alt-text y comprobar si los modelos locales pueden ser una alternativa práctica

Modelos de IA probados

Modelos locales (10)
- 9 modelos se ejecutaron en una MacBook Pro (32GB de RAM)
- 1 modelo se ejecutó en el equipo de alto rendimiento de un amigo
Modelos en la nube (2)
- GPT-4o (OpenAI)
- Claude 3.5 Sonnet (Anthropic)

Comparación principal de rendimiento

Modelos en la nube (GPT-4o, Claude 3.5 Sonnet)
- Generaron el alt-text más preciso
- Destacaron en la descripción de detalles e incluso captaron bien la atmósfera de la imagen
- Calificación: A
Modelos locales con mejor desempeño
- Llama 3.2 Vision 11B
  - Buen reconocimiento preciso de objetos y comprensión del contexto
  - Calificación: B
- Llama 3.2 Vision 90B
  - Mostró una precisión ligeramente mayor que el modelo 11B, pero requiere más RAM para ejecutarse
  - Calificación: B
- MiniCPM-V
  - A pesar de ser un modelo relativamente ligero, mostró un rendimiento sólido
  - Calificación: B
Modelos con bajo desempeño
- Modelos iniciales como VIT-GPT2, GIT y BLIP tendieron a reconocer objetos de forma imprecisa y a generar frases repetitivas
- Calificación: D~F

Cómo analizan imágenes los modelos de IA

Codificación visual (Vision Encoding)
- Dividen la imagen en pequeños parches y luego los convierten en datos numéricos (embeddings)
- Filtran las partes a las que conviene prestar atención (por ejemplo, objetos principales) y eliminan elementos menos importantes (por ejemplo, fondos simples)
Codificación de lenguaje (Language Encoding)
- Generan texto en lenguaje natural con base en la información proporcionada por el codificador visual
- Producen texto describiendo la imagen o respondiendo preguntas sobre ella

Imágenes de prueba y resultados

Cruce de Shibuya (Tokio)
- GPT-4o, Claude: "Cruce de Shibuya lleno de letreros de neón y multitudes" → Calificación A
- LLaVA 13B: "Escena de personas cruzando en el cruce de Shibuya" → Calificación A
- Llama 3.2 Vision 11B: "Animada vista nocturna de Tokio, con carteles publicitarios y multitudes" → Calificación C
- VIT-GPT2: "Vista nocturna urbana con edificios altos y semáforos" → Calificación F (inexacto)
Museo Isabella Stewart Gardner (Boston)
- Claude: "Habitación de estilo victoriano, candelabro y marcos dorados" → Calificación B
- Llama 3.2 Vision 11B: "Marcos dorados y fondo decorativo" → Calificación A
- BLIP-2 OPT: "Habitación con cuadros y marcos colgados en la pared" → Calificación C
- VIT-GPT2: "Sala de estar con velas y un florero frente a un espejo" → Calificación F (inexacto)
Wakeboard (Vermont, EE. UU.)
- GPT-4o: "Escena de dos personas en una lancha mirando a un wakeboarder" → Calificación A
- Llama 3.2 Vision 90B: "Dos personas observando wakeboard desde una lancha" → Calificación A
- BLIP-2 FLAN: "Alguien viendo a una persona surfear desde una lancha" → Calificación C
- VIT-GPT2: "Dos personas de pie en un bote con tablas de surf" → Calificación E (inexacto)

Resultado de la evaluación

Modelos en la nube (GPT-4o, Claude 3.5 Sonnet): Calificación A
- Ofrecieron las descripciones más precisas y captaron incluso la atmósfera
Mejores modelos locales (Llama 11B, Llama 90B, MiniCPM-V): Calificación B
- Su precisión es algo inferior a la de los modelos en la nube, pero siguen siendo utilizables en la práctica
Modelos iniciales (VIT-GPT2, GIT, BLIP, etc.): Calificación D~F
- Expresiones repetitivas y aparición de alucinaciones (hallucination)

Consideraciones futuras

Si el `alt`-text no es perfecto, ¿sigue siendo mejor que no tener nada?

Incluso un alt-text de nivel B podría ser mejor que no tener ninguno
Sin embargo, la información inexacta (por ejemplo, agregar objetos inexistentes) puede confundir a usuarios con discapacidad visual

Opciones para el siguiente paso

Combinar salidas de IA
- Combinar varios modelos para generar la descripción más precisa
Esperar una actualización
- Usar por ahora el mejor modelo local disponible y actualizar a un modelo nuevo dentro de 6 a 12 meses
Usar modelos en la nube
- Usar modelos en la nube por precisión, aunque el costo y la privacidad de los datos son un problema
Enfoque híbrido
- Hacer que una persona revise y complemente el alt-text generado por IA (algo poco realista para aplicarlo a 9,000 imágenes)

En este momento, la opción más razonable parece ser usar un modelo local y actualizarlo en el futuro por otro más avanzado

1 comentarios

quilt8703 2025-03-14

Suelo ponerles alt-text a las imágenes que publico en Twitter y otros sitios, y alguna vez pensé que, si pasaba eso a una IA, quizá me sería más fácil publicar mis posts. No estoy muy seguro de si hace falta un LLM; me parecía que con una tecnología como CLIP podría ser suficiente.

Una de las razones por las que no hice ese trabajo es que esa clase de tarea bien podría integrarse como una función del lado de los lectores de pantalla, y yo pensaba que lo correcto era aportar, aunque fuera un poco, el contexto adicional que una persona puede dar. Claro, aunque la razón principal era que me daba pereza.