Experiencia de uso del nuevo modelo de razonamiento visual de Qwen, QvQ

(simonwillison.net)

5 puntos por GN⁺ 2024-12-26 | 1 comentarios | Compartir por WhatsApp

El equipo de Alibaba Qwen anunció el nuevo modelo de razonamiento visual QvQ-72B-Preview
- Recibe una imagen y un prompt para realizar un razonamiento detallado
- Originalmente figuraba como Apache 2.0, pero ahora se cambió a la licencia de Qwen
Diferencias con el modelo anterior QwQ
- QwQ se centró en el razonamiento basado en texto y fue diseñado con un mecanismo que "refleja los límites del pensamiento"
- QvQ agrega esa capacidad con entrada visual y realiza análisis profundos a partir de imágenes

Casos de uso y pruebas de QvQ

Es posible usar el modelo QvQ en Hugging Face Spaces
- Al ingresar una imagen y un único prompt, genera respuestas muy largas y no permite añadir prompts adicionales
- Analiza la imagen de entrada y explica paso a paso su proceso de razonamiento
Resultados de las pruebas
- Contar pelícanos: con el prompt "Count the pelicans" se calculó cuántos pelícanos había en la foto
  - Contó exactamente 4 pelícanos y descartó a los que solo se veían en parte
  - Explicó el razonamiento con un tono cercano y conversacional
- Rompecabezas ARC-AGI: intentó resolver problemas complejos, pero no logró obtener resultados exactos
  - Propuso un enfoque inusual, como usar autómatas celulares
- Estimación de altura de un dinosaurio (dragón): intentó estimar la altura del dragón sin un objeto de comparación disponible
  - Propuso una altura de aproximadamente 8 a 9 pies, mostrando una observación bastante detallada

Cómo ejecutar el modelo QvQ

Entorno alojado
- Es posible probarlo en Hugging Face Spaces usando los pesos del modelo en GPU
- Se puede ejecutar con el paquete Python qwen-vl-utils

Ejecución local

Prince Canuma convirtió el modelo para el framework Apple MLX, y puede ejecutarse mediante el paquete mlx-vlm

Se ejecutó con éxito en macOS con M2 y 64 GB de RAM usando la versión cuantizada de 4 bits

Comando de ejecución:

uv run --with 'numpy<2.0' --with mlx-vlm python \  
  -m mlx_vlm.generate \  
  --model mlx-community/QVQ-72B-Preview-4bit \  
  --max-tokens 10000 \  
  --temp 0.0 \  
  --prompt "describe this" \  
  --image pelicans-on-bicycles-veo2.jpg

Cambio de licencia de QvQ

La licencia de QvQ cambió de Apache 2.0 a Qwen License
- Esto parece corregir un error inicial
El modelo QwQ mantiene la licencia Apache 2.0
- Se confirma una política de licencias diferenciada entre ambos modelos

Conclusión

QvQ es un modelo de razonamiento visual potente que combina imagen y texto, y genera resultados interesantes en diversos experimentos
Se espera con interés su actualización y nuevas posibilidades de uso

1 comentarios

GN⁺ 2024-12-26

Opinión de Hacker News

Explica cómo ejecutar el modelo QVQ-72B-Preview-4bit en una laptop M2 de 64 GB para analizar imágenes
- Utiliza el comando uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
- Los resultados se pueden ver en enlace
Este modelo es entretenido
- Si subes una imagen y preguntas algo como "piensa en voz alta mientras ves esta imagen", puedes obtener resultados interesantes
- Por ejemplo, al ver una imagen de un sándwich, hace descripciones detalladas e incluso te hace imaginar su sabor
Se probó con un problema tipo sopa de letras y el modelo QvQ falló
- La versión de Gemini en AI Studio también falló al principio, pero encontró correctamente las palabras después de varios intentos
- Crear un programa para resolver el problema dio mejores resultados que pedir una solución directa
Cuando se ingresó la famosa foto de "Tank Man", se obtuvo una respuesta vacía
El dataset donde un comentarista expresa en voz alta sus pensamientos mientras mira una imagen es PixMo
- Se sugiere que QvQ también podría haberse entrenado con un enfoque similar
Se preguntó si un modelo Q* es de código abierto
- Cuando se pidió consejo sobre una acción relacionada con la autoridad, recomendó fuertemente la obediencia
La forma de respuesta al preguntar cuántos pelícanos había en la foto fue entretenida
- Tiene una sensación más casual que GPT-4
Hubo discusión sobre la licencia del modelo QvQ-72B-Preview
- Existió confusión entre la licencia Apache 2.0 y la licencia de Qwen
El modelo QvQ funciona muy bien para analizar fotos de celebridades, perros y cómics de The New Yorker
También tiene la capacidad de procesar imágenes de ecuaciones matemáticas