Experiencia de uso del nuevo modelo de razonamiento visual de Qwen, QvQ
(simonwillison.net)- El equipo de Alibaba Qwen anunció el nuevo modelo de razonamiento visual QvQ-72B-Preview
- Recibe una imagen y un prompt para realizar un razonamiento detallado
- Originalmente figuraba como Apache 2.0, pero ahora se cambió a la licencia de Qwen
- Diferencias con el modelo anterior QwQ
- QwQ se centró en el razonamiento basado en texto y fue diseñado con un mecanismo que "refleja los límites del pensamiento"
- QvQ agrega esa capacidad con entrada visual y realiza análisis profundos a partir de imágenes
Casos de uso y pruebas de QvQ
- Es posible usar el modelo QvQ en Hugging Face Spaces
- Al ingresar una imagen y un único prompt, genera respuestas muy largas y no permite añadir prompts adicionales
- Analiza la imagen de entrada y explica paso a paso su proceso de razonamiento
- Resultados de las pruebas
- Contar pelícanos: con el prompt "Count the pelicans" se calculó cuántos pelícanos había en la foto
- Contó exactamente 4 pelícanos y descartó a los que solo se veían en parte
- Explicó el razonamiento con un tono cercano y conversacional
- Rompecabezas ARC-AGI: intentó resolver problemas complejos, pero no logró obtener resultados exactos
- Propuso un enfoque inusual, como usar autómatas celulares
- Estimación de altura de un dinosaurio (dragón): intentó estimar la altura del dragón sin un objeto de comparación disponible
- Propuso una altura de aproximadamente 8 a 9 pies, mostrando una observación bastante detallada
- Contar pelícanos: con el prompt "Count the pelicans" se calculó cuántos pelícanos había en la foto
Cómo ejecutar el modelo QvQ
-
Entorno alojado
- Es posible probarlo en Hugging Face Spaces usando los pesos del modelo en GPU
- Se puede ejecutar con el paquete Python qwen-vl-utils
-
Ejecución local
- Prince Canuma convirtió el modelo para el framework Apple MLX, y puede ejecutarse mediante el paquete mlx-vlm
- Se ejecutó con éxito en macOS con M2 y 64 GB de RAM usando la versión cuantizada de 4 bits
- Comando de ejecución:
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- Comando de ejecución:
Cambio de licencia de QvQ
- La licencia de QvQ cambió de Apache 2.0 a Qwen License
- Esto parece corregir un error inicial
- El modelo QwQ mantiene la licencia Apache 2.0
- Se confirma una política de licencias diferenciada entre ambos modelos
Conclusión
- QvQ es un modelo de razonamiento visual potente que combina imagen y texto, y genera resultados interesantes en diversos experimentos
- Se espera con interés su actualización y nuevas posibilidades de uso
1 comentarios
Opinión de Hacker News
Explica cómo ejecutar el modelo QVQ-72B-Preview-4bit en una laptop M2 de 64 GB para analizar imágenes
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpgEste modelo es entretenido
Se probó con un problema tipo sopa de letras y el modelo QvQ falló
Cuando se ingresó la famosa foto de "Tank Man", se obtuvo una respuesta vacía
El dataset donde un comentarista expresa en voz alta sus pensamientos mientras mira una imagen es PixMo
Se preguntó si un modelo Q* es de código abierto
La forma de respuesta al preguntar cuántos pelícanos había en la foto fue entretenida
Hubo discusión sobre la licencia del modelo QvQ-72B-Preview
El modelo QvQ funciona muy bien para analizar fotos de celebridades, perros y cómics de The New Yorker
También tiene la capacidad de procesar imágenes de ecuaciones matemáticas