5 puntos por GN⁺ 2024-12-26 | 1 comentarios | Compartir por WhatsApp
  • El equipo de Alibaba Qwen anunció el nuevo modelo de razonamiento visual QvQ-72B-Preview
    • Recibe una imagen y un prompt para realizar un razonamiento detallado
    • Originalmente figuraba como Apache 2.0, pero ahora se cambió a la licencia de Qwen
  • Diferencias con el modelo anterior QwQ
    • QwQ se centró en el razonamiento basado en texto y fue diseñado con un mecanismo que "refleja los límites del pensamiento"
    • QvQ agrega esa capacidad con entrada visual y realiza análisis profundos a partir de imágenes

Casos de uso y pruebas de QvQ

  • Es posible usar el modelo QvQ en Hugging Face Spaces
    • Al ingresar una imagen y un único prompt, genera respuestas muy largas y no permite añadir prompts adicionales
    • Analiza la imagen de entrada y explica paso a paso su proceso de razonamiento
  • Resultados de las pruebas
    • Contar pelícanos: con el prompt "Count the pelicans" se calculó cuántos pelícanos había en la foto
      • Contó exactamente 4 pelícanos y descartó a los que solo se veían en parte
      • Explicó el razonamiento con un tono cercano y conversacional
    • Rompecabezas ARC-AGI: intentó resolver problemas complejos, pero no logró obtener resultados exactos
      • Propuso un enfoque inusual, como usar autómatas celulares
    • Estimación de altura de un dinosaurio (dragón): intentó estimar la altura del dragón sin un objeto de comparación disponible
      • Propuso una altura de aproximadamente 8 a 9 pies, mostrando una observación bastante detallada

Cómo ejecutar el modelo QvQ

  • Entorno alojado

  • Ejecución local

    • Prince Canuma convirtió el modelo para el framework Apple MLX, y puede ejecutarse mediante el paquete mlx-vlm
    • Se ejecutó con éxito en macOS con M2 y 64 GB de RAM usando la versión cuantizada de 4 bits
      • Comando de ejecución:
        uv run --with 'numpy<2.0' --with mlx-vlm python \  
          -m mlx_vlm.generate \  
          --model mlx-community/QVQ-72B-Preview-4bit \  
          --max-tokens 10000 \  
          --temp 0.0 \  
          --prompt "describe this" \  
          --image pelicans-on-bicycles-veo2.jpg  
        

Cambio de licencia de QvQ

  • La licencia de QvQ cambió de Apache 2.0 a Qwen License
    • Esto parece corregir un error inicial
  • El modelo QwQ mantiene la licencia Apache 2.0
    • Se confirma una política de licencias diferenciada entre ambos modelos

Conclusión

  • QvQ es un modelo de razonamiento visual potente que combina imagen y texto, y genera resultados interesantes en diversos experimentos
  • Se espera con interés su actualización y nuevas posibilidades de uso

1 comentarios

 
GN⁺ 2024-12-26
Opinión de Hacker News
  • Explica cómo ejecutar el modelo QVQ-72B-Preview-4bit en una laptop M2 de 64 GB para analizar imágenes

    • Utiliza el comando uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
    • Los resultados se pueden ver en enlace
  • Este modelo es entretenido

    • Si subes una imagen y preguntas algo como "piensa en voz alta mientras ves esta imagen", puedes obtener resultados interesantes
    • Por ejemplo, al ver una imagen de un sándwich, hace descripciones detalladas e incluso te hace imaginar su sabor
  • Se probó con un problema tipo sopa de letras y el modelo QvQ falló

    • La versión de Gemini en AI Studio también falló al principio, pero encontró correctamente las palabras después de varios intentos
    • Crear un programa para resolver el problema dio mejores resultados que pedir una solución directa
  • Cuando se ingresó la famosa foto de "Tank Man", se obtuvo una respuesta vacía

  • El dataset donde un comentarista expresa en voz alta sus pensamientos mientras mira una imagen es PixMo

    • Se sugiere que QvQ también podría haberse entrenado con un enfoque similar
  • Se preguntó si un modelo Q* es de código abierto

    • Cuando se pidió consejo sobre una acción relacionada con la autoridad, recomendó fuertemente la obediencia
  • La forma de respuesta al preguntar cuántos pelícanos había en la foto fue entretenida

    • Tiene una sensación más casual que GPT-4
  • Hubo discusión sobre la licencia del modelo QvQ-72B-Preview

    • Existió confusión entre la licencia Apache 2.0 y la licencia de Qwen
  • El modelo QvQ funciona muy bien para analizar fotos de celebridades, perros y cómics de The New Yorker

  • También tiene la capacidad de procesar imágenes de ecuaciones matemáticas