5 puntos por GN⁺ 2025-03-25 | 1 comentarios | Compartir por WhatsApp
  • Basado en la serie Qwen2.5-VL lanzada en enero, el modelo fue optimizado mediante aprendizaje por refuerzo, y el nuevo modelo VL de 32B parámetros, Qwen2.5-VL-32B-Instruct, fue liberado como código abierto bajo la licencia Apache 2.0
  • En comparación con el modelo anterior, las características de este modelo VL de 32B son:
    • Respuestas mejor alineadas con las preferencias humanas: se ajustó el estilo de salida para ofrecer respuestas más detalladas y mejor organizadas.
    • Razonamiento matemático: mejoró de forma significativa la precisión al resolver problemas matemáticos complejos.
    • Comprensión y razonamiento detallado sobre imágenes: se reforzaron la precisión y el análisis detallado en tareas como parsing de imágenes, reconocimiento de contenido y razonamiento lógico visual.

Rendimiento

  • A través de benchmarking amplio frente a modelos recientes de la misma categoría, Qwen2.5-VL-32B-Instruct supera a modelos de referencia como Mistral-Small-3.1-24B y Gemma-3-27B-IT, e incluso muestra mejores resultados que el más grande Qwen2-VL-72B-Instruct.
  • En particular, muestra ventajas considerables en tareas multimodales complejas y de razonamiento en múltiples pasos como MMMU, MMMU-Pro y MathVista.
  • En MM-MT-Bench, que pone énfasis en la evaluación subjetiva de la experiencia de usuario, muestra un rendimiento claramente superior al de Qwen2-VL-72B-Instruct.
  • Además de sus capacidades visuales, también alcanza un rendimiento de primer nivel en capacidades puramente de texto dentro de la misma escala.

1 comentarios

 
GN⁺ 2025-03-25
Opiniones en Hacker News
  • Es un gran día para el lanzamiento de modelos chinos de código abierto. DeepSeek-v3-0324 también se actualizó y se lanzó hoy con licencia MIT (antes tenía una licencia personalizada de DeepSeek)
  • Hace unos meses usé Llama vision 3.2 y me decepcionó muchísimo en velocidad y calidad de resultados. Buscando alternativas en Hugging Face encontré Qwen. La diferencia en precisión y velocidad fue enorme. Si le pides que analice una imagen y responda, con una 4090 obtienes una respuesta correcta la mayoría de las veces en medio segundo. Aún más sorprendente: al extraer nombres de entidades de una imagen, incluso si el nombre está cortado, entrega el nombre completo (por ejemplo, si se ve tenuemente "Coca-C" en el fondo, devuelve "Coca-Cola"). También maneja bien entidades poco conocidas o conocidas solo en ciertas regiones. Desde que uso Qwen no he vuelto a Llama ni a otros modelos de visión
  • El modelo de 32B es ahora uno de mis tamaños de modelo favoritos. Es muy potente, pero lo bastante pequeño como para ejecutarse en una sola GPU o en una MacBook con especificaciones decentes (32 GB o más)
  • Este modelo ahora está disponible en MLX en varios tamaños
    • Se ejecuta con uv sin necesidad de instalar bibliotecas
    • Descargué un modelo de unos 18 GB y obtuve resultados muy impresionantes
  • Puede que sea una pregunta tonta, pero me intriga cómo OpenAI, Claude, etc. pueden tener valoraciones tan altas considerando todos los modelos de código abierto. No digo que vayan a desaparecer o hacerse pequeños, pero me pregunto por qué valen tanto
  • Están saliendo modelos de pesos abiertos demasiado rápido y es difícil seguirles el ritmo. Me pregunto si hay alguien que mantenga una lista de qué es lo "actual" en cada modelo
  • Me pregunto si alguien sabe qué efecto tiene hacer un modelo multimodal sobre sus capacidades de texto. El artículo afirma que también rinde bien en texto puro, pero me pregunto si hay algún análisis de cuánto impacto real tiene. Algunas personas sostienen que los modelos mejorarán en texto, pero sin datos me cuesta creerlo
  • Me gustaría entender mejor qué tamaño de tarjeta de video se necesita. Según el enlace de HuggingFace, usa bfloat16, así que parecería requerir al menos 64 GB. ¿La versión -7B podrá correr en mi tarjeta AMD de 16 GB?
  • Qwen fue hecho por Alibaba Cloud (no se menciona en ninguna parte del post del blog)
  • Hoy Qwen, mañana el nuevo modelo SOTA de Google, la próxima semana saldrá R2. Aún no hemos llegado al límite