- Basado en la serie Qwen2.5-VL lanzada en enero, el modelo fue optimizado mediante aprendizaje por refuerzo, y el nuevo modelo VL de 32B parámetros, Qwen2.5-VL-32B-Instruct, fue liberado como código abierto bajo la licencia Apache 2.0
- En comparación con el modelo anterior, las características de este modelo VL de 32B son:
- Respuestas mejor alineadas con las preferencias humanas: se ajustó el estilo de salida para ofrecer respuestas más detalladas y mejor organizadas.
- Razonamiento matemático: mejoró de forma significativa la precisión al resolver problemas matemáticos complejos.
- Comprensión y razonamiento detallado sobre imágenes: se reforzaron la precisión y el análisis detallado en tareas como parsing de imágenes, reconocimiento de contenido y razonamiento lógico visual.
Rendimiento
- A través de benchmarking amplio frente a modelos recientes de la misma categoría, Qwen2.5-VL-32B-Instruct supera a modelos de referencia como Mistral-Small-3.1-24B y Gemma-3-27B-IT, e incluso muestra mejores resultados que el más grande Qwen2-VL-72B-Instruct.
- En particular, muestra ventajas considerables en tareas multimodales complejas y de razonamiento en múltiples pasos como MMMU, MMMU-Pro y MathVista.
- En MM-MT-Bench, que pone énfasis en la evaluación subjetiva de la experiencia de usuario, muestra un rendimiento claramente superior al de Qwen2-VL-72B-Instruct.
- Además de sus capacidades visuales, también alcanza un rendimiento de primer nivel en capacidades puramente de texto dentro de la misma escala.
1 comentarios
Opiniones en Hacker News
uvsin necesidad de instalar bibliotecas