7 puntos por xguru 2024-09-20 | 1 comentarios | Compartir por WhatsApp
  • Qwen2.5 incluye modelos especializados como el LLM Qwen2.5, Qwen2.5-Coder para programación y Qwen2.5-Math para matemáticas
  • Todos los modelos de pesos abiertos son modelos de lenguaje dense decoder-only y se ofrecen en varios tamaños, desde 0.5B hasta 72B
  • Todos los modelos de código abierto, excepto los de 3B y 72B, se ofrecen bajo licencia Apache 2.0
  • Los modelos de lenguaje insignia Qwen-Plus y Qwen-Turbo se ofrecen vía API a través de Model Studio
  • Qwen2-VL-72B también fue liberado como open source y su rendimiento mejoró frente a la versión del mes pasado

Características de Qwen2.5

  • Fue preentrenado con un gran conjunto de datos de hasta 18 billones de tokens, lo que aumentó significativamente su conocimiento frente a Qwen2 (MMLU: 85+)
  • Sus capacidades de programación (HumanEval 85+) y matemáticas (MATH 80+) también mejoraron notablemente
  • Mejoró mucho en seguimiento de instrucciones, generación de textos largos (más de 8K tokens), comprensión de datos estructurados (por ejemplo, tablas) y generación de salidas estructuradas como JSON
  • Es más robusto ante la diversidad de system prompts, lo que facilita definir condiciones y desempeñar roles en chatbots
  • Al igual que Qwen2, el modelo de lenguaje Qwen2.5 admite hasta 128K tokens y puede generar hasta 8K tokens
  • Admite más de 29 idiomas, incluidos chino, inglés, francés, español, portugués, alemán, italiano, ruso, japonés, coreano, vietnamita, tailandés y árabe

Rendimiento

Qwen2.5

  • Se compara el rendimiento del mayor modelo open source, Qwen2.5-72B (modelo de lenguaje dense decoder-only de 72B parámetros), con modelos open source destacados como Llama-3.1-70B y Mistral-Large-V2
  • Presenta resultados integrales de las versiones ajustadas por instrucciones en varios benchmarks, evaluando tanto las capacidades del modelo como la preferencia humana
  • Además de los modelos de lenguaje ajustados por instrucciones, el modelo base Qwen2.5-72B muestra un rendimiento de primer nivel incluso frente a modelos más grandes como Llama-3-405B
  • Se compara la versión más reciente del modelo basado en API Qwen-Plus con modelos propietarios y open source conocidos como GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B y DeepSeek-V2.5
    • Qwen-Plus supera ampliamente a DeepSeek-V2.5 y muestra un rendimiento comparable al de Llama-3.1-405B, aunque en algunos aspectos queda por debajo de GPT4-o y Claude-3.5-Sonnet
  • Se reintroducen Qwen2.5-14B y Qwen2.5-32B. Estos modelos superan modelos de referencia de tamaño similar o mayor, como Phi-3.5-MoE-Instruct y Gemma2-27B-IT
  • El modelo basado en API Qwen-Turbo ofrece un servicio rápido a un precio razonable y muestra un rendimiento muy competitivo frente a dos modelos open source
  • Qwen2.5-3B, con alrededor de 3 mil millones de parámetros, ofrece un rendimiento muy impresionante y supera a la versión anterior en eficiencia y capacidades
  • Además de mejorar las evaluaciones de benchmark, también se mejoró la metodología de postentrenamiento. Las cuatro actualizaciones principales son: soporte para generar textos largos de hasta 8K tokens, gran mejora en la comprensión de datos estructurados, generación más confiable de salidas estructuradas como formato JSON, y mejor desempeño con distintos system prompts para facilitar la ejecución de roles

Qwen2.5-Coder

  • Desde el lanzamiento de CodeQwen1.5, muchos usuarios han llegado a depender de este modelo para diversas tareas de programación, como depuración, respuestas a preguntas sobre código y sugerencias de código
  • La versión más reciente, Qwen2.5-Coder, está diseñada específicamente para aplicaciones de programación
  • A pesar de su tamaño reducido, muestra capacidades de programación sobresalientes, superando a modelos de lenguaje más grandes en diversos lenguajes y tareas

Qwen2.5-Math

  • El mes pasado se lanzó por primera vez el modelo de lenguaje especializado en matemáticas Qwen2-Math, y en comparación con Qwen2-Math, Qwen2.5-Math fue preentrenado con un volumen mayor de datos relacionados con matemáticas, incluidos datos sintéticos generados por Qwen2-Math
  • En esta ocasión se amplió el soporte para chino y se fortalecieron las capacidades de razonamiento al dotarlo de desempeño en CoT, PoT y TIR
  • El rendimiento general de Qwen2.5-Math-72B-Instruct supera a Qwen2-Math-72B-Instruct y GPT4-o, e incluso un modelo experto muy pequeño como Qwen2.5-Math-1.5B-Instruct puede ofrecer un rendimiento muy competitivo frente a modelos de lenguaje grandes

Desarrollar con Qwen2.5

  • Para usar Qwen2.5 con vLLM, se puede desplegar un servicio compatible con la API de OpenAI con el siguiente comando:
  • Qwen2.5 admite el tool calling integrado de vllm. Esta función requiere vllm>=0.6
  • Qwen2.5 también admite tool calling de Ollama
  • También está disponible el soporte de tool calling de transformers de Hugging Face
  • Anteriormente, Qwen-Agent admitía tool calling usando la plantilla propia de Qwen2, y Qwen2.5 mantiene compatibilidad tanto con la plantilla de Qwen2 como con Qwen-Agent

¿Qué sigue?

  • Les entusiasma lanzar al mismo tiempo muchos modelos de alta calidad, pero reconocen que aún quedan desafíos importantes
  • Con los lanzamientos recientes, muestran que están trabajando para desarrollar modelos base sólidos en las áreas de lenguaje, visión-lenguaje y audio-lenguaje
  • Sin embargo, es importante integrar estas distintas modalidades en un solo modelo para que pueda procesar información de forma fluida en todos los dominios
  • Han mejorado la capacidad de razonamiento mediante escalado de datos, pero inspirados por los avances recientes en aprendizaje por refuerzo, también están comprometidos con escalar el inference compute para seguir mejorando la capacidad de razonamiento del modelo