Qwen2.5 - se presentan varios modelos fundacionales

xguru · 2024-09-20T11:22:54+09:00

Qwen2.5 incluye modelos especializados como el LLM Qwen2.5, Qwen2.5-Coder para programación y Qwen2.5-Math para matemáticas Todos los modelos de pesos abiertos son modelos de lenguaje dense decoder-only y se ofrecen en varios tamaños, desde 0.5B hasta 72B Todos los modelos de código abierto, excepto los de 3B y 72B, se ofrecen bajo licencia Apache 2.0 Los modelos de lenguaje insignia Qwen-Plus y Qwen-Turbo se ofrecen vía API a través de Model Studio Qwen2-VL-72B también fue liberado como open source y su rendimiento mejoró frente a la versión del mes pasado Características de Qwen2.5 Fue preentrenado con un gran conjunto de datos de hasta 18 billones de tokens, lo que aumentó significativamente su conocimiento frente a Qwen2 (MMLU: 85+) Sus capacidades de programación (HumanEval 85+) y matemáticas (MATH 80+) también mejoraron notablemente Mejoró mucho en seguimiento de instrucciones, generación de textos largos (más de 8K tokens), comprensión de datos estructurados (por ejemplo, tablas) y generación de salidas estructuradas como JSON Es más robusto ante la diversidad de system prompts, lo que facilita definir condiciones y desempeñar roles en chatbots Al igual que Qwen2, el modelo de lenguaje Qwen2.5 admite hasta 128K tokens y puede generar hasta 8K tokens Admite más de 29 idiomas, incluidos chino, inglés, francés, español, portugués, alemán, italiano, ruso, japonés, coreano, vietnamita, tailandés y árabe Rendimiento Qwen2.5 Se compara el rendimiento del mayor modelo open source, Qwen2.5-72B (modelo de lenguaje dense decoder-only de 72B parámetros), con modelos open source destacados como Llama-3.1-70B y Mistral-Large-V2 Presenta resultados integrales de las versiones ajustadas por instrucciones en varios benchmarks, evaluando tanto las capacidades del modelo como la preferencia humana Además de los modelos de lenguaje ajustados por instrucciones, el modelo base Qwen2.5-72B muestra un rendimiento de primer nivel incluso frente a modelos más grandes como Llama-3-405B Se compara la versión más reciente del modelo basado en API Qwen-Plus con modelos propietarios y open source conocidos como GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B y DeepSeek-V2.5 Qwen-Plus supera ampliamente a DeepSeek-V2.5 y muestra un rendimiento comparable al de Llama-3.1-405B, aunque en algunos aspectos queda por debajo de GPT4-o y Claude-3.5-Sonnet Se reintroducen Qwen2.5-14B y Qwen2.5-32B. Estos modelos superan modelos de referencia de tamaño similar o mayor, como Phi-3.5-MoE-Instruct y Gemma2-27B-IT El modelo basado en API Qwen-Turbo ofrece un servicio rápido a un precio razonable y muestra un rendimiento muy competitivo frente a dos modelos open source Qwen2.5-3B, con alrededor de 3 mil millones de parámetros, ofrece un rendimiento muy impresionante y supera a la versión anterior en eficiencia y capacidades Además de mejorar las evaluaciones de benchmark, también se mejoró la metodología de postentrenamiento. Las cuatro actualizaciones principales son: soporte para generar textos largos de hasta 8K tokens, gran mejora en la comprensión de datos estructurados, generación más confiable de salidas estructuradas como formato JSON, y mejor desempeño con distintos system prompts para facilitar la ejecución de roles Qwen2.5-Coder Desde el lanzamiento de CodeQwen1.5, muchos usuarios han llegado a depender de este modelo para diversas tareas de programación, como depuración, respuestas a preguntas sobre código y sugerencias de código La versión más reciente, Qwen2.5-Coder, está diseñada específicamente para aplicaciones de programación A pesar de su tamaño reducido, muestra capacidades de programación sobresalientes, superando a modelos de lenguaje más grandes en diversos lenguajes y tareas Qwen2.5-Math El mes pasado se lanzó por primera vez el modelo de lenguaje especializado en matemáticas Qwen2-Math, y en comparación con Qwen2-Math, Qwen2.5-Math fue preentrenado con un volumen mayor de datos relacionados con matemáticas, incluidos datos sintéticos generados por Qwen2-Math En esta ocasión se amplió el soporte para chino y se fortalecieron las capacidades de razonamiento al dotarlo de desempeño en CoT, PoT y TIR El rendimiento general de Qwen2.5-Math-72B-Instruct supera a Qwen2-Math-72B-Instruct y GPT4-o, e incluso un modelo experto muy pequeño como Qwen2.5-Math-1.5B-Instruct puede ofrecer un rendimiento muy competitivo frente a modelos de lenguaje grandes Desarrollar con Qwen2.5 Para usar Qwen2.5 con vLLM, se puede desplegar un servicio compatible con la API de OpenAI con el siguiente comando: Qwen2.5 admite el tool calling integrado de vllm. Esta función requiere vllm>=0.6 Qwen2.5 también admite tool calling de Ollama También está disponible el soporte de tool calling de transformers de Hugging Face Anteriormente, Qwen-Agent admitía tool calling usando la plantilla propia de Qwen2, y Qwen2.5 mantiene compatibilidad tanto con la plantilla de Qwen2 como con Qwen-Agent ¿Qué sigue? Les entusiasma lanzar al mismo tiempo muchos modelos de alta calidad, pero reconocen que aún quedan desafíos importantes Con los lanzamientos recientes, muestran que están trabajando para desarrollar modelos base sólidos en las áreas de lenguaje, visión-lenguaje y audio-lenguaje Sin embargo, es importante integrar estas distintas modalidades en un solo modelo para que pueda procesar información de forma fluida en todos los dominios Han mejorado la capacidad de razonamiento mediante escalado de datos, pero inspirados por los avances recientes en aprendizaje por refuerzo, también están comprometidos con escalar el inference compute para seguir mejorando la capacidad de razonamiento del modelo

(qwenlm.github.io)

7 puntos por xguru 2024-09-20 | 1 comentarios | Compartir por WhatsApp

Qwen2.5 incluye modelos especializados como el LLM Qwen2.5, Qwen2.5-Coder para programación y Qwen2.5-Math para matemáticas
Todos los modelos de pesos abiertos son modelos de lenguaje dense decoder-only y se ofrecen en varios tamaños, desde 0.5B hasta 72B
Todos los modelos de código abierto, excepto los de 3B y 72B, se ofrecen bajo licencia Apache 2.0
Los modelos de lenguaje insignia Qwen-Plus y Qwen-Turbo se ofrecen vía API a través de Model Studio
Qwen2-VL-72B también fue liberado como open source y su rendimiento mejoró frente a la versión del mes pasado

Características de Qwen2.5

Fue preentrenado con un gran conjunto de datos de hasta 18 billones de tokens, lo que aumentó significativamente su conocimiento frente a Qwen2 (MMLU: 85+)
Sus capacidades de programación (HumanEval 85+) y matemáticas (MATH 80+) también mejoraron notablemente
Mejoró mucho en seguimiento de instrucciones, generación de textos largos (más de 8K tokens), comprensión de datos estructurados (por ejemplo, tablas) y generación de salidas estructuradas como JSON
Es más robusto ante la diversidad de system prompts, lo que facilita definir condiciones y desempeñar roles en chatbots
Al igual que Qwen2, el modelo de lenguaje Qwen2.5 admite hasta 128K tokens y puede generar hasta 8K tokens
Admite más de 29 idiomas, incluidos chino, inglés, francés, español, portugués, alemán, italiano, ruso, japonés, coreano, vietnamita, tailandés y árabe

Rendimiento

Qwen2.5

Se compara el rendimiento del mayor modelo open source, Qwen2.5-72B (modelo de lenguaje dense decoder-only de 72B parámetros), con modelos open source destacados como Llama-3.1-70B y Mistral-Large-V2
Presenta resultados integrales de las versiones ajustadas por instrucciones en varios benchmarks, evaluando tanto las capacidades del modelo como la preferencia humana
Además de los modelos de lenguaje ajustados por instrucciones, el modelo base Qwen2.5-72B muestra un rendimiento de primer nivel incluso frente a modelos más grandes como Llama-3-405B
Se compara la versión más reciente del modelo basado en API Qwen-Plus con modelos propietarios y open source conocidos como GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B y DeepSeek-V2.5
- Qwen-Plus supera ampliamente a DeepSeek-V2.5 y muestra un rendimiento comparable al de Llama-3.1-405B, aunque en algunos aspectos queda por debajo de GPT4-o y Claude-3.5-Sonnet
Se reintroducen Qwen2.5-14B y Qwen2.5-32B. Estos modelos superan modelos de referencia de tamaño similar o mayor, como Phi-3.5-MoE-Instruct y Gemma2-27B-IT
El modelo basado en API Qwen-Turbo ofrece un servicio rápido a un precio razonable y muestra un rendimiento muy competitivo frente a dos modelos open source
Qwen2.5-3B, con alrededor de 3 mil millones de parámetros, ofrece un rendimiento muy impresionante y supera a la versión anterior en eficiencia y capacidades
Además de mejorar las evaluaciones de benchmark, también se mejoró la metodología de postentrenamiento. Las cuatro actualizaciones principales son: soporte para generar textos largos de hasta 8K tokens, gran mejora en la comprensión de datos estructurados, generación más confiable de salidas estructuradas como formato JSON, y mejor desempeño con distintos system prompts para facilitar la ejecución de roles

Qwen2.5-Coder

Desde el lanzamiento de CodeQwen1.5, muchos usuarios han llegado a depender de este modelo para diversas tareas de programación, como depuración, respuestas a preguntas sobre código y sugerencias de código
La versión más reciente, Qwen2.5-Coder, está diseñada específicamente para aplicaciones de programación
A pesar de su tamaño reducido, muestra capacidades de programación sobresalientes, superando a modelos de lenguaje más grandes en diversos lenguajes y tareas

Qwen2.5-Math

El mes pasado se lanzó por primera vez el modelo de lenguaje especializado en matemáticas Qwen2-Math, y en comparación con Qwen2-Math, Qwen2.5-Math fue preentrenado con un volumen mayor de datos relacionados con matemáticas, incluidos datos sintéticos generados por Qwen2-Math
En esta ocasión se amplió el soporte para chino y se fortalecieron las capacidades de razonamiento al dotarlo de desempeño en CoT, PoT y TIR
El rendimiento general de Qwen2.5-Math-72B-Instruct supera a Qwen2-Math-72B-Instruct y GPT4-o, e incluso un modelo experto muy pequeño como Qwen2.5-Math-1.5B-Instruct puede ofrecer un rendimiento muy competitivo frente a modelos de lenguaje grandes

Desarrollar con Qwen2.5

Para usar Qwen2.5 con vLLM, se puede desplegar un servicio compatible con la API de OpenAI con el siguiente comando:
Qwen2.5 admite el tool calling integrado de vllm. Esta función requiere vllm>=0.6
Qwen2.5 también admite tool calling de Ollama
También está disponible el soporte de tool calling de transformers de Hugging Face
Anteriormente, Qwen-Agent admitía tool calling usando la plantilla propia de Qwen2, y Qwen2.5 mantiene compatibilidad tanto con la plantilla de Qwen2 como con Qwen-Agent

¿Qué sigue?

Les entusiasma lanzar al mismo tiempo muchos modelos de alta calidad, pero reconocen que aún quedan desafíos importantes
Con los lanzamientos recientes, muestran que están trabajando para desarrollar modelos base sólidos en las áreas de lenguaje, visión-lenguaje y audio-lenguaje
Sin embargo, es importante integrar estas distintas modalidades en un solo modelo para que pueda procesar información de forma fluida en todos los dominios
Han mejorado la capacidad de razonamiento mediante escalado de datos, pero inspirados por los avances recientes en aprendizaje por refuerzo, también están comprometidos con escalar el inference compute para seguir mejorando la capacidad de razonamiento del modelo

1 comentarios

xguru 2024-09-20

Alibaba, presenta el modelo de IA de código abierto QWEN
Alibaba, presenta el modelo Qwen 2