Alibaba presenta los modelos Qwen 2

xguru · 2024-06-08T10:02:01+09:00

Qwen2 es una evolución de Qwen1.5 e incluye modelos preentrenados y ajustados por instrucciones en 5 tamaños Los tamaños de los modelos son Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B y Qwen2-72B Además de inglés y chino, se entrenó adicionalmente con datos en 27 idiomas Muestra rendimiento de vanguardia en múltiples evaluaciones de benchmark, con mejoras importantes en código y matemáticas Los modelos Qwen2-7B-Instruct y Qwen2-72B-Instruct usan YARN para admitir una longitud de contexto extendida de hasta 128K tokens Información de los modelos Qwen2 Se aplicó Group Query Attention (GQA) en todos los tamaños de modelo para mejorar la velocidad de inferencia y reducir el uso de memoria En los modelos pequeños se prefiere aplicar la técnica de embedding tying Los modelos ajustados por instrucciones evalúan su capacidad de manejar longitudes de contexto mediante la tarea Needle in a Haystack Gracias a la tecnología YARN, Qwen2-7B-Instruct y Qwen2-72B-Instruct pueden procesar hasta 128K tokens Rendimiento El preentrenamiento y el ajuste por instrucciones se realizaron con datasets en 27 idiomas además de inglés y chino, reforzando sus capacidades multilingües La capacidad para manejar code-switching mejoró significativamente Con un dataset de preentrenamiento y métodos de entrenamiento optimizados, Qwen2-72B muestra mejor rendimiento que modelos recientes como Llama-3-70B El postentrenamiento mejoró aún más sus capacidades en código, matemáticas, razonamiento, seguimiento de instrucciones y comprensión multilingüe, además de lograr alineación con valores humanos En 16 benchmarks, Qwen2-72B-Instruct supera ampliamente a Qwen1.5-72B-Chat y muestra un rendimiento comparable al de Llama-3-70B-Instruct Los modelos Qwen2 de menor tamaño también superan a modelos SOTA de tamaño similar o mayor. Destacan especialmente en métricas relacionadas con código y chino Puntos clave Al integrar la experiencia y los datos de entrenamiento de código de CodeQwen1.5, se mejoró notablemente el rendimiento de Qwen2-72B-Instruct en diversos lenguajes de programación Se reforzó la capacidad de Qwen2-72B-Instruct para resolver problemas matemáticos mediante datasets amplios y de alta calidad Qwen2-72B-Instruct puede manejar perfectamente tareas de extracción de información con longitud de 128K También se liberó como open source una solución eficiente de agentes para procesar documentos de 1 millón de tokens En la evaluación de la tasa de respuestas dañinas ante consultas dañinas multilingües de 4 tipos, Qwen2-72B-Instruct muestra un nivel de seguridad similar al de GPT-4 y muy superior al de Mistral-8x22B Uso de Qwen2 Todos los modelos fueron publicados en Hugging Face y ModelScope, y pueden usarse libremente Qwen2-72B y los modelos ajustados por instrucciones adoptan la licencia Qianwen License, mientras que los demás modelos usan licencia Apache 2.0 Para usar Qwen2 con diversos frameworks de terceros, consulta la documentación de cada framework y la documentación oficial Planes futuros de Qwen2 Planean entrenar modelos Qwen2 más grandes para explorar el escalado de modelos junto con el escalado de datos También planean expandir Qwen2 hacia un modelo de lenguaje multimodal capaz de comprender información visual y auditiva Seguirán liberando nuevos modelos como open source para acelerar el desarrollo de la IA de código abierto

(qwenlm.github.io)

5 puntos por xguru 2024-06-08 | 1 comentarios | Compartir por WhatsApp

Qwen2 es una evolución de Qwen1.5 e incluye modelos preentrenados y ajustados por instrucciones en 5 tamaños
- Los tamaños de los modelos son Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B y Qwen2-72B
Además de inglés y chino, se entrenó adicionalmente con datos en 27 idiomas
Muestra rendimiento de vanguardia en múltiples evaluaciones de benchmark, con mejoras importantes en código y matemáticas
Los modelos Qwen2-7B-Instruct y Qwen2-72B-Instruct usan YARN para admitir una longitud de contexto extendida de hasta 128K tokens

Información de los modelos Qwen2

Se aplicó Group Query Attention (GQA) en todos los tamaños de modelo para mejorar la velocidad de inferencia y reducir el uso de memoria
En los modelos pequeños se prefiere aplicar la técnica de embedding tying
Los modelos ajustados por instrucciones evalúan su capacidad de manejar longitudes de contexto mediante la tarea Needle in a Haystack
Gracias a la tecnología YARN, Qwen2-7B-Instruct y Qwen2-72B-Instruct pueden procesar hasta 128K tokens

Rendimiento

El preentrenamiento y el ajuste por instrucciones se realizaron con datasets en 27 idiomas además de inglés y chino, reforzando sus capacidades multilingües
La capacidad para manejar code-switching mejoró significativamente
Con un dataset de preentrenamiento y métodos de entrenamiento optimizados, Qwen2-72B muestra mejor rendimiento que modelos recientes como Llama-3-70B
El postentrenamiento mejoró aún más sus capacidades en código, matemáticas, razonamiento, seguimiento de instrucciones y comprensión multilingüe, además de lograr alineación con valores humanos
En 16 benchmarks, Qwen2-72B-Instruct supera ampliamente a Qwen1.5-72B-Chat y muestra un rendimiento comparable al de Llama-3-70B-Instruct
Los modelos Qwen2 de menor tamaño también superan a modelos SOTA de tamaño similar o mayor. Destacan especialmente en métricas relacionadas con código y chino

Puntos clave

Al integrar la experiencia y los datos de entrenamiento de código de CodeQwen1.5, se mejoró notablemente el rendimiento de Qwen2-72B-Instruct en diversos lenguajes de programación
Se reforzó la capacidad de Qwen2-72B-Instruct para resolver problemas matemáticos mediante datasets amplios y de alta calidad
Qwen2-72B-Instruct puede manejar perfectamente tareas de extracción de información con longitud de 128K
También se liberó como open source una solución eficiente de agentes para procesar documentos de 1 millón de tokens
En la evaluación de la tasa de respuestas dañinas ante consultas dañinas multilingües de 4 tipos, Qwen2-72B-Instruct muestra un nivel de seguridad similar al de GPT-4 y muy superior al de Mistral-8x22B

Uso de Qwen2

Todos los modelos fueron publicados en Hugging Face y ModelScope, y pueden usarse libremente
Qwen2-72B y los modelos ajustados por instrucciones adoptan la licencia Qianwen License, mientras que los demás modelos usan licencia Apache 2.0
Para usar Qwen2 con diversos frameworks de terceros, consulta la documentación de cada framework y la documentación oficial

Planes futuros de Qwen2

Planean entrenar modelos Qwen2 más grandes para explorar el escalado de modelos junto con el escalado de datos
También planean expandir Qwen2 hacia un modelo de lenguaje multimodal capaz de comprender información visual y auditiva
Seguirán liberando nuevos modelos como open source para acelerar el desarrollo de la IA de código abierto

1 comentarios

xguru 2024-06-08

Alibaba presenta el modelo de IA de código abierto QWEN
Qwen1.5-110B: el primer modelo de más de 100B de la serie LLM de código abierto Qwen1.5 de Alibaba