Alibaba presenta los modelos Qwen 2
(qwenlm.github.io)- Qwen2 es una evolución de Qwen1.5 e incluye modelos preentrenados y ajustados por instrucciones en 5 tamaños
- Los tamaños de los modelos son Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B y Qwen2-72B
- Además de inglés y chino, se entrenó adicionalmente con datos en 27 idiomas
- Muestra rendimiento de vanguardia en múltiples evaluaciones de benchmark, con mejoras importantes en código y matemáticas
- Los modelos Qwen2-7B-Instruct y Qwen2-72B-Instruct usan YARN para admitir una longitud de contexto extendida de hasta 128K tokens
Información de los modelos Qwen2
- Se aplicó Group Query Attention (GQA) en todos los tamaños de modelo para mejorar la velocidad de inferencia y reducir el uso de memoria
- En los modelos pequeños se prefiere aplicar la técnica de embedding tying
- Los modelos ajustados por instrucciones evalúan su capacidad de manejar longitudes de contexto mediante la tarea Needle in a Haystack
- Gracias a la tecnología YARN, Qwen2-7B-Instruct y Qwen2-72B-Instruct pueden procesar hasta 128K tokens
Rendimiento
- El preentrenamiento y el ajuste por instrucciones se realizaron con datasets en 27 idiomas además de inglés y chino, reforzando sus capacidades multilingües
- La capacidad para manejar code-switching mejoró significativamente
- Con un dataset de preentrenamiento y métodos de entrenamiento optimizados, Qwen2-72B muestra mejor rendimiento que modelos recientes como Llama-3-70B
- El postentrenamiento mejoró aún más sus capacidades en código, matemáticas, razonamiento, seguimiento de instrucciones y comprensión multilingüe, además de lograr alineación con valores humanos
- En 16 benchmarks, Qwen2-72B-Instruct supera ampliamente a Qwen1.5-72B-Chat y muestra un rendimiento comparable al de Llama-3-70B-Instruct
- Los modelos Qwen2 de menor tamaño también superan a modelos SOTA de tamaño similar o mayor. Destacan especialmente en métricas relacionadas con código y chino
Puntos clave
- Al integrar la experiencia y los datos de entrenamiento de código de CodeQwen1.5, se mejoró notablemente el rendimiento de Qwen2-72B-Instruct en diversos lenguajes de programación
- Se reforzó la capacidad de Qwen2-72B-Instruct para resolver problemas matemáticos mediante datasets amplios y de alta calidad
- Qwen2-72B-Instruct puede manejar perfectamente tareas de extracción de información con longitud de 128K
- También se liberó como open source una solución eficiente de agentes para procesar documentos de 1 millón de tokens
- En la evaluación de la tasa de respuestas dañinas ante consultas dañinas multilingües de 4 tipos, Qwen2-72B-Instruct muestra un nivel de seguridad similar al de GPT-4 y muy superior al de Mistral-8x22B
Uso de Qwen2
- Todos los modelos fueron publicados en Hugging Face y ModelScope, y pueden usarse libremente
- Qwen2-72B y los modelos ajustados por instrucciones adoptan la licencia Qianwen License, mientras que los demás modelos usan licencia Apache 2.0
- Para usar Qwen2 con diversos frameworks de terceros, consulta la documentación de cada framework y la documentación oficial
Planes futuros de Qwen2
- Planean entrenar modelos Qwen2 más grandes para explorar el escalado de modelos junto con el escalado de datos
- También planean expandir Qwen2 hacia un modelo de lenguaje multimodal capaz de comprender información visual y auditiva
- Seguirán liberando nuevos modelos como open source para acelerar el desarrollo de la IA de código abierto
1 comentarios
Alibaba presenta el modelo de IA de código abierto QWEN
Qwen1.5-110B: el primer modelo de más de 100B de la serie LLM de código abierto Qwen1.5 de Alibaba