Qwen1.5-110B: el primer modelo de más de 100B de la serie open source Qwen1.5 de Alibaba
(qwenlm.github.io)- En la comunidad open source, recientemente han estado apareciendo en masa modelos de gran escala con más de 100 mil millones de parámetros, mostrando un rendimiento sorprendente en evaluaciones de benchmark y en el ámbito de los chatbots
- Alibaba también presentó Qwen1.5-110B, el primer modelo de más de 100B de la serie Qwen1.5
- En la evaluación del modelo base, logró un rendimiento comparable al de Meta-Llama3-70B, y mostró un desempeño sobresaliente en evaluaciones de chat, incluidas MT-Bench y AlpacaEval 2.0
Características del modelo Qwen1.5-110B
- Qwen1.5-110B es similar a los otros modelos Qwen1.5 y está construido con la misma arquitectura de decodificador Transformer
- Está compuesto con Grouped Query Attention (GQA), lo que lo hace eficiente para servir el modelo
- Soporta una longitud de contexto de 32K tokens y es un modelo multilingüe compatible con numerosos idiomas, incluidos inglés, chino, francés, español, alemán, ruso, coreano, japonés, vietnamita y árabe
Resultados de evaluación del modelo base de lenguaje
- Se realizaron una serie de evaluaciones sobre el modelo base de lenguaje y se comparó con modelos de lenguaje SOTA recientes como Meta-Llama3-70B y Mixtral-8x22B
- Según los resultados, el nuevo modelo 110B es al menos competitivo con el modelo Llama-3-70B en capacidades base
- En este caso, no se modificaron drásticamente las recetas de preentrenamiento ni de postentrenamiento, por lo que la mejora frente a 72B parece provenir del aumento en el tamaño del modelo
Resultados de evaluación del modelo de chat
- Se probó el modelo de chat en MT-Bench y AlpacaEval 2.0
- En comparación con el modelo 72B publicado anteriormente, 110B mostró un rendimiento notablemente superior en ambos benchmarks
- La mejora consistente en las evaluaciones indica que un modelo base de lenguaje más grande y potente puede conducir a un mejor modelo de chat incluso sin cambiar de forma importante la receta de postentrenamiento
Desarrollar con Qwen1.5-110B
- Recomiendan leer el blog de Qwen1.5 para conocer cómo usarlo con Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl y LLaMA-Factory
Conclusión
- Qwen1.5-110B es el modelo más grande de la serie Qwen1.5 y el primero de la serie con más de 100 mil millones de parámetros
- Muestra un rendimiento competitivo frente a Llama-3-70B, un modelo SOTA publicado recientemente, y es ampliamente superior al modelo 72B
- Esto indica que todavía hay mucho potencial en escalar el tamaño del modelo para obtener un mejor rendimiento
- El lanzamiento de Llama-3 muestra la importancia de escalar los datos a una magnitud extremadamente grande, pero creen que en futuras publicaciones podrán aprovechar lo mejor de ambos mundos escalando tanto los datos como el tamaño del modelo
1 comentarios
Alibaba, presenta el modelo de IA open source QWEN