Qwen1.5-110B: el primer modelo de más de 100B de la serie open source Qwen1.5 de Alibaba

xguru · 2024-04-28T09:30:03+09:00

En la comunidad open source, recientemente han estado apareciendo en masa modelos de gran escala con más de 100 mil millones de parámetros, mostrando un rendimiento sorprendente en evaluaciones de benchmark y en el ámbito de los chatbots Alibaba también presentó Qwen1.5-110B, el primer modelo de más de 100B de la serie Qwen1.5 En la evaluación del modelo base, logró un rendimiento comparable al de Meta-Llama3-70B, y mostró un desempeño sobresaliente en evaluaciones de chat, incluidas MT-Bench y AlpacaEval 2.0 Características del modelo Qwen1.5-110B Qwen1.5-110B es similar a los otros modelos Qwen1.5 y está construido con la misma arquitectura de decodificador Transformer Está compuesto con Grouped Query Attention (GQA), lo que lo hace eficiente para servir el modelo Soporta una longitud de contexto de 32K tokens y es un modelo multilingüe compatible con numerosos idiomas, incluidos inglés, chino, francés, español, alemán, ruso, coreano, japonés, vietnamita y árabe Resultados de evaluación del modelo base de lenguaje Se realizaron una serie de evaluaciones sobre el modelo base de lenguaje y se comparó con modelos de lenguaje SOTA recientes como Meta-Llama3-70B y Mixtral-8x22B Según los resultados, el nuevo modelo 110B es al menos competitivo con el modelo Llama-3-70B en capacidades base En este caso, no se modificaron drásticamente las recetas de preentrenamiento ni de postentrenamiento, por lo que la mejora frente a 72B parece provenir del aumento en el tamaño del modelo Resultados de evaluación del modelo de chat Se probó el modelo de chat en MT-Bench y AlpacaEval 2.0 En comparación con el modelo 72B publicado anteriormente, 110B mostró un rendimiento notablemente superior en ambos benchmarks La mejora consistente en las evaluaciones indica que un modelo base de lenguaje más grande y potente puede conducir a un mejor modelo de chat incluso sin cambiar de forma importante la receta de postentrenamiento Desarrollar con Qwen1.5-110B Recomiendan leer el blog de Qwen1.5 para conocer cómo usarlo con Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl y LLaMA-Factory Conclusión Qwen1.5-110B es el modelo más grande de la serie Qwen1.5 y el primero de la serie con más de 100 mil millones de parámetros Muestra un rendimiento competitivo frente a Llama-3-70B, un modelo SOTA publicado recientemente, y es ampliamente superior al modelo 72B Esto indica que todavía hay mucho potencial en escalar el tamaño del modelo para obtener un mejor rendimiento El lanzamiento de Llama-3 muestra la importancia de escalar los datos a una magnitud extremadamente grande, pero creen que en futuras publicaciones podrán aprovechar lo mejor de ambos mundos escalando tanto los datos como el tamaño del modelo

(qwenlm.github.io)

5 puntos por xguru 2024-04-28 | 1 comentarios | Compartir por WhatsApp

En la comunidad open source, recientemente han estado apareciendo en masa modelos de gran escala con más de 100 mil millones de parámetros, mostrando un rendimiento sorprendente en evaluaciones de benchmark y en el ámbito de los chatbots
Alibaba también presentó Qwen1.5-110B, el primer modelo de más de 100B de la serie Qwen1.5
En la evaluación del modelo base, logró un rendimiento comparable al de Meta-Llama3-70B, y mostró un desempeño sobresaliente en evaluaciones de chat, incluidas MT-Bench y AlpacaEval 2.0

Características del modelo Qwen1.5-110B

Qwen1.5-110B es similar a los otros modelos Qwen1.5 y está construido con la misma arquitectura de decodificador Transformer
Está compuesto con Grouped Query Attention (GQA), lo que lo hace eficiente para servir el modelo
Soporta una longitud de contexto de 32K tokens y es un modelo multilingüe compatible con numerosos idiomas, incluidos inglés, chino, francés, español, alemán, ruso, coreano, japonés, vietnamita y árabe

Resultados de evaluación del modelo base de lenguaje

Se realizaron una serie de evaluaciones sobre el modelo base de lenguaje y se comparó con modelos de lenguaje SOTA recientes como Meta-Llama3-70B y Mixtral-8x22B
Según los resultados, el nuevo modelo 110B es al menos competitivo con el modelo Llama-3-70B en capacidades base
En este caso, no se modificaron drásticamente las recetas de preentrenamiento ni de postentrenamiento, por lo que la mejora frente a 72B parece provenir del aumento en el tamaño del modelo

Resultados de evaluación del modelo de chat

Se probó el modelo de chat en MT-Bench y AlpacaEval 2.0
En comparación con el modelo 72B publicado anteriormente, 110B mostró un rendimiento notablemente superior en ambos benchmarks
La mejora consistente en las evaluaciones indica que un modelo base de lenguaje más grande y potente puede conducir a un mejor modelo de chat incluso sin cambiar de forma importante la receta de postentrenamiento

Desarrollar con Qwen1.5-110B

Recomiendan leer el blog de Qwen1.5 para conocer cómo usarlo con Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl y LLaMA-Factory

Conclusión

Qwen1.5-110B es el modelo más grande de la serie Qwen1.5 y el primero de la serie con más de 100 mil millones de parámetros
Muestra un rendimiento competitivo frente a Llama-3-70B, un modelo SOTA publicado recientemente, y es ampliamente superior al modelo 72B
Esto indica que todavía hay mucho potencial en escalar el tamaño del modelo para obtener un mejor rendimiento
El lanzamiento de Llama-3 muestra la importancia de escalar los datos a una magnitud extremadamente grande, pero creen que en futuras publicaciones podrán aprovechar lo mejor de ambos mundos escalando tanto los datos como el tamaño del modelo

1 comentarios

xguru 2024-04-28

Alibaba, presenta el modelo de IA open source QWEN