5 puntos por xguru 2024-04-28 | 1 comentarios | Compartir por WhatsApp
  • En la comunidad open source, recientemente han estado apareciendo en masa modelos de gran escala con más de 100 mil millones de parámetros, mostrando un rendimiento sorprendente en evaluaciones de benchmark y en el ámbito de los chatbots
  • Alibaba también presentó Qwen1.5-110B, el primer modelo de más de 100B de la serie Qwen1.5
  • En la evaluación del modelo base, logró un rendimiento comparable al de Meta-Llama3-70B, y mostró un desempeño sobresaliente en evaluaciones de chat, incluidas MT-Bench y AlpacaEval 2.0

Características del modelo Qwen1.5-110B

  • Qwen1.5-110B es similar a los otros modelos Qwen1.5 y está construido con la misma arquitectura de decodificador Transformer
  • Está compuesto con Grouped Query Attention (GQA), lo que lo hace eficiente para servir el modelo
  • Soporta una longitud de contexto de 32K tokens y es un modelo multilingüe compatible con numerosos idiomas, incluidos inglés, chino, francés, español, alemán, ruso, coreano, japonés, vietnamita y árabe

Resultados de evaluación del modelo base de lenguaje

  • Se realizaron una serie de evaluaciones sobre el modelo base de lenguaje y se comparó con modelos de lenguaje SOTA recientes como Meta-Llama3-70B y Mixtral-8x22B
  • Según los resultados, el nuevo modelo 110B es al menos competitivo con el modelo Llama-3-70B en capacidades base
  • En este caso, no se modificaron drásticamente las recetas de preentrenamiento ni de postentrenamiento, por lo que la mejora frente a 72B parece provenir del aumento en el tamaño del modelo

Resultados de evaluación del modelo de chat

  • Se probó el modelo de chat en MT-Bench y AlpacaEval 2.0
  • En comparación con el modelo 72B publicado anteriormente, 110B mostró un rendimiento notablemente superior en ambos benchmarks
  • La mejora consistente en las evaluaciones indica que un modelo base de lenguaje más grande y potente puede conducir a un mejor modelo de chat incluso sin cambiar de forma importante la receta de postentrenamiento

Desarrollar con Qwen1.5-110B

  • Recomiendan leer el blog de Qwen1.5 para conocer cómo usarlo con Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl y LLaMA-Factory

Conclusión

  • Qwen1.5-110B es el modelo más grande de la serie Qwen1.5 y el primero de la serie con más de 100 mil millones de parámetros
  • Muestra un rendimiento competitivo frente a Llama-3-70B, un modelo SOTA publicado recientemente, y es ampliamente superior al modelo 72B
  • Esto indica que todavía hay mucho potencial en escalar el tamaño del modelo para obtener un mejor rendimiento
  • El lanzamiento de Llama-3 muestra la importancia de escalar los datos a una magnitud extremadamente grande, pero creen que en futuras publicaciones podrán aprovechar lo mejor de ambos mundos escalando tanto los datos como el tamaño del modelo