Mistral AI presenta Mixtral 8x7B, un modelo superior a Llama 2 70B

(mistral.ai)

12 puntos por GN⁺ 2023-12-12 | 2 comentarios | Compartir por WhatsApp

"Modelo Sparse Mixture of Experts (SMoE) de alta calidad"
Supera a Llama 2 70B en la mayoría de los benchmarks, con una inferencia 6 veces más rápida
Muestra un rendimiento similar o mejor que GPT 3.5 en la mayoría de los benchmarks estándar
Es el modelo de pesos abiertos más potente con una licencia permisiva, y el mejor en relación costo/rendimiento
Soporta un contexto de 32k tokens
Procesa inglés/francés/italiano/alemán/español
Muestra un rendimiento sólido en generación de código
Puede ajustarse finamente como modelo de seguimiento de instrucciones, con una puntuación de 8.3 en MT-Bench
MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

Expandiendo los límites de los modelos abiertos con una arquitectura dispersa

Mixtral es una red de expertos dispersa y un modelo solo decodificador
El bloque feedforward elige entre 8 grupos de parámetros distintos; en cada capa y para cada token, una red enrutadora selecciona dos grupos de expertos y combina sus salidas
Esta técnica permite aumentar la cantidad de parámetros del modelo mientras se controlan el costo y la latencia; Mixtral tiene 46.7B parámetros en total, pero usa solo 12.9B parámetros por token

Rendimiento

Mixtral muestra un rendimiento igual o mejor en la mayoría de los benchmarks frente a los modelos Llama 2 y el modelo base GPT3.5.
En comparación con Llama 2 70B, Mixtral ofrece respuestas más veraces (73.9% frente a 50.2% en el benchmark TruthfulQA) y muestra menos sesgo en el benchmark BBQ.
Mixtral maneja con soltura francés, alemán, español, italiano e inglés.

Modelo orientado a instrucciones

Mixtral 8x7B Instruct pasó por ajuste fino supervisado y optimización directa de preferencias (DPO) para optimizar su desempeño en seguimiento de instrucciones.
Alcanzó una puntuación de 8.30 en MT-Bench, convirtiéndose en el mejor modelo de código abierto con un rendimiento comparable a GPT3.5.

Despliegue con el stack open source de Mixtral

Se enviaron cambios al proyecto vLLM para que la comunidad pueda ejecutar Mixtral con un stack completamente open source.
Actualmente, Mistral AI usa Mixtral 8x7B detrás del endpoint mistral-small, disponible en versión beta
Ya es posible registrarse para obtener acceso anticipado a todos los endpoints de generación y embeddings

2 comentarios

cosine20 2023-12-12

Como también se menciona en los comentarios de abajo, al principio vi 8x7B y pensé: entonces, ¿el número total de parámetros es 56B?

GN⁺ 2023-12-12

Opiniones en Hacker News

Opinión de Andrej Karpathy:
- Publicación oficial sobre Mixtral 8x7B y publicación del código de inferencia de vLLM
- La explicación de MoE (Mixture of Experts) de HuggingFace es útil
- Logra el rendimiento de un modelo de 70B con la velocidad de inferencia de un modelo denso de 12.9B
- Reacción positiva al uso del término "open weights"
- Señala que el nombre "8x7B" puede ser engañoso
- Menciona la confusión sobre la forma en que cada token y capa selecciona 2 expertos de entre 8
- Presentación del modelo Mistral-medium
Disponibilidad del modelo en HuggingFace:
- El modelo Mixtral está disponible a través de Mistralai y TheBloke
Solicitud de una explicación para ingenieros de software:
- Hace falta entender cómo funciona la mezcla de expertos
Reacción al tamaño de Mixtral 8x7B:
- Expresa interés en que un modelo de 4.5 mil millones de parámetros sea considerado "small"
Perspectiva sobre el futuro de la IA:
- Visión positiva de que MoE podría ser el futuro de la IA
Pregunta sobre cómo funciona MoE y sus ventajas y desventajas:
- Hace falta una explicación de qué ventajas tiene MoE frente a los modelos existentes
Confusión sobre los parámetros del modelo:
- Expresa confusión sobre el nombre "8x7B", la cantidad real de parámetros y los parámetros utilizados al generar tokens
Explicación sobre el enfoque de Mistral:
- Se menciona que el CEO dijo que Mistral busca un acceso libre y no censura el modelo
Capacidades lingüísticas de Mixtral 8x7B:
- Maneja con soltura francés, alemán, español, italiano e inglés
Solicitud de información sobre el modelo y los pesos:
- Piden enlaces sobre el modelo y los pesos
Pregunta sobre competitividad en el mercado:
- Aunque tiene un modelo que supera a GPT 3.5, se cuestiona qué oportunidades tiene frente a OpenAI/Google y cómo se ve su futuro