- "Modelo Sparse Mixture of Experts (SMoE) de alta calidad"
- Supera a Llama 2 70B en la mayoría de los benchmarks, con una inferencia 6 veces más rápida
- Muestra un rendimiento similar o mejor que GPT 3.5 en la mayoría de los benchmarks estándar
- Es el modelo de pesos abiertos más potente con una licencia permisiva, y el mejor en relación costo/rendimiento
- Soporta un contexto de 32k tokens
- Procesa inglés/francés/italiano/alemán/español
- Muestra un rendimiento sólido en generación de código
- Puede ajustarse finamente como modelo de seguimiento de instrucciones, con una puntuación de 8.3 en MT-Bench
- MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)
Expandiendo los límites de los modelos abiertos con una arquitectura dispersa
- Mixtral es una red de expertos dispersa y un modelo solo decodificador
- El bloque feedforward elige entre 8 grupos de parámetros distintos; en cada capa y para cada token, una red enrutadora selecciona dos grupos de expertos y combina sus salidas
- Esta técnica permite aumentar la cantidad de parámetros del modelo mientras se controlan el costo y la latencia; Mixtral tiene 46.7B parámetros en total, pero usa solo 12.9B parámetros por token
Rendimiento
- Mixtral muestra un rendimiento igual o mejor en la mayoría de los benchmarks frente a los modelos Llama 2 y el modelo base GPT3.5.
- En comparación con Llama 2 70B, Mixtral ofrece respuestas más veraces (73.9% frente a 50.2% en el benchmark TruthfulQA) y muestra menos sesgo en el benchmark BBQ.
- Mixtral maneja con soltura francés, alemán, español, italiano e inglés.
Modelo orientado a instrucciones
- Mixtral 8x7B Instruct pasó por ajuste fino supervisado y optimización directa de preferencias (DPO) para optimizar su desempeño en seguimiento de instrucciones.
- Alcanzó una puntuación de 8.30 en MT-Bench, convirtiéndose en el mejor modelo de código abierto con un rendimiento comparable a GPT3.5.
Despliegue con el stack open source de Mixtral
- Se enviaron cambios al proyecto vLLM para que la comunidad pueda ejecutar Mixtral con un stack completamente open source.
- Actualmente, Mistral AI usa Mixtral 8x7B detrás del endpoint mistral-small, disponible en versión beta
- Ya es posible registrarse para obtener acceso anticipado a todos los endpoints de generación y embeddings
2 comentarios
Como también se menciona en los comentarios de abajo, al principio vi 8x7B y pensé: entonces, ¿el número total de parámetros es 56B?
Opiniones en Hacker News
Opinión de Andrej Karpathy:
Disponibilidad del modelo en HuggingFace:
Solicitud de una explicación para ingenieros de software:
Reacción al tamaño de Mixtral 8x7B:
Perspectiva sobre el futuro de la IA:
Pregunta sobre cómo funciona MoE y sus ventajas y desventajas:
Confusión sobre los parámetros del modelo:
Explicación sobre el enfoque de Mistral:
Capacidades lingüísticas de Mixtral 8x7B:
Solicitud de información sobre el modelo y los pesos:
Pregunta sobre competitividad en el mercado: