Mistral AI presenta su nuevo modelo abierto Mixtral 8x22B

(mistral.ai)

9 puntos por GN⁺ 2024-04-18 | 6 comentarios | Compartir por WhatsApp

"Más barato, mejor, más rápido y más potente"
Un modelo Sparse Mixture-of-Experts (SMoE) que utiliza solo 39B de parámetros activos de un total de 141B, con una eficiencia de costos sobresaliente en relación con el tamaño del modelo

Características principales de Mixtral 8x22B

Tiene fluidez en inglés, francés, italiano, alemán y español
Destaca en matemáticas y programación
Incluye capacidad nativa de function calling y, junto con el modo de salidas restringidas implementado en la Plateforme, permite desarrollar aplicaciones a gran escala y modernizar stacks tecnológicos
Su ventana de contexto de 64K tokens permite recuperar información precisa a partir de grandes volúmenes de documentos

Un modelo verdaderamente abierto

Mistral AI cree en el poder de la apertura y de la distribución amplia para impulsar la innovación y la colaboración en IA
Mixtral 8x22B se distribuye bajo Apache 2.0, la licencia de código abierto más permisiva, por lo que cualquiera puede usar el modelo sin restricciones

Máxima eficiencia

Mistral AI construye modelos que ofrecen el mejor rendimiento por costo para cada tamaño de modelo, logrando la mejor relación rendimiento/costo entre los modelos aportados por la comunidad
Mixtral 8x22B es una extensión natural de la familia de modelos abiertos de Mistral AI. Gracias a su patrón de activación dispersa, es más rápido que un modelo denso de 70B y al mismo tiempo ofrece más capacidades que otros modelos open-weight distribuidos bajo licencias permisivas o restrictivas. La disponibilidad del modelo base también lo convierte en una base muy adecuada para casos de uso con fine-tuning

Rendimiento abierto sin igual

Razonamiento y conocimiento

Mixtral 8x22B está optimizado para razonamiento
Muestra el mejor rendimiento entre los principales modelos abiertos de LLM en benchmarks de sentido común, razonamiento y conocimiento (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)

Capacidades multilingües

Mixtral 8x22B cuenta con capacidades multilingües nativas
Supera ampliamente a LLaMA 2 70B en los benchmarks HellaSwag, Arc Challenge y MMLU en francés, alemán, español e italiano

Matemáticas y programación

Mixtral 8x22B muestra el mejor rendimiento en tareas de programación y matemáticas frente a otros modelos abiertos
Logra el mejor desempeño entre los modelos abiertos líderes en benchmarks de programación y matemáticas (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)
La versión Instructed de Mixtral 8x22B presentada hoy mejora aún más el rendimiento en matemáticas, con 90.8% en GSM8K maj@8 y 44.6% en Math maj@4

La opinión de GN⁺

Mixtral 8x22B es el modelo abierto más grande de Mistral y, al mismo tiempo, un modelo muy eficiente en costo gracias al uso de sparsity. Vale la pena seguirlo como una de las direcciones de evolución de los LLM open source
Su sobresaliente rendimiento multilingüe, así como sus capacidades en matemáticas y programación en relación con su tamaño, parecen ser sus principales puntos diferenciadores. Sin embargo, fuera del inglés el rango de idiomas soportados sigue siendo limitado, y frente a LLM más recientes como GPT-4 su nivel en programación y matemáticas todavía queda por detrás
La adopción de la licencia Apache 2.0, que permite a cualquiera usarlo libremente, es una ventaja, aunque también parece elevar el potencial de uso indebido. Se vuelve aún más importante el esfuerzo de la comunidad por un desarrollo y uso responsables de los modelos de IA open source
La posibilidad de desarrollar aplicaciones y modernizar stacks tecnológicos con modelos Mixtral resulta atractiva, aunque todavía parecen existir límites técnicos y de costo para aplicarlo en servicios a gran escala. Aun así, se espera que aumenten los casos de innovación basados en open source
En Corea también están desarrollando sus propios LLM empresas como KakaoBrain, NAVER y LG AI Research. En aspectos orientados específicamente al mercado coreano, como el rendimiento en procesamiento de coreano, estos modelos podrían tener competitividad

6 comentarios

ninebow 2024-04-19

Modelo base Mixtral 8x22B: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Modelo Mixtral 8x22B Instruct: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1

dormis 2024-04-19

Parece que ya está registrado para poder usarse en Azure AI Studio. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

vkehfdl1 2024-04-18

Polyglot no fue creado por Kakao Brain, sino por TUNiB AI y EleutherAI. Parece que hay alucinaciones, T_T

xguru 2024-04-19

Ah, sí. Ya lo corregí. Gracias.

xguru 2024-04-18

Cuando le pides a Claude Opus que dé su opinión, a veces mete comentarios sobre temas locales así. Es interesante jaja

GN⁺ 2024-04-18

Opiniones en Hacker News

Resumen:

Al poner una pregunta sobre impuestos en ChatGPT, apareció un anuncio de un servicio de redacción de ensayos
Solicitud de una explicación sencilla del concepto de "Mixture-of-Experts"
- Entiende la idea de que existen subexpertos, pero le da curiosidad cómo se decide cada área de especialización durante el entrenamiento
Decepción con el tamaño de la ventana de contexto de 64K tokens
- El hecho de no igualar los 128K de GPT-4 Turbo podría convertirse en motivo de bromas más adelante
- Se espera que en el futuro aumente hasta el nivel de 1 billón de tokens
Pregunta sobre la mejor manera de ejecutar un LLM en una MacBook Pro
- No le gusta la interfaz de LMStudio y usar la CLI de Ollama le resulta incómodo
- Prefiere una solución como OpenAI, con ajustes finos de configuración y edición sencilla de prompts
Limitaciones de los modelos abiertos
- Si no se puede acceder a los datos de entrenamiento, no es posible replicar el modelo
Resultados de comparación entre la serie Mistral y su rendimiento
Ventajas de operar una startup de IA
- Cada vez que se lanza un nuevo modelo grande, el producto mejora automáticamente
Pregunta sobre si la versión "non-instructed" de un LLM es una versión sin guía de la versión "instructed"
Debido a los LLM, la importancia de la RAM vuelve a destacar
- Se arrepiente de no haber añadido 32 GB extra de RAM a la MacBook Pro
Expectativas sobre los modelos cuantizados
- Espera un modelo de 3 bits que pueda ejecutarse en una MacBook Pro de 64 GB