- "Más barato, mejor, más rápido y más potente"
- Un modelo Sparse Mixture-of-Experts (SMoE) que utiliza solo 39B de parámetros activos de un total de 141B, con una eficiencia de costos sobresaliente en relación con el tamaño del modelo
Características principales de Mixtral 8x22B
- Tiene fluidez en inglés, francés, italiano, alemán y español
- Destaca en matemáticas y programación
- Incluye capacidad nativa de function calling y, junto con el modo de salidas restringidas implementado en la Plateforme, permite desarrollar aplicaciones a gran escala y modernizar stacks tecnológicos
- Su ventana de contexto de 64K tokens permite recuperar información precisa a partir de grandes volúmenes de documentos
Un modelo verdaderamente abierto
- Mistral AI cree en el poder de la apertura y de la distribución amplia para impulsar la innovación y la colaboración en IA
- Mixtral 8x22B se distribuye bajo Apache 2.0, la licencia de código abierto más permisiva, por lo que cualquiera puede usar el modelo sin restricciones
Máxima eficiencia
- Mistral AI construye modelos que ofrecen el mejor rendimiento por costo para cada tamaño de modelo, logrando la mejor relación rendimiento/costo entre los modelos aportados por la comunidad
- Mixtral 8x22B es una extensión natural de la familia de modelos abiertos de Mistral AI. Gracias a su patrón de activación dispersa, es más rápido que un modelo denso de 70B y al mismo tiempo ofrece más capacidades que otros modelos open-weight distribuidos bajo licencias permisivas o restrictivas. La disponibilidad del modelo base también lo convierte en una base muy adecuada para casos de uso con fine-tuning
Rendimiento abierto sin igual
Razonamiento y conocimiento
- Mixtral 8x22B está optimizado para razonamiento
- Muestra el mejor rendimiento entre los principales modelos abiertos de LLM en benchmarks de sentido común, razonamiento y conocimiento (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)
Capacidades multilingües
- Mixtral 8x22B cuenta con capacidades multilingües nativas
- Supera ampliamente a LLaMA 2 70B en los benchmarks HellaSwag, Arc Challenge y MMLU en francés, alemán, español e italiano
Matemáticas y programación
- Mixtral 8x22B muestra el mejor rendimiento en tareas de programación y matemáticas frente a otros modelos abiertos
- Logra el mejor desempeño entre los modelos abiertos líderes en benchmarks de programación y matemáticas (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)
- La versión Instructed de Mixtral 8x22B presentada hoy mejora aún más el rendimiento en matemáticas, con 90.8% en GSM8K maj@8 y 44.6% en Math maj@4
La opinión de GN⁺
- Mixtral 8x22B es el modelo abierto más grande de Mistral y, al mismo tiempo, un modelo muy eficiente en costo gracias al uso de sparsity. Vale la pena seguirlo como una de las direcciones de evolución de los LLM open source
- Su sobresaliente rendimiento multilingüe, así como sus capacidades en matemáticas y programación en relación con su tamaño, parecen ser sus principales puntos diferenciadores. Sin embargo, fuera del inglés el rango de idiomas soportados sigue siendo limitado, y frente a LLM más recientes como GPT-4 su nivel en programación y matemáticas todavía queda por detrás
- La adopción de la licencia Apache 2.0, que permite a cualquiera usarlo libremente, es una ventaja, aunque también parece elevar el potencial de uso indebido. Se vuelve aún más importante el esfuerzo de la comunidad por un desarrollo y uso responsables de los modelos de IA open source
- La posibilidad de desarrollar aplicaciones y modernizar stacks tecnológicos con modelos Mixtral resulta atractiva, aunque todavía parecen existir límites técnicos y de costo para aplicarlo en servicios a gran escala. Aun así, se espera que aumenten los casos de innovación basados en open source
- En Corea también están desarrollando sus propios LLM empresas como KakaoBrain, NAVER y LG AI Research. En aspectos orientados específicamente al mercado coreano, como el rendimiento en procesamiento de coreano, estos modelos podrían tener competitividad
6 comentarios
Modelo base Mixtral 8x22B: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Modelo Mixtral 8x22B Instruct: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
Parece que ya está registrado para poder usarse en Azure AI Studio. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)
Polyglot no fue creado por Kakao Brain, sino por TUNiB AI y EleutherAI. Parece que hay alucinaciones, T_T
Ah, sí. Ya lo corregí. Gracias.
Cuando le pides a Claude Opus que dé su opinión, a veces mete comentarios sobre temas locales así. Es interesante jaja
Opiniones en Hacker News
Resumen:
LMStudioy usar la CLI deOllamale resulta incómodoMistraly su rendimiento