9 puntos por GN⁺ 2024-04-18 | 6 comentarios | Compartir por WhatsApp
  • "Más barato, mejor, más rápido y más potente"
  • Un modelo Sparse Mixture-of-Experts (SMoE) que utiliza solo 39B de parámetros activos de un total de 141B, con una eficiencia de costos sobresaliente en relación con el tamaño del modelo

Características principales de Mixtral 8x22B

  • Tiene fluidez en inglés, francés, italiano, alemán y español
  • Destaca en matemáticas y programación
  • Incluye capacidad nativa de function calling y, junto con el modo de salidas restringidas implementado en la Plateforme, permite desarrollar aplicaciones a gran escala y modernizar stacks tecnológicos
  • Su ventana de contexto de 64K tokens permite recuperar información precisa a partir de grandes volúmenes de documentos

Un modelo verdaderamente abierto

  • Mistral AI cree en el poder de la apertura y de la distribución amplia para impulsar la innovación y la colaboración en IA
  • Mixtral 8x22B se distribuye bajo Apache 2.0, la licencia de código abierto más permisiva, por lo que cualquiera puede usar el modelo sin restricciones

Máxima eficiencia

  • Mistral AI construye modelos que ofrecen el mejor rendimiento por costo para cada tamaño de modelo, logrando la mejor relación rendimiento/costo entre los modelos aportados por la comunidad
  • Mixtral 8x22B es una extensión natural de la familia de modelos abiertos de Mistral AI. Gracias a su patrón de activación dispersa, es más rápido que un modelo denso de 70B y al mismo tiempo ofrece más capacidades que otros modelos open-weight distribuidos bajo licencias permisivas o restrictivas. La disponibilidad del modelo base también lo convierte en una base muy adecuada para casos de uso con fine-tuning

Rendimiento abierto sin igual

Razonamiento y conocimiento

  • Mixtral 8x22B está optimizado para razonamiento
  • Muestra el mejor rendimiento entre los principales modelos abiertos de LLM en benchmarks de sentido común, razonamiento y conocimiento (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)

Capacidades multilingües

  • Mixtral 8x22B cuenta con capacidades multilingües nativas
  • Supera ampliamente a LLaMA 2 70B en los benchmarks HellaSwag, Arc Challenge y MMLU en francés, alemán, español e italiano

Matemáticas y programación

  • Mixtral 8x22B muestra el mejor rendimiento en tareas de programación y matemáticas frente a otros modelos abiertos
  • Logra el mejor desempeño entre los modelos abiertos líderes en benchmarks de programación y matemáticas (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)
  • La versión Instructed de Mixtral 8x22B presentada hoy mejora aún más el rendimiento en matemáticas, con 90.8% en GSM8K maj@8 y 44.6% en Math maj@4

La opinión de GN⁺

  • Mixtral 8x22B es el modelo abierto más grande de Mistral y, al mismo tiempo, un modelo muy eficiente en costo gracias al uso de sparsity. Vale la pena seguirlo como una de las direcciones de evolución de los LLM open source
  • Su sobresaliente rendimiento multilingüe, así como sus capacidades en matemáticas y programación en relación con su tamaño, parecen ser sus principales puntos diferenciadores. Sin embargo, fuera del inglés el rango de idiomas soportados sigue siendo limitado, y frente a LLM más recientes como GPT-4 su nivel en programación y matemáticas todavía queda por detrás
  • La adopción de la licencia Apache 2.0, que permite a cualquiera usarlo libremente, es una ventaja, aunque también parece elevar el potencial de uso indebido. Se vuelve aún más importante el esfuerzo de la comunidad por un desarrollo y uso responsables de los modelos de IA open source
  • La posibilidad de desarrollar aplicaciones y modernizar stacks tecnológicos con modelos Mixtral resulta atractiva, aunque todavía parecen existir límites técnicos y de costo para aplicarlo en servicios a gran escala. Aun así, se espera que aumenten los casos de innovación basados en open source
  • En Corea también están desarrollando sus propios LLM empresas como KakaoBrain, NAVER y LG AI Research. En aspectos orientados específicamente al mercado coreano, como el rendimiento en procesamiento de coreano, estos modelos podrían tener competitividad

6 comentarios

 
dormis 2024-04-19

Parece que ya está registrado para poder usarse en Azure AI Studio. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

 
vkehfdl1 2024-04-18

Polyglot no fue creado por Kakao Brain, sino por TUNiB AI y EleutherAI. Parece que hay alucinaciones, T_T

 
xguru 2024-04-19

Ah, sí. Ya lo corregí. Gracias.

 
xguru 2024-04-18

Cuando le pides a Claude Opus que dé su opinión, a veces mete comentarios sobre temas locales así. Es interesante jaja

 
GN⁺ 2024-04-18
Opiniones en Hacker News

Resumen:

  • Al poner una pregunta sobre impuestos en ChatGPT, apareció un anuncio de un servicio de redacción de ensayos
  • Solicitud de una explicación sencilla del concepto de "Mixture-of-Experts"
    • Entiende la idea de que existen subexpertos, pero le da curiosidad cómo se decide cada área de especialización durante el entrenamiento
  • Decepción con el tamaño de la ventana de contexto de 64K tokens
    • El hecho de no igualar los 128K de GPT-4 Turbo podría convertirse en motivo de bromas más adelante
    • Se espera que en el futuro aumente hasta el nivel de 1 billón de tokens
  • Pregunta sobre la mejor manera de ejecutar un LLM en una MacBook Pro
    • No le gusta la interfaz de LMStudio y usar la CLI de Ollama le resulta incómodo
    • Prefiere una solución como OpenAI, con ajustes finos de configuración y edición sencilla de prompts
  • Limitaciones de los modelos abiertos
    • Si no se puede acceder a los datos de entrenamiento, no es posible replicar el modelo
  • Resultados de comparación entre la serie Mistral y su rendimiento
  • Ventajas de operar una startup de IA
    • Cada vez que se lanza un nuevo modelo grande, el producto mejora automáticamente
  • Pregunta sobre si la versión "non-instructed" de un LLM es una versión sin guía de la versión "instructed"
  • Debido a los LLM, la importancia de la RAM vuelve a destacar
    • Se arrepiente de no haber añadido 32 GB extra de RAM a la MacBook Pro
  • Expectativas sobre los modelos cuantizados
    • Espera un modelo de 3 bits que pueda ejecutarse en una MacBook Pro de 64 GB