12 puntos por GN⁺ 2023-12-12 | 2 comentarios | Compartir por WhatsApp
  • "Modelo Sparse Mixture of Experts (SMoE) de alta calidad"
  • Supera a Llama 2 70B en la mayoría de los benchmarks, con una inferencia 6 veces más rápida
  • Muestra un rendimiento similar o mejor que GPT 3.5 en la mayoría de los benchmarks estándar
  • Es el modelo de pesos abiertos más potente con una licencia permisiva, y el mejor en relación costo/rendimiento
  • Soporta un contexto de 32k tokens
  • Procesa inglés/francés/italiano/alemán/español
  • Muestra un rendimiento sólido en generación de código
  • Puede ajustarse finamente como modelo de seguimiento de instrucciones, con una puntuación de 8.3 en MT-Bench
  • MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

Expandiendo los límites de los modelos abiertos con una arquitectura dispersa

  • Mixtral es una red de expertos dispersa y un modelo solo decodificador
  • El bloque feedforward elige entre 8 grupos de parámetros distintos; en cada capa y para cada token, una red enrutadora selecciona dos grupos de expertos y combina sus salidas
  • Esta técnica permite aumentar la cantidad de parámetros del modelo mientras se controlan el costo y la latencia; Mixtral tiene 46.7B parámetros en total, pero usa solo 12.9B parámetros por token

Rendimiento

  • Mixtral muestra un rendimiento igual o mejor en la mayoría de los benchmarks frente a los modelos Llama 2 y el modelo base GPT3.5.
  • En comparación con Llama 2 70B, Mixtral ofrece respuestas más veraces (73.9% frente a 50.2% en el benchmark TruthfulQA) y muestra menos sesgo en el benchmark BBQ.
  • Mixtral maneja con soltura francés, alemán, español, italiano e inglés.

Modelo orientado a instrucciones

  • Mixtral 8x7B Instruct pasó por ajuste fino supervisado y optimización directa de preferencias (DPO) para optimizar su desempeño en seguimiento de instrucciones.
  • Alcanzó una puntuación de 8.30 en MT-Bench, convirtiéndose en el mejor modelo de código abierto con un rendimiento comparable a GPT3.5.

Despliegue con el stack open source de Mixtral

  • Se enviaron cambios al proyecto vLLM para que la comunidad pueda ejecutar Mixtral con un stack completamente open source.
  • Actualmente, Mistral AI usa Mixtral 8x7B detrás del endpoint mistral-small, disponible en versión beta
  • Ya es posible registrarse para obtener acceso anticipado a todos los endpoints de generación y embeddings

2 comentarios

 
cosine20 2023-12-12

Como también se menciona en los comentarios de abajo, al principio vi 8x7B y pensé: entonces, ¿el número total de parámetros es 56B?

 
GN⁺ 2023-12-12
Opiniones en Hacker News
  • Opinión de Andrej Karpathy:

    • Publicación oficial sobre Mixtral 8x7B y publicación del código de inferencia de vLLM
    • La explicación de MoE (Mixture of Experts) de HuggingFace es útil
    • Logra el rendimiento de un modelo de 70B con la velocidad de inferencia de un modelo denso de 12.9B
    • Reacción positiva al uso del término "open weights"
    • Señala que el nombre "8x7B" puede ser engañoso
    • Menciona la confusión sobre la forma en que cada token y capa selecciona 2 expertos de entre 8
    • Presentación del modelo Mistral-medium
  • Disponibilidad del modelo en HuggingFace:

    • El modelo Mixtral está disponible a través de Mistralai y TheBloke
  • Solicitud de una explicación para ingenieros de software:

    • Hace falta entender cómo funciona la mezcla de expertos
  • Reacción al tamaño de Mixtral 8x7B:

    • Expresa interés en que un modelo de 4.5 mil millones de parámetros sea considerado "small"
  • Perspectiva sobre el futuro de la IA:

    • Visión positiva de que MoE podría ser el futuro de la IA
  • Pregunta sobre cómo funciona MoE y sus ventajas y desventajas:

    • Hace falta una explicación de qué ventajas tiene MoE frente a los modelos existentes
  • Confusión sobre los parámetros del modelo:

    • Expresa confusión sobre el nombre "8x7B", la cantidad real de parámetros y los parámetros utilizados al generar tokens
  • Explicación sobre el enfoque de Mistral:

    • Se menciona que el CEO dijo que Mistral busca un acceso libre y no censura el modelo
  • Capacidades lingüísticas de Mixtral 8x7B:

    • Maneja con soltura francés, alemán, español, italiano e inglés
  • Solicitud de información sobre el modelo y los pesos:

    • Piden enlaces sobre el modelo y los pesos
  • Pregunta sobre competitividad en el mercado:

    • Aunque tiene un modelo que supera a GPT 3.5, se cuestiona qué oportunidades tiene frente a OpenAI/Google y cómo se ve su futuro