1 puntos por GN⁺ 2024-01-10 | 1 comentarios | Compartir por WhatsApp

Introducción a Mixtral of Experts

  • Mixtral 8x7B es un modelo de lenguaje Sparse Mixture of Experts (SMoE).
  • Mixtral tiene la misma arquitectura que Mistral 7B, pero cada capa está compuesta por 8 bloques feed-forward (expertos).
  • Para cada token, una red enrutadora selecciona dos expertos para procesar el estado actual y combina sus salidas.

Rendimiento y benchmarks

  • Cada token puede acceder a 47B parámetros, pero durante la inferencia solo usa 13B parámetros activos.
  • Mixtral fue entrenado con un tamaño de contexto de 32k tokens y supera o iguala a Llama 2 70B y GPT-3.5 en todos los benchmarks evaluados.
  • En particular, supera ampliamente a Llama 2 70B en matemáticas, generación de código y benchmarks multilingües.

Fine-tuning del modelo y licencia

  • Mixtral 8x7B - Instruct, el modelo ajustado con fine-tuning para seguir instrucciones, supera a GPT-3.5 Turbo, Claude-2.1, Gemini Pro y Llama 2 70B - chat en benchmarks humanos.
  • Tanto el modelo base como el modelo instruct se publican bajo la licencia Apache 2.0.

Opinión de GN⁺

  • Mixtral 8x7B es evaluado como un modelo con un rendimiento sobresaliente en comparación con los modelos de lenguaje existentes. Esto representa un indicador importante del avance en el campo del procesamiento del lenguaje con inteligencia artificial.
  • En particular, la mejora de rendimiento en varios idiomas y en generación de código puede tener un impacto positivo en diversas áreas de aplicación, como traducción automática y programación automatizada.
  • Su publicación bajo licencia Apache 2.0 brinda a investigadores y desarrolladores la oportunidad de usar y mejorar libremente este modelo, lo que contribuirá al crecimiento de la comunidad de IA de código abierto.

1 comentarios

 
GN⁺ 2024-01-10
Opiniones de Hacker News
  • Discusión sobre el modelo Mixtral 8x7B

    • El modelo Mixtral 8x7B se ha estado usando desde hace aproximadamente un mes y muestra un rendimiento muy sobresaliente para un tamaño de 13B.
    • Ocupa una posición alta frente a modelos competidores y es muy útil para tareas como chat y escritura de código en el uso diario de una Mac.
    • Se plantea la posibilidad de que los 8 expertos que comenzaron desde Mistral 7B hayan evolucionado cada uno en direcciones distintas.
    • En el caso de Mistral, parece que entrenar la red 8x7B no requirió tanto esfuerzo como entrenar ocho redes 7B por separado.
    • En el campo de los LLM, la innovación rápida sigue en marcha, con nuevas investigaciones como Calm y modelos experimentales como Goliath-120b.
    • Se espera que en la primera mitad de 2024 aparezcan modelos con buen rendimiento en hardware de consumo.
  • Rendimiento y usabilidad del modelo

    • Este modelo usa 13B de parámetros, corre con fluidez y alta calidad en una 3090, supera a GPT-3.5 en humaneval y admite un contexto de 32k.
    • La 3090 es hardware de grado de consumo de uso común entre gamers.
    • Se espera que los desarrolladores de videojuegos comiencen a usar Mixtral dentro de los juegos.
  • Cómo usar el modelo

    • El modelo Mixtral fue publicado como Llamafile por Mozilla/jart, y los usuarios pueden descargar ese archivo y ejecutarlo.
  • Uso en Mac Silicon

    • Los usuarios de Mac Silicon pueden descargar Mixtral mediante ollama.ai y construir una interfaz web usando ollama-webui.
  • Noticias y debates relacionados

    • Se proporcionan enlaces a noticias y debates recientes sobre el modelo Mixtral.
  • Rendimiento del modelo en benchmarks

    • Mixtral supera ampliamente al modelo Llama 2 70B en benchmarks de matemáticas, generación de código y multilingües.
    • Hay interés en su rendimiento en matemáticas, un campo que al parecer todavía no ha sido resuelto eficazmente.
  • Opiniones críticas sobre el paper

    • Hay críticas de que los papers sobre LLM carecen de detalles suficientes.
    • Se señala que falta explicar cómo se entrenó a los expertos y qué datasets se usaron.
  • Contenido de la entrevista con el fundador de Mistral

    • En una entrevista en el pódcast de A16Z, el fundador de Mistral mencionó que tienen varios modelos internos entre el nivel de chatGPT y GPT4.
    • Con base en la alta calidad de los lanzamientos hasta ahora, se expresa expectativa por los LLM de código abierto.
  • Descripción de cada modelo experto

    • El paper no explica si uno de los 8 modelos está especializado en traducción multilingüe y otro en programación.
  • Expectativa por la publicación de modelos multimodales

    • Aunque el avance de los modelos que solo manejan texto ha sido sorprendente, existe curiosidad sobre si el comportamiento "emergente" de GPT-4 se debe al entrenamiento multimodal.
    • Hay interés en saber si modelos pequeños con multimodalidad incluida mostrarán un salto similar.