6 puntos por GN⁺ 2024-07-19 | 1 comentarios | Compartir por WhatsApp
  • Lanzamiento de Mistral NeMo, un modelo de 12 mil millones de parámetros desarrollado en colaboración con NVIDIA
  • Ofrece una gran ventana de contexto de hasta 128k tokens
  • Rendimiento de primer nivel en razonamiento, conocimiento del mundo y precisión de programación
  • Usa una arquitectura estándar, por lo que puede aplicarse fácilmente a sistemas que usan Mistral 7B
  • Se publican checkpoints base preentrenados y ajustados por instrucciones bajo licencia Apache 2.0 para fomentar la adopción por parte de investigadores y empresas
  • Entrenado con conciencia de cuantización, lo que permite inferencia FP8 sin pérdida de rendimiento

Modelo multilingüe

  • Diseñado para aplicaciones multilingües globales
  • Entrenado para function calling y con una gran ventana de contexto
  • Especialmente sólido en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi
  • Busca ofrecer un modelo de IA de vanguardia a usuarios de todos los idiomas

Tekken, un tokenizador más eficiente

  • Usa Tekken, un nuevo tokenizador basado en Tiktoken
  • Comprime texto en lenguaje natural y código fuente en más de 100 idiomas con mayor eficiencia que el tokenizador SentencePiece
  • Aproximadamente 30% más eficiente en código fuente, chino, italiano, francés, alemán, español y ruso
  • 2 veces y 3 veces más eficiente en coreano y árabe, respectivamente
  • Mejor compresión en aproximadamente 85% de los idiomas en comparación con el tokenizador de Llama 3

Ajuste fino por instrucciones

  • Mistral NeMo pasa por etapas avanzadas de fine-tuning y alineación
  • En comparación con Mistral 7B, es mucho mejor para seguir instrucciones con precisión, razonar, manejar conversaciones de varios turnos y generar código

Enlaces

  • Los pesos de los modelos base y de instrucciones están alojados en HuggingFace
  • Se puede probar Mistral NeMo con mistral-inference y ajustarlo con mistral-finetune
  • Está empaquetado como un microservicio de inferencia NVIDIA NIM y disponible en ai.nvidia.com

1 comentarios

 
GN⁺ 2024-07-19
Comentarios en Hacker News
  • Mistral NeMo es un modelo de 12B desarrollado en colaboración con NVIDIA, y ofrece una gran ventana de contexto de hasta 128k tokens

    • Usa una arquitectura estándar, por lo que es fácil de usar y puede sustituir fácilmente a sistemas que usan Mistral 7B
    • Ofrece checkpoints preentrenados bajo la licencia Apache 2.0, lo que impulsa su adopción entre investigadores y empresas
    • Gracias a la conciencia de cuantización, permite inferencia en FP8 sin pérdida de rendimiento
  • Mistral NeMo usa el nuevo tokenizador Tekken, entrenado en más de 100 idiomas, que comprime texto y código fuente de forma más eficiente que SentencePiece

    • Se plantea la duda de por qué volvieron a SentencePiece, a pesar de que el byte-pair encoding ha demostrado ser un método de codificación más eficiente
  • También hay una publicación sobre Mistral NeMo en el blog de NVIDIA

    • Está empaquetado como un microservicio de inferencia NVIDIA NIM, que ofrece inferencia optimizada en rendimiento mediante el motor NVIDIA TensorRT-LLM
    • Está diseñado para ajustarse a la memoria de las GPU NVIDIA L40S, NVIDIA GeForce RTX 4090 y NVIDIA RTX 4500
    • Fue entrenado con Megatron-LM usando 3,072 GPU H100 80GB Tensor Core
  • Los modelos a gran escala están saliendo rápidamente, lo que significa que las empresas han encontrado cómo escalar procesos escalables

    • Se plantea la duda de si publicar modelos en HuggingFace constituye realmente un negocio
    • La descarga de los archivos del modelo pesa alrededor de 25GB, y es un modelo cuantizado en 8fp
  • Hay opiniones de que la experiencia de registrarse en NVIDIA Enterprise para probar la versión empaquetada como "NIM" es incómoda

    • Algunos opinan que sería mejor poder descargar libremente los archivos del modelo
    • Hay quejas de que NVIDIA exija un proceso complicado a pesar de tener un monopolio de hardware
  • Hay quienes opinan que, si Mistral realmente se toma en serio el avance del open source, debería compartir el corpus usado para entrenar el modelo

    • También se cuestiona por qué no tienen lista una versión GGUF el día del lanzamiento
  • Se pregunta si entrenar en varios idiomas ofrece "crossover"

    • Hay curiosidad sobre si lo aprendido en alemán puede aprovecharse al responder a prompts en inglés
  • No queda claro el modelo de negocio de lanzar gratis modelos open source de IA generativa

    • Se cuestiona por qué ofrecer gratuitamente un modelo entrenado con 3072 H100s