Lanzamiento de Mistral NeMo

(mistral.ai)

6 puntos por GN⁺ 2024-07-19 | 1 comentarios | Compartir por WhatsApp

Lanzamiento de Mistral NeMo, un modelo de 12 mil millones de parámetros desarrollado en colaboración con NVIDIA
Ofrece una gran ventana de contexto de hasta 128k tokens
Rendimiento de primer nivel en razonamiento, conocimiento del mundo y precisión de programación
Usa una arquitectura estándar, por lo que puede aplicarse fácilmente a sistemas que usan Mistral 7B
Se publican checkpoints base preentrenados y ajustados por instrucciones bajo licencia Apache 2.0 para fomentar la adopción por parte de investigadores y empresas
Entrenado con conciencia de cuantización, lo que permite inferencia FP8 sin pérdida de rendimiento

Modelo multilingüe

Diseñado para aplicaciones multilingües globales
Entrenado para function calling y con una gran ventana de contexto
Especialmente sólido en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi
Busca ofrecer un modelo de IA de vanguardia a usuarios de todos los idiomas

Tekken, un tokenizador más eficiente

Usa Tekken, un nuevo tokenizador basado en Tiktoken
Comprime texto en lenguaje natural y código fuente en más de 100 idiomas con mayor eficiencia que el tokenizador SentencePiece
Aproximadamente 30% más eficiente en código fuente, chino, italiano, francés, alemán, español y ruso
2 veces y 3 veces más eficiente en coreano y árabe, respectivamente
Mejor compresión en aproximadamente 85% de los idiomas en comparación con el tokenizador de Llama 3

Ajuste fino por instrucciones

Mistral NeMo pasa por etapas avanzadas de fine-tuning y alineación
En comparación con Mistral 7B, es mucho mejor para seguir instrucciones con precisión, razonar, manejar conversaciones de varios turnos y generar código

Enlaces

Los pesos de los modelos base y de instrucciones están alojados en HuggingFace
Se puede probar Mistral NeMo con mistral-inference y ajustarlo con mistral-finetune
Está empaquetado como un microservicio de inferencia NVIDIA NIM y disponible en ai.nvidia.com

1 comentarios

GN⁺ 2024-07-19

Comentarios en Hacker News

Mistral NeMo es un modelo de 12B desarrollado en colaboración con NVIDIA, y ofrece una gran ventana de contexto de hasta 128k tokens
- Usa una arquitectura estándar, por lo que es fácil de usar y puede sustituir fácilmente a sistemas que usan Mistral 7B
- Ofrece checkpoints preentrenados bajo la licencia Apache 2.0, lo que impulsa su adopción entre investigadores y empresas
- Gracias a la conciencia de cuantización, permite inferencia en FP8 sin pérdida de rendimiento
Mistral NeMo usa el nuevo tokenizador Tekken, entrenado en más de 100 idiomas, que comprime texto y código fuente de forma más eficiente que SentencePiece
- Se plantea la duda de por qué volvieron a SentencePiece, a pesar de que el byte-pair encoding ha demostrado ser un método de codificación más eficiente
También hay una publicación sobre Mistral NeMo en el blog de NVIDIA
- Está empaquetado como un microservicio de inferencia NVIDIA NIM, que ofrece inferencia optimizada en rendimiento mediante el motor NVIDIA TensorRT-LLM
- Está diseñado para ajustarse a la memoria de las GPU NVIDIA L40S, NVIDIA GeForce RTX 4090 y NVIDIA RTX 4500
- Fue entrenado con Megatron-LM usando 3,072 GPU H100 80GB Tensor Core
Los modelos a gran escala están saliendo rápidamente, lo que significa que las empresas han encontrado cómo escalar procesos escalables
- Se plantea la duda de si publicar modelos en HuggingFace constituye realmente un negocio
- La descarga de los archivos del modelo pesa alrededor de 25GB, y es un modelo cuantizado en 8fp
Hay opiniones de que la experiencia de registrarse en NVIDIA Enterprise para probar la versión empaquetada como "NIM" es incómoda
- Algunos opinan que sería mejor poder descargar libremente los archivos del modelo
- Hay quejas de que NVIDIA exija un proceso complicado a pesar de tener un monopolio de hardware
Hay quienes opinan que, si Mistral realmente se toma en serio el avance del open source, debería compartir el corpus usado para entrenar el modelo
- También se cuestiona por qué no tienen lista una versión GGUF el día del lanzamiento
Se pregunta si entrenar en varios idiomas ofrece "crossover"
- Hay curiosidad sobre si lo aprendido en alemán puede aprovecharse al responder a prompts en inglés
No queda claro el modelo de negocio de lanzar gratis modelos open source de IA generativa
- Se cuestiona por qué ofrecer gratuitamente un modelo entrenado con 3072 H100s

Lanzamiento de Mistral NeMo

Modelo multilingüe

Tekken, un tokenizador más eficiente

Ajuste fino por instrucciones

Enlaces

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News