- Lanzamiento de Mistral NeMo, un modelo de 12 mil millones de parámetros desarrollado en colaboración con NVIDIA
- Ofrece una gran ventana de contexto de hasta 128k tokens
- Rendimiento de primer nivel en razonamiento, conocimiento del mundo y precisión de programación
- Usa una arquitectura estándar, por lo que puede aplicarse fácilmente a sistemas que usan Mistral 7B
- Se publican checkpoints base preentrenados y ajustados por instrucciones bajo licencia Apache 2.0 para fomentar la adopción por parte de investigadores y empresas
- Entrenado con conciencia de cuantización, lo que permite inferencia FP8 sin pérdida de rendimiento
Modelo multilingüe
- Diseñado para aplicaciones multilingües globales
- Entrenado para function calling y con una gran ventana de contexto
- Especialmente sólido en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi
- Busca ofrecer un modelo de IA de vanguardia a usuarios de todos los idiomas
Tekken, un tokenizador más eficiente
- Usa Tekken, un nuevo tokenizador basado en Tiktoken
- Comprime texto en lenguaje natural y código fuente en más de 100 idiomas con mayor eficiencia que el tokenizador SentencePiece
- Aproximadamente 30% más eficiente en código fuente, chino, italiano, francés, alemán, español y ruso
- 2 veces y 3 veces más eficiente en coreano y árabe, respectivamente
- Mejor compresión en aproximadamente 85% de los idiomas en comparación con el tokenizador de Llama 3
Ajuste fino por instrucciones
- Mistral NeMo pasa por etapas avanzadas de fine-tuning y alineación
- En comparación con Mistral 7B, es mucho mejor para seguir instrucciones con precisión, razonar, manejar conversaciones de varios turnos y generar código
Enlaces
- Los pesos de los modelos base y de instrucciones están alojados en HuggingFace
- Se puede probar Mistral NeMo con mistral-inference y ajustarlo con mistral-finetune
- Está empaquetado como un microservicio de inferencia NVIDIA NIM y disponible en ai.nvidia.com
1 comentarios
Comentarios en Hacker News
Mistral NeMo es un modelo de 12B desarrollado en colaboración con NVIDIA, y ofrece una gran ventana de contexto de hasta 128k tokens
Mistral NeMo usa el nuevo tokenizador Tekken, entrenado en más de 100 idiomas, que comprime texto y código fuente de forma más eficiente que SentencePiece
También hay una publicación sobre Mistral NeMo en el blog de NVIDIA
Los modelos a gran escala están saliendo rápidamente, lo que significa que las empresas han encontrado cómo escalar procesos escalables
Hay opiniones de que la experiencia de registrarse en NVIDIA Enterprise para probar la versión empaquetada como "NIM" es incómoda
Hay quienes opinan que, si Mistral realmente se toma en serio el avance del open source, debería compartir el corpus usado para entrenar el modelo
Se pregunta si entrenar en varios idiomas ofrece "crossover"
No queda claro el modelo de negocio de lanzar gratis modelos open source de IA generativa