6 puntos por GN⁺ 2024-07-25 | 1 comentarios | Compartir por WhatsApp
  • Mistral Large 2 admite una ventana de contexto de 128k y varios idiomas, incluidos francés, alemán, español, italiano, chino, japonés y coreano
    • También admite más de 80 lenguajes de programación, incluidos Python, Java, C, C++, JavaScript y Bash
  • Fue diseñado para inferencia en un solo nodo y, con 123 mil millones de parámetros, puede ofrecer alto rendimiento en un solo nodo
  • Se distribuye bajo la Mistral Research License, que permite su uso y modificación para investigación y fines no comerciales. Para uso comercial, es necesario obtener la Mistral Commercial License

Rendimiento general

  • Mistral Large 2 establece un nuevo estándar en la métrica de evaluación de rendimiento/costo
  • En particular, la versión preentrenada alcanza una precisión de 84.0% en MMLU y marca un nuevo punto en el frente de Pareto de rendimiento/costo

Código y razonamiento

  • Basado en la experiencia de Codestral 22B y Codestral Mamba, Mistral Large 2 fue entrenado con una gran cantidad de código
  • Mistral Large 2 supera ampliamente al Mistral Large anterior y muestra un rendimiento comparable al de modelos líderes como GPT-4o, Claude 3 Opus y Llama 3 405B
  • Se dedicó un gran esfuerzo a mejorar la capacidad de razonamiento del modelo, y se ajustó finamente para minimizar la tendencia a generar información incorrecta
  • Fue entrenado para reconocer cuando no puede encontrar una solución o cuando no cuenta con suficiente información

Seguimiento de instrucciones y alineación

  • Mistral Large 2 mejora de forma notable en seguimiento de instrucciones y habilidades conversacionales
  • Dado que la concisión es importante en muchas aplicaciones empresariales, se puso mucho esfuerzo en que genere respuestas lo más breves y esenciales posible

Diversidad lingüística

  • Mistral Large 2 fue entrenado con una gran cantidad de datos multilingües y muestra un excelente rendimiento en inglés, francés, alemán, español, italiano, portugués, neerlandés, ruso, chino, japonés, coreano, árabe e hindi

Uso de herramientas y llamada de funciones

  • Mistral Large 2 cuenta con capacidades mejoradas de llamada de funciones y recuperación, y fue entrenado para poder actuar como motor de aplicaciones empresariales complejas

Acceso a los modelos de Mistral a través de proveedores de servicios en la nube

  • Amplía su asociación con Google Cloud Platform para ofrecer los modelos de Mistral AI en Vertex AI
  • Los modelos de Mistral AI también pueden usarse en Azure AI Studio, Amazon Bedrock e IBM watsonx.ai

Resumen de GN⁺

  • Mistral Large 2 admite varios idiomas y lenguajes de programación, y ofrece alto rendimiento en un solo nodo.
  • Sus capacidades de generación de código y razonamiento mejoraron significativamente, y minimiza la tendencia a generar información incorrecta.
  • Fue entrenado con una gran cantidad de datos multilingües y muestra un excelente rendimiento en múltiples idiomas.
  • Está disponible para usuarios globales mediante asociaciones con Google Cloud Platform, Azure AI Studio, Amazon Bedrock e IBM watsonx.ai.
  • Fue diseñado para generar respuestas concisas y centradas en lo esencial en aplicaciones empresariales.

1 comentarios

 
GN⁺ 2024-07-25
Opiniones en Hacker News
  • Tras probar los modelos Mistral Large 2 y Llama 3.1 405b, es difícil determinar una superioridad clara entre ambos
  • Si ya usas Claude, conviene seguir usándolo
  • Lo que se espera de Claude:
    • Que sea más inteligente
    • Una ventana de contexto más larga (1M+)
    • Entrada de audio nativa y comprensión del tono
    • Que reduzca los juicios morales al negarse
    • Que sea más rápido
    • Más tokens de salida
  • La competencia entre modelos se está intensificando
  • Claude 3.5 Sonnet supera ampliamente a todos los demás modelos
  • No queda claro cómo usar Mistral o Llama de forma cotidiana
  • Se está desarrollando un asistente de programación con IA y, tras probar varios modelos, Mistral Large 2 fue el más decepcionante
  • La licencia no comercial es decepcionante
  • Puede competir con Llama 3.1 405b, pero la licencia es más restrictiva
  • Las diferencias entre modelos se están reduciendo, así que podría ser mejor ajustar finamente Llama 405B para casos de uso específicos
  • A menos que haya un gran salto en calidad, no habrá grandes diferencias en el estado actual
  • Da gusto ver una competencia tan intensa
  • Se están gastando muchos recursos para crear modelos SOTA, pero siguen estancados en el nivel de GPT-4o y Claude Opus
  • Solo meter más datos y más GPU está llegando a su límite
  • La experiencia de usuario y la "personalidad" pasarán a ser más importantes
  • Claude Sonnet resulta agradable de usar y se siente más agudo que otros modelos
  • No hay que olvidar que cada avance requiere más energía y recursos
  • Se comparten los resultados recientes de benchmarks de modelos de PyLLMs
    • Sorprenden la velocidad y la calidad de Nemo
    • Mistral Large es bueno, pero muy lento
  • Hay confusión sobre si Opus o Sonnet 3.5 es más capaz entre los modelos Claude
  • Mistral Large 2 cuenta con funciones mejoradas de function calling y búsqueda
  • Surge la duda de si una precisión de function calling de alrededor del 50% significa que la mitad de las tareas complejas fallan
  • Se prefiere ChatGPT-4o y, cuando hay problemas, se usa Claude, pero no se obtienen mejores resultados