11 puntos por GN⁺ 2023-09-28 | 1 comentarios | Compartir por WhatsApp
  • El modelo de lenguaje más potente hasta ahora
  • Un modelo de 7.3B parámetros que supera a Llama 2 13B en todos los benchmarks y a Llama 1 34B en muchos benchmarks
  • Usa Grouped-query attention (GQA) para una inferencia más rápida y Sliding Window Attention (SWA) para procesar secuencias más largas con menor costo
  • Con licencia Apache 2.0, puede usarse sin restricciones
  • Puede desplegarse en cualquier nube (AWS/GCP/Azure) usando el servidor de inferencia vLLM y skypilot, y también puede usarse en HuggingFace
  • Se puede ajustar finamente con facilidad, y el modelo ajustado para chat supera a Llama 2 13B Chat

1 comentarios

 
GN⁺ 2023-09-28
Opiniones de Hacker News
  • Mistral es la primera empresa, a diferencia de Meta y DeciLM, en otorgar una licencia Apache a un modelo de esta clase.
  • Este modelo funciona bien en una MacBook Air M1 y es comparable con GPT3.5.
  • Hay preguntas sobre la posibilidad de usar una "API de llamadas a funciones" para manejar datos estructurados como JSON.
  • Se plantearon preocupaciones sobre el conjunto de datos usado para entrenar el modelo y la posibilidad de que filtraciones de benchmarks hayan inflado los resultados.
  • El anuncio del modelo se hizo a través del URI de un rastreador torrent en Twitter.
  • En pruebas de herramientas de asistencia de programación para LLMs, Mistral no rindió tan bien como CodeLlama y GPT4.
  • El modelo funciona en FreeChat de macOS porque es compatible con llama.cpp.
  • Hay preguntas sobre por qué el proyecto parece estandarizarse en tamaños de parámetros específicos dentro de categorías amplias como los modelos 7B.
  • Se solicitan detalles sobre el entrenamiento del modelo, los datos en los que se basó y dónde fue entrenado.
  • También se pide que se hagan pruebas sobre contaminación de benchmarks en el conjunto de entrenamiento.