Mistral AI revela acceso anticipado a sus primeros endpoints de IA

(mistral.ai)

2 puntos por GN⁺ 2023-12-12 | 1 comentarios | Compartir por WhatsApp

Mistral AI abrió la beta de la plateforme, con la que los desarrolladores pueden desplegar y personalizar modelos generativos abiertos en producción
La configuración inicial incluye 3 endpoints de chat para procesar instrucciones de texto y 1 endpoint de embeddings, cada uno con un equilibrio distinto entre rendimiento y precio
mistral-tiny y mistral-small se basan en modelos abiertos públicos, mientras que mistral-medium ofrece un modelo prototipo que está siendo probado en entornos de despliegue
La API sigue una especificación de interfaz de chat ampliamente usada, y admite clientes de Python y JavaScript, además de ajustar la salida mediante system prompt
Cualquiera puede registrarse para usar la API, pero la capacidad se ampliará gradualmente y podrían quedar asperezas antes de llegar al autoservicio completo

Beta de la plateforme y configuración de endpoints

Mistral AI ofrece modelos generativos abiertos a los desarrolladores, junto con formas de desplegarlos y personalizarlos para producción
Su primer servicio de plataforma se publicó en beta, con una configuración inicial sencilla
- 3 endpoints de chat para generación basada en instrucciones de texto
- 1 endpoint de embeddings pensado para casos de uso de búsqueda
- Cada endpoint tiene un equilibrio distinto entre rendimiento y precio
Endpoints de generación
- mistral-tiny
  - Es el endpoint más rentable y actualmente ofrece Mistral 7B Instruct v0.2
  - Solo admite inglés y tiene una puntuación MT-Bench de 7.6
  - El modelo ajustado por instrucciones puede descargarse desde Hugging Face
- mistral-small
  - Ofrece el modelo más reciente, Mixtral 8x7B
  - Maneja inglés, francés, italiano, alemán, español y código
  - Su puntuación MT-Bench es 8.3
  - Los detalles del modelo pueden consultarse en la entrada del blog sobre Mixtral
- mistral-medium
  - Es el endpoint de mayor calidad y actualmente ofrece un modelo prototipo que se está probando en entornos de despliegue
  - Según benchmarks estándar, es uno de los modelos de más alto nivel disponibles hoy
  - Maneja inglés, francés, italiano, alemán, español y código
  - Su puntuación MT-Bench es 8.6
Alineación de modelos y embeddings
- Para hacer que los modelos que siguen instrucciones sean más fáciles de controlar y usar, combinan fine-tuning eficiente con optimización directa de preferencias
- Los modelos se preentrenan con datos extraídos de la web abierta y luego pasan por fine-tuning de instrucciones basado en anotaciones
- mistral-embed es un endpoint de embeddings que ofrece un modelo de embeddings de 1024 dimensiones
- El modelo de embeddings fue diseñado pensando en funciones de búsqueda y registra una puntuación de búsqueda MTEB de 55.26

Acceso a la API y operación de la beta

La API sigue una especificación de interfaz de chat ampliamente usada
Los endpoints pueden invocarse con bibliotecas cliente de Python y JavaScript
Si controlar la salida es importante en una aplicación, la respuesta del modelo puede ajustarse con más fuerza mediante system prompt
Cualquiera puede registrarse para usar la API, y Mistral AI está ampliando la capacidad de forma gradual
El equipo de negocio puede ayudar a validar las necesidades de los usuarios y adelantar el acceso
Podrían quedar asperezas antes de que la plataforma se estabilice como un servicio de autoservicio completo
NVIDIA está apoyando la integración con TensorRT-LLM y Triton, así como el trabajo de compatibilidad de sparse mixture of experts con TRT-LLM

1 comentarios

GN⁺ 2023-12-12

Opiniones de Hacker News

Me sorprende que esta noticia no esté fijada en la parte superior de HN todo el día.
Una empresa pequeña, que parece tener unas 30 personas, recibió una valuación de 2 mil millones de dólares y lanzó el modelo 7B con mejor desempeño, además de un modelo MoE 7B×8 que ofrece rendimiento de nivel 70B con costos de inferencia de nivel 14B.
Parece que podría ser una amenaza potencial más grande para OpenAI que Google o Anthropic. Gracias a la gran inversión reciente, probablemente pueda escalar a un volumen de tráfico razonable en el corto plazo y atraer a investigadores de primer nivel cansados de la ostentación y el drama que se han visto en primera plana en la industria.
- Porque ya hubo bastantes hilos grandes.
  Mixtral of experts - https://news.ycombinator.com/item?id=38598559 - diciembre de 2023, 272 comentarios
  Mistral-8x7B-Chat - https://news.ycombinator.com/item?id=38594578 - diciembre de 2023, 69 comentarios
  Mistral AI Valued at $2B - https://news.ycombinator.com/item?id=38593616 - diciembre de 2023, 221 comentarios
  Mistral's mixtral-8x7B-32kseqlen on Vercel - https://news.ycombinator.com/item?id=38584179 - diciembre de 2023, 30 comentarios
  French AI startup Mistral secures €2B valuation - https://news.ycombinator.com/item?id=38580758 - diciembre de 2023, 76 comentarios
  Mistral "Mixtral" 8x7B 32k model [magnet] - https://news.ycombinator.com/item?id=38570537 - diciembre de 2023, 236 comentarios
  No son exactamente la misma noticia, pero la discusión suele ir en una dirección bastante parecida, así que todos o la mayoría pueden verse como publicaciones casi duplicadas.
- Es, por mucho, la empresa más impresionante que ha salido de la ola actual de IA.
  En unos 6 meses puso el punto de referencia para los modelos 7B y está subiendo rápidamente a escalas más grandes.
  Me burlé de su ronda de inversión de marzo como una señal de hype, porque recibieron 300 millones de dólares con solo un equipo de 3 personas y una idea, pero claramente no conocía los detalles. Su ejecución es realmente sobresaliente.
  Parece que se va a comer todos los casos de uso que no necesitan el rendimiento de GPT-4, y pronto quizá también apunte al terreno de los modelos grandes.
- Incluso viendo la entrada del blog y la página principal, cuesta un poco entender qué es exactamente esto.
  Por eso creo que solo quienes estén bastante familiarizados con la IA van a notar su relevancia. Aun así, la explicación de arriba definitivamente ayuda.
- Mistral está en Francia, y la UE ahora está echando un balde de agua fría en el tema de la regulación de la IA. A largo plazo, creo que eso será negativo.
- La formación en ingeniería y ciencias de la computación en Francia realmente enfatiza las matemáticas y la teoría. Eso es una ventaja en IA.
Si los benchmarks se traducen en rendimiento real, es muy impresionante [1].
mistral-medium supera por amplio margen a GPT-3.5 y a Gemini Pro, el mejor modelo público actual de Google, en los benchmarks comparables disponibles: https://screenbud.com/shot/c0d904e3-24a3-4c23-a1e4-2f18bc021...
[1] Si Mistral 7B sirve como referencia, espero que la brecha de rendimiento real sea aún mayor. Que los filtros de seguridad sean opcionales también es una gran ventaja incluso para aplicaciones seguras.
- Si la próxima gran IA de Google ya está siendo superada por una empresa pequeña con muchos menos recursos, para Google debe ser bastante amargo.
- Su puntaje en Winogrande es más alto que el de GPT-4. Me sorprende, porque las otras métricas parecen más cercanas a GPT-3.
- No creo que Gemini Pro sea realmente “usable”.
  No confío en benchmarks promocionales hasta que el modelo sea público. Varía demasiado según cuánto tengan que reducirle el rendimiento por temas de seguridad antes de publicarlo.
- Si publican el nuevo modelo como open source, sería realmente interesante.
- Vi un video, y Mixtral en sí se desempeñó sorprendentemente bien en diversas tareas. Había áreas en las que GPT-4 no siempre lo hacía igual de bien.
https://docs.mistral.ai/platform/pricing
También se publicaron los precios.
Por cada millón de tokens de salida: Mistral-medium cuesta 8 dólares, Mistral-small 1.94 dólares, gpt-3.5-turbo-1106 2 dólares, gpt-4-1106-preview 30 dólares, gpt-4 60 dólares y gpt-4-32k 120 dólares.
Este precio parece una señal de que Mistral tiene bastante confianza en que mistral-medium es considerablemente mejor que gpt-3.5.
- Me pregunto si existen estimaciones de los requisitos energéticos de estos modelos.
  Haciendo un cálculo aproximado, la inferencia de un modelo 30B en una GTX 4090 probablemente daría unos 30 tokens por segundo [1], es decir, alrededor de 100 mil tokens por hora.
  Si suponemos que un sistema así consume cerca de 1 kW, serían unos 10 kWh por cada millón de tokens.
  Con las tarifas eléctricas actuales, creo que sería difícil bajar de 2 a 4 dólares por millón de tokens en un modelo 30B.
  [1] https://old.reddit.com/r/LocalLLaMA/comments/13j5cxf/how_man...
- Si se consideran también los tokens de entrada, el costo total queda aproximadamente más cerca de 5.25 euros frente a 1.5 euros por millón de tokens.
  Mistral-small parece ser el modelo que compite más directamente con gpt-3.5, y es más barato: alrededor de 1.2 euros por millón de tokens.
  Como referencia, asumí que los tokens de entrada y salida tienen el mismo peso, y no pude ver precios en dólares.
- Todavía no es seguro asumir eso. Sigue siendo un lanzamiento limitado y, en la práctica, se lee como solo por invitación. Recién cuando haya cierto grado de disponibilidad pública se podrá probar y verificar.
- Me pregunto si Mistral y GPT usan el mismo tokenizer.
- Medium parece apuntar a competir más con Claude de Anthropic que con los productos de OpenAI.
  https://www-files.anthropic.com/production/images/model_pric...
Que “los endpoints están disponibles en acceso anticipado” en realidad significa “hay una lista de espera de longitud desconocida para el acceso anticipado a los endpoints”.
Al intentar acceder aparece: “Access to our API is currently invitation-only, but we'll let you know when you can subscribe to get access to our best models.”
- Viendo que la verificación por email estuvo rota de varias formas durante la última hora, parece que no estaban tan preparados para la promoción como pensaban.
“Mistral-embed, our embedding endpoint, serves an embedding model with a 1024 embedding dimension. Our embedding model has been designed with retrieval capabilities in mind. It achieves a retrieval score of 55.26 on MTEB.”
Me pregunto si hay información sobre si este modelo de embeddings es open source, o si planean hacerlo open source en el futuro.
“Mistral-Medium outperforms GPT-4 in Winogrande benchmark 88% vs 87.5%”
Fuente: https://twitter.com/yupiop12/status/1734137238177698106
Es interesante que varias plataformas como Lemonfox.ai ofrezcan modelos fine-tuned de Mistral a precios más bajos.
Ya anunciaron también una API de Mistral 8x7B. Si quieren monetizar, me pregunto si seguirán publicando como open source modelos como futuras versiones medium.
- Si no hay pesos publicados, no veo por qué la gente debería interesarse. Para cuando pueda competir con GPT-4, es muy posible que GPT-5 ya esté disponible.
Vi por casualidad que el servidor TextSynth de Fabrice Bellard ahora soporta el modelo Mistral 7B.
“2023-10-21: CUDA support in the Windows version, mistral model support. Speculative sampling is supported. BNF grammar and JSON schema sampling.”
“mistral_7B_instruct_q4 - 3.9GB - Mistral 7B chat model”
https://bellard.org/ts_server/
“Mistral-medium. Our highest-quality endpoint currently serves a prototype model, that is currently among the top serviced models available based on standard benchmarks.”
Interesante. Este modelo supera a ChatGPT 3.5. No sé qué tipo de modelo es, y no es open source.
- Ah, entonces parece que el que se usa en ollama se llama versión tiny.
  “Mistral-tiny. Our most cost-effective endpoint currently serves Mistral 7B Instruct v0.2, a new minor release of Mistral 7B Instruct. Mistral-tiny only works in English. It obtains 7.6 on MT-Bench. The instructed model can be downloaded here.”

Mistral AI revela acceso anticipado a sus primeros endpoints de IA

Beta de la plateforme y configuración de endpoints

Endpoints de generación

Alineación de modelos y embeddings

Acceso a la API y operación de la beta

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News