- Mistral presentó Pixtral 12B, su primer modelo capaz de procesar tanto imágenes como texto
- Un modelo de aproximadamente 24 GB con 12 mil millones de parámetros
- Está construido sobre Nemo 12B, el modelo de texto de Mistral
- Puede responder preguntas sobre un número y tamaño arbitrarios de imágenes mediante URL o imágenes codificadas en base64
- Se espera que pueda realizar tareas como generación de descripciones de imágenes y conteo de objetos en fotos, de forma similar a otros modelos multimodales como la familia Claude de Anthropic o GPT-4 de OpenAI
- Está disponible para descarga en GitHub y Hugging Face mediante enlaces torrent
- Puede descargarse, ajustarse finamente y usarse sin restricciones bajo la licencia Apache 2.0
- Por ahora la demo web no funciona, pero pronto podrá probarse en Le Chat y Le Plateforme, la plataforma de chatbot y servicios de API de Mistral
- Recientemente, Mistral cerró una ronda de financiamiento de 645 millones de dólares liderada por General Catalyst, con una valoración de 6 mil millones de dólares
- Mistral, con poco más de un año de existencia, tiene a Microsoft como accionista minoritario y es considerada la OpenAI de Europa
- Su estrategia consiste en publicar modelos “abiertos” gratuitos, cobrar por versiones administradas y ofrecer servicios de consultoría a clientes empresariales
Aún no hay comentarios.