- Un modelo OCR de próxima generación que mejora al mismo tiempo la precisión y la eficiencia en el procesamiento de documentos, ofreciendo un alto rendimiento de reconocimiento en diversos tipos de documentos
- Registra una mejora general del rendimiento del 74% frente a la versión anterior, con resultados sobresalientes en escritura a mano, formularios, tablas complejas y documentos escaneados
- Permite preservar incluso la información estructural del documento gracias a la reconstrucción de tablas basada en HTML y al soporte de salida en Markdown
- 2 dólares por cada 1,000 páginas, con 50% de descuento para procesamiento masivo, lo que asegura una buena relación costo-eficiencia
- Una tecnología OCR de amplio uso, desde pipelines empresariales a gran escala hasta flujos de trabajo documentales interactivos, que emerge como infraestructura clave para el aprovechamiento de datos con IA generativa
Principales capacidades y características
- Mistral OCR 3 realiza extracción de texto e imágenes incrustadas con alta precisión en distintos tipos de documentos
- Soporta salida en formato Markdown y reconstrucción de tablas en HTML, por lo que puede reconocer no solo el contenido del documento, sino también su estructura
- Gracias a su tamaño de modelo reducido, se ofrece con menor costo que las soluciones competidoras: 2 dólares por cada 1,000 páginas, o 1 dólar usando Batch API
- Es posible integrar el modelo mistral-ocr-2512 vía API o convertir PDF e imágenes a texto o JSON estructurado mediante la interfaz Document AI Playground
Mejoras de rendimiento y benchmark
- En benchmarks internos, registró una tasa de victoria del 74% frente a Mistral OCR 2
- Las pruebas se realizaron con base en casos de negocio reales de clientes, y la precisión se evaluó con la métrica fuzzy-match metric
- Alcanzó una precisión superior tanto a las soluciones empresariales de procesamiento documental como al OCR impulsado por IA
Áreas principales de mejora
- Reconocimiento de escritura a mano: interpreta con precisión cursiva, anotaciones mixtas y escritura manual sobre formularios impresos
- Procesamiento de formularios: mejora en el reconocimiento de cajas, etiquetas, entradas manuscritas y diseños complejos
- Documentos escaneados y complejos: mayor resistencia a artefactos de compresión, distorsión, baja resolución y ruido de fondo
- Estructuras de tablas complejas: reproduce por completo tablas con encabezados, celdas combinadas y jerarquías de múltiples filas y columnas mediante etiquetas HTML (
colspan/rowspan)
- Mejora general del rendimiento frente a Mistral OCR 2 en todos los idiomas y formatos documentales
Casos de uso y aplicaciones
- Adecuado tanto para pipelines empresariales de documentos a gran escala como para flujos de trabajo documentales interactivos
- Soporta tareas como extracción de texto e imágenes seguida de conversión a Markdown, parsing automático de formularios y facturas, construcción de pipelines de comprensión documental y digitalización de escritura manuscrita y documentos históricos
- Los primeros clientes ya lo utilizan para convertir facturas en campos estructurados, digitalizar archivos empresariales, extraer texto de reportes técnicos y científicos, y mejorar la búsqueda empresarial
- Tim Law, de IDC, señaló que “el OCR es una tecnología fundamental para la IA generativa y la IA agéntica, y la capacidad de extracción de texto con alta precisión y bajo costo determina la competitividad en el aprovechamiento de datos”
Enfoque de acceso y compatibilidad
- Disponible de inmediato a través de la API o de la interfaz Document AI Playground
- Totalmente compatible con Mistral OCR 2, por lo que puede actualizarse fácilmente en sistemas existentes
- La documentación detallada está disponible en mistral.ai/docs
1 comentarios
Comentarios en Hacker News
Vi este video en Twitter y me surgió la duda de por qué Mistral no se compara con los modelos SoTA más recientes
Estaría bueno compararlo con modelos como Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR y PaddleOCR
Mistral se está comparando con servicios de visión por computadora generales, no con modelos basados en VLM
Los primeros entienden mejor los documentos, pero los segundos ofrecen bounding boxes precisos
También fallan de forma distinta — un VLM puede leer mal una oración completa, mientras que un modelo de visión suele cometer errores del nivel de una letra dentro de una palabra
En los últimos 3 meses han salido una enorme cantidad de modelos OCR open source
Sobre todo modelos de menos de 1B parámetros que funcionan bien incluso en dispositivos edge
Me habría gustado que lo compararan con modelos como paddleOCR-VL, olmOCR-2, chandra y dots.ocr
Es una lástima que casi no existan leaderboards o arenas relacionados con OCR o CV
Funciona como llmarena, enfrentando modelos entre sí, pero Mistral todavía no ha sido actualizado ahí
Por ahora Gemini está entre los primeros lugares
Otros OCR cobran por tokens, así que es difícil calcular el costo real
Por ejemplo, Gemini 3.0 flash parece tener un precio similar a primera vista, pero por token en realidad sale como 3 veces más caro
Le di permisos de root a Claude para que lo instalara por mí, y parecía estar disfrutándolo mucho más que yo
Tuve una experiencia parecida al instalar open web UI, y al final terminé implementando solo la función que necesitaba con 100 líneas de HTML
Ojalá OCR pudiera hacerse igual de simple
Dicen que Mistral OCR 3 es adecuado para pipelines empresariales a gran escala, pero con una precisión de 79% me cuesta confiar en él
Desde la perspectiva de alguien que trabaja con journals científicos, errores de reconocimiento como 2.9+0.5 en lugar de 29+0.5 son críticos
Al final se necesita verificación humana en todas las etapas
Estoy trabajando en un proyecto para convertir un diccionario Shipibo (lengua indígena de Perú)-español en un diccionario Shipibo-inglés
La calidad de los escaneos PDF no es buena, y el layout de dos columnas junto con headers y footers hace que el OCR falle con frecuencia
Además, tengo que separar los ejemplos en Shipibo de las definiciones en español y traducir solo estas últimas al inglés, así que es complicado
Cada vez que sale alguna novedad de OCR/LLM lo intento, pero siempre termino decepcionado
En la cultura Shipibo, no eran personas comunes sino las maestras quienes tomaban Ayahuasca para diagnosticar enfermedades
Hacían una dieta específica para cada planta, restringiendo cosas como el uso de jabón, las relaciones sexuales y el consumo de sal
Tradicionalmente podía durar más de un año, aunque hoy en día suele acortarse a unas semanas
Me impresionó lo profundamente que estudian la medicina de las plantas
Estoy tratando de convertir libros de matemáticas a markdown con fórmulas LaTeX, pero todavía no encuentro un modelo OCR satisfactorio
Planeo probarlo directamente en el OCR playground de Mistral
Incluso convirtió las fórmulas perfectamente a LaTeX
Estoy buscando traducción dentro de la imagen (in-place translation)
Mistral OCR3 está más enfocado en extracción de datos, así que no me sirve para ese caso de uso
Quiero traducir texto de artbooks extranjeros y mostrarlo directamente sobre la ilustración, pero los servicios pagos existentes fallan por la disposición no estándar del texto
Por ahora estoy traduciendo con Google Lens apuntando la pantalla, lo cual es incómodo
Lens integrado en Chrome también requiere selección manual, así que no es totalmente automático
¿Alguien sabe de novedades sobre avances en este tipo de función?
Últimamente da la impresión de que Mistral solo persigue la periferia de las funciones de IA
Parece ir por detrás de OAI, Google y Anthropic, y da la impresión de que falta inversión a nivel de la UE
Tienen mucho más valor que generar memes
Como todavía no hay un modelo de ingresos bien establecido, a Mistral le conviene enfocarse en la calidad de sus modelos base
Mantener talento dentro de la UE y crear modelos decentes es una meta realista
Vi evaluaciones que dicen que Mistral rinde peor que varios OCR open source (Paddle, MinerU, MonkeyOCR, etc.)
Véase codesota.com/ocr
Estoy probando Mistral como reemplazo de MathPix
Este script de Python es un prototipo para Windows que hace sniffing, envía la imagen del portapapeles a Mistral y pega automáticamente el resultado en Markdown
El mayor problema de Mistral es que no responde a las consultas de clientes
Esconderse detrás de “consulta por precios” hace que dé igual aunque sea mejor que el SoTA
Prefiero elegir un servicio más caro y con peor rendimiento antes que pasar por ese proceso