Presentación de Mistral OCR 3

(mistral.ai)

2 puntos por GN⁺ 2025-12-20 | 1 comentarios | Compartir por WhatsApp

Un modelo OCR de próxima generación que mejora al mismo tiempo la precisión y la eficiencia en el procesamiento de documentos, ofreciendo un alto rendimiento de reconocimiento en diversos tipos de documentos
Registra una mejora general del rendimiento del 74% frente a la versión anterior, con resultados sobresalientes en escritura a mano, formularios, tablas complejas y documentos escaneados
Permite preservar incluso la información estructural del documento gracias a la reconstrucción de tablas basada en HTML y al soporte de salida en Markdown
2 dólares por cada 1,000 páginas, con 50% de descuento para procesamiento masivo, lo que asegura una buena relación costo-eficiencia
Una tecnología OCR de amplio uso, desde pipelines empresariales a gran escala hasta flujos de trabajo documentales interactivos, que emerge como infraestructura clave para el aprovechamiento de datos con IA generativa

Principales capacidades y características

Mistral OCR 3 realiza extracción de texto e imágenes incrustadas con alta precisión en distintos tipos de documentos
- Soporta salida en formato Markdown y reconstrucción de tablas en HTML, por lo que puede reconocer no solo el contenido del documento, sino también su estructura
- Gracias a su tamaño de modelo reducido, se ofrece con menor costo que las soluciones competidoras: 2 dólares por cada 1,000 páginas, o 1 dólar usando Batch API
Es posible integrar el modelo mistral-ocr-2512 vía API o convertir PDF e imágenes a texto o JSON estructurado mediante la interfaz Document AI Playground

Mejoras de rendimiento y benchmark

En benchmarks internos, registró una tasa de victoria del 74% frente a Mistral OCR 2
- Las pruebas se realizaron con base en casos de negocio reales de clientes, y la precisión se evaluó con la métrica fuzzy-match metric
Alcanzó una precisión superior tanto a las soluciones empresariales de procesamiento documental como al OCR impulsado por IA

Áreas principales de mejora

Reconocimiento de escritura a mano: interpreta con precisión cursiva, anotaciones mixtas y escritura manual sobre formularios impresos
Procesamiento de formularios: mejora en el reconocimiento de cajas, etiquetas, entradas manuscritas y diseños complejos
Documentos escaneados y complejos: mayor resistencia a artefactos de compresión, distorsión, baja resolución y ruido de fondo
Estructuras de tablas complejas: reproduce por completo tablas con encabezados, celdas combinadas y jerarquías de múltiples filas y columnas mediante etiquetas HTML (colspan/rowspan)
Mejora general del rendimiento frente a Mistral OCR 2 en todos los idiomas y formatos documentales

Casos de uso y aplicaciones

Adecuado tanto para pipelines empresariales de documentos a gran escala como para flujos de trabajo documentales interactivos
- Soporta tareas como extracción de texto e imágenes seguida de conversión a Markdown, parsing automático de formularios y facturas, construcción de pipelines de comprensión documental y digitalización de escritura manuscrita y documentos históricos
Los primeros clientes ya lo utilizan para convertir facturas en campos estructurados, digitalizar archivos empresariales, extraer texto de reportes técnicos y científicos, y mejorar la búsqueda empresarial
Tim Law, de IDC, señaló que “el OCR es una tecnología fundamental para la IA generativa y la IA agéntica, y la capacidad de extracción de texto con alta precisión y bajo costo determina la competitividad en el aprovechamiento de datos”

Enfoque de acceso y compatibilidad

Disponible de inmediato a través de la API o de la interfaz Document AI Playground
Totalmente compatible con Mistral OCR 2, por lo que puede actualizarse fácilmente en sistemas existentes
La documentación detallada está disponible en mistral.ai/docs

1 comentarios

GN⁺ 2025-12-20

Comentarios en Hacker News

Vi este video en Twitter y me surgió la duda de por qué Mistral no se compara con los modelos SoTA más recientes
Estaría bueno compararlo con modelos como Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR y PaddleOCR
- Desde la perspectiva de alguien que ha hecho mucho trabajo de extracción de documentos, el tono del tuit me resulta algo molesto, pero lo que dice es correcto
  Mistral se está comparando con servicios de visión por computadora generales, no con modelos basados en VLM
  Los primeros entienden mejor los documentos, pero los segundos ofrecen bounding boxes precisos
  También fallan de forma distinta — un VLM puede leer mal una oración completa, mientras que un modelo de visión suele cometer errores del nivel de una letra dentro de una palabra
- Hice clic en el enlace y sentí que el ambiente de Twitter se ha vuelto mucho más raro que antes
- También me gustaría ver una comparación con Qwen 3 VL 235B-A22B. En mi experiencia, fue mucho mejor que MinerU
En los últimos 3 meses han salido una enorme cantidad de modelos OCR open source
Sobre todo modelos de menos de 1B parámetros que funcionan bien incluso en dispositivos edge
Me habría gustado que lo compararan con modelos como paddleOCR-VL, olmOCR-2, chandra y dots.ocr
Es una lástima que casi no existan leaderboards o arenas relacionados con OCR o CV
- Hace como un mes apareció un proyecto llamado ocrarena.ai
  Funciona como llmarena, enfrentando modelos entre sí, pero Mistral todavía no ha sido actualizado ahí
  Por ahora Gemini está entre los primeros lugares
- La ventaja de MistralOCR es su política de precios simple — $1 por cada 1,000 páginas, con API hospedada en servidor
  Otros OCR cobran por tokens, así que es difícil calcular el costo real
  Por ejemplo, Gemini 3.0 flash parece tener un precio similar a primera vista, pero por token en realidad sale como 3 veces más caro
- Intenté instalar paddleOCR, pero lo dejé al toparme con un conflicto de versiones mientras instalaba 12 GB de dependencias de PyTorch
  Le di permisos de root a Claude para que lo instalara por mí, y parecía estar disfrutándolo mucho más que yo
  Tuve una experiencia parecida al instalar open web UI, y al final terminé implementando solo la función que necesitaba con 100 líneas de HTML
  Ojalá OCR pudiera hacerse igual de simple
- También vale la pena revisar codesota.com/ocr
Dicen que Mistral OCR 3 es adecuado para pipelines empresariales a gran escala, pero con una precisión de 79% me cuesta confiar en él
Desde la perspectiva de alguien que trabaja con journals científicos, errores de reconocimiento como 2.9+0.5 en lugar de 29+0.5 son críticos
Al final se necesita verificación humana en todas las etapas
- En estos casos, datalab.to me ha funcionado bastante bien
- 79% parece ser una cifra de tasa de victoria, no de precisión
Estoy trabajando en un proyecto para convertir un diccionario Shipibo (lengua indígena de Perú)-español en un diccionario Shipibo-inglés
La calidad de los escaneos PDF no es buena, y el layout de dos columnas junto con headers y footers hace que el OCR falle con frecuencia
Además, tengo que separar los ejemplos en Shipibo de las definiciones en español y traducir solo estas últimas al inglés, así que es complicado
Cada vez que sale alguna novedad de OCR/LLM lo intento, pero siempre termino decepcionado
- Me pregunto si te interesa la investigación sobre la tradición de la Ayahuasca
  En la cultura Shipibo, no eran personas comunes sino las maestras quienes tomaban Ayahuasca para diagnosticar enfermedades
  Hacían una dieta específica para cada planta, restringiendo cosas como el uso de jabón, las relaciones sexuales y el consumo de sal
  Tradicionalmente podía durar más de un año, aunque hoy en día suele acortarse a unas semanas
  Me impresionó lo profundamente que estudian la medicina de las plantas
Estoy tratando de convertir libros de matemáticas a markdown con fórmulas LaTeX, pero todavía no encuentro un modelo OCR satisfactorio
Planeo probarlo directamente en el OCR playground de Mistral
- Procesé miles de documentos con el modelo Gemini Pro 3 vision y fue, por mucho, más preciso que cualquier OCR que haya usado hasta ahora
  Incluso convirtió las fórmulas perfectamente a LaTeX
- Ojalá luego compartas cómo te fue con los resultados
Estoy buscando traducción dentro de la imagen (in-place translation)
Mistral OCR3 está más enfocado en extracción de datos, así que no me sirve para ese caso de uso
Quiero traducir texto de artbooks extranjeros y mostrarlo directamente sobre la ilustración, pero los servicios pagos existentes fallan por la disposición no estándar del texto
Por ahora estoy traduciendo con Google Lens apuntando la pantalla, lo cual es incómodo
Lens integrado en Chrome también requiere selección manual, así que no es totalmente automático
¿Alguien sabe de novedades sobre avances en este tipo de función?
- Si no te molesta pagar, DEEPL o la función de traducción de documentos de Word son bastante utilizables
Últimamente da la impresión de que Mistral solo persigue la periferia de las funciones de IA
Parece ir por detrás de OAI, Google y Anthropic, y da la impresión de que falta inversión a nivel de la UE
- Justamente funciones prácticas como el procesamiento de formularios son lo que la gente realmente necesita
  Tienen mucho más valor que generar memes
- Seguir tal cual a las empresas líderes es riesgoso
  Como todavía no hay un modelo de ingresos bien establecido, a Mistral le conviene enfocarse en la calidad de sus modelos base
  Mantener talento dentro de la UE y crear modelos decentes es una meta realista
- La UE sí está ‘invirtiendo’ mucho en Mistral — la mitad en cobrar impuestos, y la otra mitad en discutir regulaciones
- Las regulaciones de la UE lo están frenando, así que probablemente termine siendo adquirida por una empresa estadounidense
- Aun así, me parece mejor que simplemente copiar lo que hacen los demás
Vi evaluaciones que dicen que Mistral rinde peor que varios OCR open source (Paddle, MinerU, MonkeyOCR, etc.)
Véase codesota.com/ocr
Estoy probando Mistral como reemplazo de MathPix
Este script de Python es un prototipo para Windows que hace sniffing, envía la imagen del portapapeles a Mistral y pega automáticamente el resultado en Markdown
El mayor problema de Mistral es que no responde a las consultas de clientes
Esconderse detrás de “consulta por precios” hace que dé igual aunque sea mejor que el SoTA
- Yo también detesto profundamente tener que tratar cara a cara con un vendedor
  Prefiero elegir un servicio más caro y con peor rendimiento antes que pasar por ese proceso

Presentación de Mistral OCR 3

Principales capacidades y características

Mejoras de rendimiento y benchmark

Áreas principales de mejora

Casos de uso y aplicaciones

Enfoque de acceso y compatibilidad

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News