Lanzamiento de Mistral OCR 4
(mistral.ai)- Mistral OCR 4, presentado por Mistral AI, es un modelo de comprensión de documentos que va más allá del OCR que solo extrae texto, ya que también devuelve bounding boxes, clasificación de bloques e incluso puntajes de confianza en línea
- Es compatible con 170 idiomas en 10 grupos lingüísticos y con self-hosting en un solo contenedor, por lo que encaja en pipelines de ingesta documental de organizaciones donde la soberanía de datos y el compliance son importantes
- En evaluaciones de preferencia humana registró una tasa de victoria del 72% en promedio, y también obtuvo puntajes altos en evaluaciones públicas e internas como OlmOCRBench 85.20 y OmniDocBench 93.07
- Aun así, por limitaciones de evaluación como errores en las respuestas de referencia, notación matemática equivalente, orden de lectura en múltiples columnas y manejo de headers y footers, los puntajes de benchmark deben leerse junto con evaluaciones sobre documentos reales
- La API cuesta $4 por cada 1,000 páginas, la Batch API $2 y Document AI $5; para extracción cruda basta con OCR 4, pero si se necesita JSON estructurado, anotación de imágenes o prompts personalizados, la ruta adecuada es Document AI
Representación estructurada de documentos que devuelve OCR 4
- OCR 4 extrae y estructura contenido de distintos documentos, y ya no se limita solo a texto limpio y conversión de tablas como en la generación anterior, sino que también ofrece una representación estructurada
- Cada bloque incluye bounding box, tipo de bloque y puntajes de confianza en línea a nivel de página y palabra
- Los sistemas downstream pueden aprovechar no solo el contenido del documento, sino también la posición, el rol y el nivel de confianza de cada elemento
- Los principales flujos de uso son los siguientes
- Chunking por unidad semántica para RAG: usar bloques organizados y clasificados como unidades de búsqueda
- Primitivas de estructura para agentes: soporte para llenado de formularios, procesamiento de facturas y revisión de compliance
- Contenido estructurado para conectores: salida tipada consistente para pipelines de ingesta e indexación
Formatos, idiomas y despliegue
- Los formatos de entrada incluyen formatos documentales empresariales comunes como PDF, DOC, PPT y OpenDocument
- Soporta 170 idiomas en 10 grupos lingüísticos, incluyendo idiomas especializados y de bajos recursos donde muchos sistemas suelen debilitarse
- El modelo es lo suficientemente pequeño como para desplegarse en un solo contenedor, lo que lo hace adecuado para entornos sensibles a costos y de alto throughput
- Soporta ejecución completa con self-hosting, por lo que organizaciones con requisitos de soberanía de datos pueden mantener los documentos dentro de su propia infraestructura
- El despliegue autogestionado está disponible para clientes empresariales
Precio y vías de uso
- Los desarrolladores pueden integrar el modelo vía API, y los equipos pueden usar el mismo motor como una aplicación no-code a través de Document AI en Mistral Studio
- Los precios son los siguientes
- API de OCR 4: $4 por cada 1,000 páginas
- Con 50% de descuento de Batch API: $2 por cada 1,000 páginas
- Document AI: $5 por cada 1,000 páginas
- OCR 4 está integrado como componente de ingesta de Mistral Search Toolkit para ofrecer entradas citables en flujos de trabajo de ingesta, búsqueda y evaluación para RAG y búsqueda empresarial
Resultados de evaluación y límites de los benchmarks
- La evaluación de OCR 4 se realizó comparándolo con modelos OCR nativos de IA, modelos frontier de propósito general, servicios documentales empresariales y Mistral OCR 3
- La evaluación de preferencia humana, diseñada para reflejar el uso real, reunió más de 600 documentos en más de 12 idiomas, y anotadores independientes compararon a ciegas, documento por documento, la salida de cada sistema competidor con la de OCR 4
- Los anotadores prefirieron OCR 4 en la mayoría de los documentos frente a todos los sistemas evaluados
- La tasa promedio de victoria fue de 72%
- En el benchmark público OlmOCRBench registró el mejor puntaje global entre los modelos probados, con 85.20
- En la evaluación interna Crawl Multilingual evaluation logró .98, superando a soluciones nativas de IA y empresariales
- El puntaje de OmniDocBench fue 93.07, pero tanto OlmOCRBench como OmniDocBench tienen limitaciones conocidas en algunos métodos de evaluación de salidas
- Muchas de las discrepancias auditadas surgen no de errores del modelo, sino del propio método de comparación de los benchmarks
- Errores en las respuestas de referencia: las anotaciones de referencia pueden incluir texto omitido o extra, transcripciones de zonas ocultas o errores tipográficos
- Notación matemática equivalente: aunque el resultado renderizado de LaTeX sea el mismo, si la cadena difiere se cuenta como discrepancia
- División de fórmulas: según si se exporta como una sola fórmula o como varios fragmentos inline, el matching con la respuesta correcta puede variar
- Orden de lectura en múltiples columnas: por palabras separadas en límites de columna y supuestos sobre el orden de columnas, incluso una extracción correcta puede calificarse como fallo
- Asignación de tipo de bloque: aun después de quitar headers y footers de la salida, la prueba puede marcar erróneamente cadenas como títulos de página
- Estos artefactos se concentran en documentos matemáticos, científicos y de múltiples columnas, y más que premiar salidas incorrectas, suelen penalizar con mayor frecuencia salidas correctas
- Como todos los puntajes de competidores provienen de reproducciones internas, lo más seguro antes de adoptar la tecnología es evaluarla directamente con documentos propios
Rendimiento multilingüe
- En la evaluación multilingüe interna, OCR 4 lideró en los 8 grupos lingüísticos
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Idiomas especializados como Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada y Telugu
- La diferencia fue mayor en idiomas especializados y de bajos recursos, donde varios sistemas competidores se degradan con fuerza, mientras que OCR 4 mantuvo alta precisión
Casos de uso recomendados y alcance excluido
- OCR 4 soporta tanto pipelines de alto throughput como flujos interactivos de trabajo con documentos
- Los casos de uso recomendados incluyen
- Parsing y extracción de documentos complejos y multilingües
- Generación de contenido estructurado, clasificado y citable para RAG
- Entrada para pipelines de búsqueda en combinación con Search Toolkit
- Workflows de agentes como llenado de formularios, procesamiento de facturas y revisión de compliance
- Pipelines de datos estructurados con validación humana apoyada en puntajes de confianza
- Componentes de fuente de datos para búsqueda empresarial y bases de conocimiento
- Los primeros usuarios ya están aplicando OCR 4 a la conversión de campos estructurados de facturas, digitalización de archivos corporativos, extracción de texto limpio de reportes técnicos y científicos, y búsqueda empresarial
- OCR 4 es un modelo de comprensión documental y no un tomador de decisiones
- No está pensado para diagnóstico médico, asesoría o juicio legal, decisiones financieras de alto riesgo, sistemas críticos de seguridad, procesamiento en tiempo real o sensible a latencia, ni entradas no documentales como audio o video en crudo
Cómo elegir entre la API de OCR 4 y Document AI
- OCR 4 se ofrece mediante un solo endpoint de API, y todas las solicitudes ejecutan el mismo modelo OCR base
- La respuesta predeterminada siempre incluye contenido extraído, bounding boxes, tipos de bloque, puntajes de confianza y texto estructurado en Markdown
- El modo de extracción pura es adecuado para estas situaciones
- Incrustar extracción documental rápida y precisa directamente en aplicaciones, agentes o pipelines de datos
- Usar directamente la respuesta cruda, los bounding boxes, tipos de bloque y puntajes de confianza para construir lógica personalizada de postprocesamiento
- Ingesta por lotes y de alto throughput usando Batch API para controlar rendimiento y costo
- Self-hosting alineado con requisitos estrictos de privacidad, soberanía y compliance de datos
- Las funciones de Document AI se activan agregando parámetros adicionales al mismo endpoint
- Si se envía un esquema JSON junto con el documento, la salida OCR se pasa a
mistral-small-2603para generar JSON estructurado conforme a la especificación indicada - Si se envía un esquema de anotación de imágenes, se genera JSON estructurado con llamadas adicionales al modelo visión-lenguaje por cada imagen detectada
- Con un esquema JSON y un prompt personalizado, se puede guiar la interpretación o el resumen del contenido extraído de todo el documento
- Usuarios de negocio, equipos de soluciones y proyectos piloto pueden generar resultados estructurados sin lógica de parsing posterior por separado
- Si se envía un esquema JSON junto con el documento, la salida OCR se pasa a
- Si se necesita contenido extraído en bruto, basta usar OCR 4 tal cual; si se requiere reformatear a estructura, anotar campos de dominio o procesar instrucciones personalizadas, se agregan los parámetros de Document AI
Canales disponibles y cómo empezar
- Mistral OCRv4 y Document AI basado en OCRv4 están disponibles en API, Mistral Studio, Amazon SageMaker y Microsoft Foundry
- El soporte para Snowflake Parse Document estará disponible próximamente
- Para organizaciones que deben mantener información sensible dentro de su propia infraestructura, OCR 4 también ofrece opción de self-hosting
- Los recursos para comenzar son los siguientes
- Getting Started with OCR 4 Cookbook: cubre la primera extracción, trabajo con bounding boxes y clasificación de bloques
- OCR4 in Production webinar: demo y sesión de preguntas y respuestas el 7 de julio a las 6 p. m. CET
- Contact Sales: para solicitar más información
1 comentarios
Opiniones de Hacker News
El US Postal Service siempre me ha parecido una maravilla técnica
Identifica y enruta miles de millones de piezas de correo con tecnología mucho más primitiva, y además las direcciones de EE. UU. son absurdamente poco estandarizadas, así que una misma dirección puede escribirse de varias formas y aun así llegar al mismo lugar
Seguramente hay mucho conocimiento público en este campo, pero al ver lo que han hecho durante años a la escala del USPS, cada anuncio de OCR parece un problema ya resuelto
Era en los años 70, sin internet ni base de datos central, pero el servicio postal logró entregarla
Fue porque mi padre era muy activo en trabajo social y además dirigía un equipo juvenil de fútbol, así que en el vecindario lo conocían bastante solo por su nombre
Hoy en día muchas veces no encontramos a una persona o un lugar sin ayuda del celular, y los carteros ya ni siquiera dejan de platicar
Siento que una carta así no sobreviviría ni al proceso técnico ni, probablemente, a la red humana
Con eso bastaba para que la carta llegara a la oficina postal correcta, y el resto lo resolvían los carteros temprano por la mañana
Era bastante divertido adivinar qué quería decir cierta dirección, y sobre todo los empleados mayores a veces sabían la historia de por qué un lugar se escribía así, o deducían la dirección solo con el nombre del residente
En Carmel-by-the-Sea no hay números de calle, y en los Florida Keys la dirección a menudo es simplemente el número del poste de milla
Funciona porque quien cubre esa ruta ya está familiarizado con ella
Me pregunto si existe algún modelo abierto enfocado en reconocimiento de placas
Encontré algunos modelos viejos, pero me da curiosidad si se está desarrollando algo nuevo como estos modelos de OCR
Igual podría probarlo directamente para ese uso y revisar el rendimiento
El video de la página enlazada no era lo que esperaba
Pensaba en Mistral como una empresa europea de IA, pero me sorprendió que el video estuviera grabado en San Francisco y que las tres personas que aparecen no parecieran europeas
Está bien que sea una organización global, pero yo esperaba una oficina en París y acentos europeos
Hacen muchas preguntas y son extremadamente tacaños con la cartera, mientras que los estadounidenses son distintos
Probablemente también tenga ingeniería de ventas
La diferencia horaria es de 8 a 10 horas, así que en la práctica no hay forma de evitarlo
Una empresa donde trabajé antes tenía una oficina en Vancouver en su lugar, y era la misma zona horaria
Aunque en su mayoría está basada en Australia, si ves el orden de la lista de oficinas en https://www.blackmagicdesign.com/company/offices y la página de la empresa, parece una compañía estadounidense
En ese sentido, están aprovechando inteligentemente lo mejor de ambos lados: capital estadounidense y talento europeo
Me da curiosidad en qué lugar quedaría este modelo comparado con https://github.com/baidu/Unlimited-OCR
A 4 dólares por cada mil páginas suena barato, pero como todas las versiones anteriores eran del tipo “98% de precisión según 4 PDFs de benchmark internos” y en la práctica quedaban por debajo de casi cualquier alternativa del mercado, me da flojera volver a hacer benchmarks
También esta vez están destacando cifras representativas de benchmarks internos, diciendo que OlmOCRBench y OmniDocBench tienen “limitaciones conocidas”
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
Todos los laboratorios de IA de verdad deberían dejar de usar ejes y recortados en las gráficas de barras de benchmarks
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Lo probé con malayalam, y la escritura común la reconoció bien, pero un estilo un poco distinto lo detectó como kannada
Si hace falta puedo pasar una muestra, y Sarvam procesó esa misma muestra con 99% de precisión, dejando solo un error de texto
Por ejemplo, qué tal funciona con Indian English, documentos con expresiones índicas escritas en alfabeto romano, y documentos con layouts complejos como dibujos o tablas
Me interesaban esos servicios de India, pero me frenó que el precio parecía un poco más alto de lo esperado
Aunque también podría estar recordándolo mal
En comparación con el anterior modelo OCR v3 de diciembre, casi no explican diferencias aparte de las cajas delimitadoras y el precio es el doble: https://mistral.ai/news/mistral-ocr-3/
En ese momento usaban otros benchmarks
“Referencia sobre usos fuera de alcance. OCR 4 es un modelo de comprensión de documentos, no un tomador de decisiones. No es para diagnóstico médico, asesoría o criterio legal, decisiones financieras de alto riesgo, sistemas críticos para la seguridad, procesamiento en tiempo real o sensible a la latencia, ni entradas que no sean documentos (audio crudo, video, etc.)”.
Ya me imagino al gerente “innovador” proponiendo en la próxima junta: “Sí, pero ¿y si lo usamos para decisiones financieras de alto riesgo con entradas no documentales, como fotos tomadas con el celular?”
Apostaría a que la próxima semana alguien va a comentar esta “idea” en HN
Hay decenas de modelos mejores para eso y este solo daría resultados peores en comparación
Esto no es un modelo para responder preguntas, es para convertir texto
Solo parece que quieren forzar un ángulo anti-AI
Mistral solo está siendo más honesta al respecto, probablemente porque no necesita o no quiere impresionar al público con una herramienta genérica para usuarios (chat) que parezca experta en todo
De hecho, esas herramientas también suelen estar conectando varios modelos especializados bastante seguido
Lo que quieren aquí se puede hacer con unos cuantos scripts de Python
Con Voxtral conviertes el prompt de voz a texto, lo pasas a Mistral Large 3 junto con un prompt de sistema adicional para que genere un prompt de OCR y rutas de archivos, luego buscas los archivos en un loop y se los mandas a OCR 3, y después vuelves a usar Mistral Large 3 para interpretar eso y convertirlo en una decisión
Este tipo de configuración es común; de hecho, es más raro que todo se resuelva con un solo modelo
Hace poco intenté usar Opus 4.8 para OCR
Estrictamente hablando, no era la herramienta correcta, pero lo único que necesitaba era extraer la fecha de unos recibos
Se equivocó en cerca del 20% de las fechas y aun así las calificó todas con “alta confianza”
Probablemente debí haber usado un modelo especializado en OCR
Hasta una herramienta shareware de OCR de las que venían con escáneres en blanco y negro probablemente habría tenido menos de 20% de error
Da la impresión de que usa una herramienta OCR aparte y anticuada, y los resultados de las pruebas fueron malos
En cambio, en la API de Gemini el OCR sí lo hace el modelo directamente y la precisión fue mucho mejor
Es mucho mejor que los modelos pequeños de visión-lenguaje de 1~4B
Si Opus falló, es muy probable que la mayoría de esos modelos pequeños también fallen
Hace poco escaneé con Opus 4.8 cientos de PDFs con una de las peores caligrafías que he visto, y salvo un registro que ni yo mismo podía leer, tuvo 100% de éxito