Lanzamiento de Mistral OCR 4

(mistral.ai)

1 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp

Mistral OCR 4, presentado por Mistral AI, es un modelo de comprensión de documentos que va más allá del OCR que solo extrae texto, ya que también devuelve bounding boxes, clasificación de bloques e incluso puntajes de confianza en línea
Es compatible con 170 idiomas en 10 grupos lingüísticos y con self-hosting en un solo contenedor, por lo que encaja en pipelines de ingesta documental de organizaciones donde la soberanía de datos y el compliance son importantes
En evaluaciones de preferencia humana registró una tasa de victoria del 72% en promedio, y también obtuvo puntajes altos en evaluaciones públicas e internas como OlmOCRBench 85.20 y OmniDocBench 93.07
Aun así, por limitaciones de evaluación como errores en las respuestas de referencia, notación matemática equivalente, orden de lectura en múltiples columnas y manejo de headers y footers, los puntajes de benchmark deben leerse junto con evaluaciones sobre documentos reales
La API cuesta $4 por cada 1,000 páginas, la Batch API $2 y Document AI $5; para extracción cruda basta con OCR 4, pero si se necesita JSON estructurado, anotación de imágenes o prompts personalizados, la ruta adecuada es Document AI

Representación estructurada de documentos que devuelve OCR 4

OCR 4 extrae y estructura contenido de distintos documentos, y ya no se limita solo a texto limpio y conversión de tablas como en la generación anterior, sino que también ofrece una representación estructurada
Cada bloque incluye bounding box, tipo de bloque y puntajes de confianza en línea a nivel de página y palabra
- Los sistemas downstream pueden aprovechar no solo el contenido del documento, sino también la posición, el rol y el nivel de confianza de cada elemento
Los principales flujos de uso son los siguientes
- Chunking por unidad semántica para RAG: usar bloques organizados y clasificados como unidades de búsqueda
- Primitivas de estructura para agentes: soporte para llenado de formularios, procesamiento de facturas y revisión de compliance
- Contenido estructurado para conectores: salida tipada consistente para pipelines de ingesta e indexación

Formatos, idiomas y despliegue

Los formatos de entrada incluyen formatos documentales empresariales comunes como PDF, DOC, PPT y OpenDocument
Soporta 170 idiomas en 10 grupos lingüísticos, incluyendo idiomas especializados y de bajos recursos donde muchos sistemas suelen debilitarse
El modelo es lo suficientemente pequeño como para desplegarse en un solo contenedor, lo que lo hace adecuado para entornos sensibles a costos y de alto throughput
Soporta ejecución completa con self-hosting, por lo que organizaciones con requisitos de soberanía de datos pueden mantener los documentos dentro de su propia infraestructura
El despliegue autogestionado está disponible para clientes empresariales

Precio y vías de uso

Los desarrolladores pueden integrar el modelo vía API, y los equipos pueden usar el mismo motor como una aplicación no-code a través de Document AI en Mistral Studio
Los precios son los siguientes
- API de OCR 4: $4 por cada 1,000 páginas
- Con 50% de descuento de Batch API: $2 por cada 1,000 páginas
- Document AI: $5 por cada 1,000 páginas
OCR 4 está integrado como componente de ingesta de Mistral Search Toolkit para ofrecer entradas citables en flujos de trabajo de ingesta, búsqueda y evaluación para RAG y búsqueda empresarial

Resultados de evaluación y límites de los benchmarks

La evaluación de OCR 4 se realizó comparándolo con modelos OCR nativos de IA, modelos frontier de propósito general, servicios documentales empresariales y Mistral OCR 3
La evaluación de preferencia humana, diseñada para reflejar el uso real, reunió más de 600 documentos en más de 12 idiomas, y anotadores independientes compararon a ciegas, documento por documento, la salida de cada sistema competidor con la de OCR 4
- Los anotadores prefirieron OCR 4 en la mayoría de los documentos frente a todos los sistemas evaluados
- La tasa promedio de victoria fue de 72%
En el benchmark público OlmOCRBench registró el mejor puntaje global entre los modelos probados, con 85.20
En la evaluación interna Crawl Multilingual evaluation logró .98, superando a soluciones nativas de IA y empresariales
El puntaje de OmniDocBench fue 93.07, pero tanto OlmOCRBench como OmniDocBench tienen limitaciones conocidas en algunos métodos de evaluación de salidas
Muchas de las discrepancias auditadas surgen no de errores del modelo, sino del propio método de comparación de los benchmarks
- Errores en las respuestas de referencia: las anotaciones de referencia pueden incluir texto omitido o extra, transcripciones de zonas ocultas o errores tipográficos
- Notación matemática equivalente: aunque el resultado renderizado de LaTeX sea el mismo, si la cadena difiere se cuenta como discrepancia
- División de fórmulas: según si se exporta como una sola fórmula o como varios fragmentos inline, el matching con la respuesta correcta puede variar
- Orden de lectura en múltiples columnas: por palabras separadas en límites de columna y supuestos sobre el orden de columnas, incluso una extracción correcta puede calificarse como fallo
- Asignación de tipo de bloque: aun después de quitar headers y footers de la salida, la prueba puede marcar erróneamente cadenas como títulos de página
Estos artefactos se concentran en documentos matemáticos, científicos y de múltiples columnas, y más que premiar salidas incorrectas, suelen penalizar con mayor frecuencia salidas correctas
Como todos los puntajes de competidores provienen de reproducciones internas, lo más seguro antes de adoptar la tecnología es evaluarla directamente con documentos propios

Rendimiento multilingüe

En la evaluación multilingüe interna, OCR 4 lideró en los 8 grupos lingüísticos
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Idiomas especializados como Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada y Telugu
La diferencia fue mayor en idiomas especializados y de bajos recursos, donde varios sistemas competidores se degradan con fuerza, mientras que OCR 4 mantuvo alta precisión

Casos de uso recomendados y alcance excluido

OCR 4 soporta tanto pipelines de alto throughput como flujos interactivos de trabajo con documentos
Los casos de uso recomendados incluyen
- Parsing y extracción de documentos complejos y multilingües
- Generación de contenido estructurado, clasificado y citable para RAG
- Entrada para pipelines de búsqueda en combinación con Search Toolkit
- Workflows de agentes como llenado de formularios, procesamiento de facturas y revisión de compliance
- Pipelines de datos estructurados con validación humana apoyada en puntajes de confianza
- Componentes de fuente de datos para búsqueda empresarial y bases de conocimiento
Los primeros usuarios ya están aplicando OCR 4 a la conversión de campos estructurados de facturas, digitalización de archivos corporativos, extracción de texto limpio de reportes técnicos y científicos, y búsqueda empresarial
OCR 4 es un modelo de comprensión documental y no un tomador de decisiones
- No está pensado para diagnóstico médico, asesoría o juicio legal, decisiones financieras de alto riesgo, sistemas críticos de seguridad, procesamiento en tiempo real o sensible a latencia, ni entradas no documentales como audio o video en crudo

Cómo elegir entre la API de OCR 4 y Document AI

OCR 4 se ofrece mediante un solo endpoint de API, y todas las solicitudes ejecutan el mismo modelo OCR base
La respuesta predeterminada siempre incluye contenido extraído, bounding boxes, tipos de bloque, puntajes de confianza y texto estructurado en Markdown
El modo de extracción pura es adecuado para estas situaciones
- Incrustar extracción documental rápida y precisa directamente en aplicaciones, agentes o pipelines de datos
- Usar directamente la respuesta cruda, los bounding boxes, tipos de bloque y puntajes de confianza para construir lógica personalizada de postprocesamiento
- Ingesta por lotes y de alto throughput usando Batch API para controlar rendimiento y costo
- Self-hosting alineado con requisitos estrictos de privacidad, soberanía y compliance de datos
Las funciones de Document AI se activan agregando parámetros adicionales al mismo endpoint
- Si se envía un esquema JSON junto con el documento, la salida OCR se pasa a mistral-small-2603 para generar JSON estructurado conforme a la especificación indicada
- Si se envía un esquema de anotación de imágenes, se genera JSON estructurado con llamadas adicionales al modelo visión-lenguaje por cada imagen detectada
- Con un esquema JSON y un prompt personalizado, se puede guiar la interpretación o el resumen del contenido extraído de todo el documento
- Usuarios de negocio, equipos de soluciones y proyectos piloto pueden generar resultados estructurados sin lógica de parsing posterior por separado
Si se necesita contenido extraído en bruto, basta usar OCR 4 tal cual; si se requiere reformatear a estructura, anotar campos de dominio o procesar instrucciones personalizadas, se agregan los parámetros de Document AI

Canales disponibles y cómo empezar

Mistral OCRv4 y Document AI basado en OCRv4 están disponibles en API, Mistral Studio, Amazon SageMaker y Microsoft Foundry
El soporte para Snowflake Parse Document estará disponible próximamente
Para organizaciones que deben mantener información sensible dentro de su propia infraestructura, OCR 4 también ofrece opción de self-hosting
Los recursos para comenzar son los siguientes
- Getting Started with OCR 4 Cookbook: cubre la primera extracción, trabajo con bounding boxes y clasificación de bloques
- OCR4 in Production webinar: demo y sesión de preguntas y respuestas el 7 de julio a las 6 p. m. CET
- Contact Sales: para solicitar más información

1 comentarios

GN⁺ 3 시간 전

Opiniones de Hacker News

El US Postal Service siempre me ha parecido una maravilla técnica
Identifica y enruta miles de millones de piezas de correo con tecnología mucho más primitiva, y además las direcciones de EE. UU. son absurdamente poco estandarizadas, así que una misma dirección puede escribirse de varias formas y aun así llegar al mismo lugar
Seguramente hay mucho conocimiento público en este campo, pero al ver lo que han hecho durante años a la escala del USPS, cada anuncio de OCR parece un problema ya resuelto
- Mi padre una vez recibió una carta de Argelia con solo tres palabras en el sobre: su nombre, “Créteil” (una ciudad de unas 100 mil personas donde vivía entonces) y “France”
  Era en los años 70, sin internet ni base de datos central, pero el servicio postal logró entregarla
  Fue porque mi padre era muy activo en trabajo social y además dirigía un equipo juvenil de fútbol, así que en el vecindario lo conocían bastante solo por su nombre
  Hoy en día muchas veces no encontramos a una persona o un lugar sin ayuda del celular, y los carteros ya ni siquiera dejan de platicar
  Siento que una carta así no sobreviviría ni al proceso técnico ni, probablemente, a la red humana
- Antes trabajé por horas en el servicio postal de Dinamarca, y la clasificación automática llegaba solo hasta el código postal
  Con eso bastaba para que la carta llegara a la oficina postal correcta, y el resto lo resolvían los carteros temprano por la mañana
  Era bastante divertido adivinar qué quería decir cierta dirección, y sobre todo los empleados mayores a veces sabían la historia de por qué un lugar se escribía así, o deducían la dirección solo con el nombre del residente
- Hay un buen video de Tom Scott sobre este tema: https://www.youtube.com/watch?v=XxCha4Kez9c
- Hay muchas excepciones raras en las direcciones de EE. UU.
  En Carmel-by-the-Sea no hay números de calle, y en los Florida Keys la dirección a menudo es simplemente el número del poste de milla
  Funciona porque quien cubre esa ruta ya está familiarizado con ella
- Si tomas como referencia las direcciones de India, lo de que las direcciones de EE. UU. no estén estandarizadas da risa
Me pregunto si existe algún modelo abierto enfocado en reconocimiento de placas
Encontré algunos modelos viejos, pero me da curiosidad si se está desarrollando algo nuevo como estos modelos de OCR
Igual podría probarlo directamente para ese uso y revisar el rendimiento
El video de la página enlazada no era lo que esperaba
Pensaba en Mistral como una empresa europea de IA, pero me sorprendió que el video estuviera grabado en San Francisco y que las tres personas que aparecen no parecieran europeas
Está bien que sea una organización global, pero yo esperaba una oficina en París y acentos europeos
- Por desgracia, los clientes europeos son clientes de los que es difícil sacar dinero
  Hacen muchas preguntas y son extremadamente tacaños con la cartera, mientras que los estadounidenses son distintos
- Cualquier empresa tecnológica europea con algo de tamaño tiene al menos una oficina en la costa oeste de EE. UU., aunque sea por ventas
  Probablemente también tenga ingeniería de ventas
  La diferencia horaria es de 8 a 10 horas, así que en la práctica no hay forma de evitarlo
  Una empresa donde trabajé antes tenía una oficina en Vancouver en su lugar, y era la misma zona horaria
- A Blackmagic Design le pasa algo parecido
  Aunque en su mayoría está basada en Australia, si ves el orden de la lista de oficinas en https://www.blackmagicdesign.com/company/offices y la página de la empresa, parece una compañía estadounidense
- Según entiendo, la mayor parte del equipo fundador empezó su carrera en empresas estadounidenses como Meta, y sus principales inversionistas también son VC de EE. UU.
  En ese sentido, están aprovechando inteligentemente lo mejor de ambos lados: capital estadounidense y talento europeo
- Hasta hay una bandera de EE. UU. bien visible en el fondo
Me da curiosidad en qué lugar quedaría este modelo comparado con https://github.com/baidu/Unlimited-OCR
- Sí, justo lo acaban de anunciar: https://x.com/BaiduAI_News/status/2069322806748410291
A 4 dólares por cada mil páginas suena barato, pero como todas las versiones anteriores eran del tipo “98% de precisión según 4 PDFs de benchmark internos” y en la práctica quedaban por debajo de casi cualquier alternativa del mercado, me da flojera volver a hacer benchmarks
También esta vez están destacando cifras representativas de benchmarks internos, diciendo que OlmOCRBench y OmniDocBench tienen “limitaciones conocidas”
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
- Llegué a la misma conclusión, pero al correr yo mismo algunas muestras sí vi mejoras reales desde la versión de diciembre de 2025
Todos los laboratorios de IA de verdad deberían dejar de usar ejes y recortados en las gráficas de barras de benchmarks
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Lo probé con malayalam, y la escritura común la reconoció bien, pero un estilo un poco distinto lo detectó como kannada
Si hace falta puedo pasar una muestra, y Sarvam procesó esa misma muestra con 99% de precisión, dejando solo un error de texto
- Me interesa saber si alguien ha usado Sarvam fuera de los idiomas índicos
  Por ejemplo, qué tal funciona con Indian English, documentos con expresiones índicas escritas en alfabeto romano, y documentos con layouts complejos como dibujos o tablas
  Me interesaban esos servicios de India, pero me frenó que el precio parecía un poco más alto de lo esperado
  Aunque también podría estar recordándolo mal
En comparación con el anterior modelo OCR v3 de diciembre, casi no explican diferencias aparte de las cajas delimitadoras y el precio es el doble: https://mistral.ai/news/mistral-ocr-3/
En ese momento usaban otros benchmarks
“Referencia sobre usos fuera de alcance. OCR 4 es un modelo de comprensión de documentos, no un tomador de decisiones. No es para diagnóstico médico, asesoría o criterio legal, decisiones financieras de alto riesgo, sistemas críticos para la seguridad, procesamiento en tiempo real o sensible a la latencia, ni entradas que no sean documentos (audio crudo, video, etc.)”.
Ya me imagino al gerente “innovador” proponiendo en la próxima junta: “Sí, pero ¿y si lo usamos para decisiones financieras de alto riesgo con entradas no documentales, como fotos tomadas con el celular?”
Apostaría a que la próxima semana alguien va a comentar esta “idea” en HN
- No sé por qué alguien querría hacer eso
  Hay decenas de modelos mejores para eso y este solo daría resultados peores en comparación
  Esto no es un modelo para responder preguntas, es para convertir texto
  Solo parece que quieren forzar un ángulo anti-AI
- Todas las empresas de IA están haciendo modelos especializados que son muy buenos en una sola tarea
  Mistral solo está siendo más honesta al respecto, probablemente porque no necesita o no quiere impresionar al público con una herramienta genérica para usuarios (chat) que parezca experta en todo
  De hecho, esas herramientas también suelen estar conectando varios modelos especializados bastante seguido
  Lo que quieren aquí se puede hacer con unos cuantos scripts de Python
  Con Voxtral conviertes el prompt de voz a texto, lo pasas a Mistral Large 3 junto con un prompt de sistema adicional para que genere un prompt de OCR y rutas de archivos, luego buscas los archivos en un loop y se los mandas a OCR 3, y después vuelves a usar Mistral Large 3 para interpretar eso y convertirlo en una decisión
  Este tipo de configuración es común; de hecho, es más raro que todo se resuelva con un solo modelo
- “Le delegué decisiones financieras importantes a un software OCR y no vas a creer lo que pasó después”
Hace poco intenté usar Opus 4.8 para OCR
Estrictamente hablando, no era la herramienta correcta, pero lo único que necesitaba era extraer la fecha de unos recibos
Se equivocó en cerca del 20% de las fechas y aun así las calificó todas con “alta confianza”
Probablemente debí haber usado un modelo especializado en OCR
- Extraer la fecha de un recibo suena como un problema que ya estaba casi resuelto hace unos 30 años
  Hasta una herramienta shareware de OCR de las que venían con escáneres en blanco y negro probablemente habría tenido menos de 20% de error
- No sé sobre Opus, pero en el producto por suscripción de Gemini parece que el OCR no lo hace el modelo directamente
  Da la impresión de que usa una herramienta OCR aparte y anticuada, y los resultados de las pruebas fueron malos
  En cambio, en la API de Gemini el OCR sí lo hace el modelo directamente y la precisión fue mucho mejor
- Opus hace OCR muy bien
  Es mucho mejor que los modelos pequeños de visión-lenguaje de 1~4B
  Si Opus falló, es muy probable que la mayoría de esos modelos pequeños también fallen
- Me cuesta creer esto
  Hace poco escaneé con Opus 4.8 cientos de PDFs con una de las peores caligrafías que he visto, y salvo un registro que ni yo mismo podía leer, tuvo 100% de éxito

Lanzamiento de Mistral OCR 4

Representación estructurada de documentos que devuelve OCR 4

Formatos, idiomas y despliegue

Precio y vías de uso

Resultados de evaluación y límites de los benchmarks

Rendimiento multilingüe

Casos de uso recomendados y alcance excluido

Cómo elegir entre la API de OCR 4 y Document AI

Canales disponibles y cómo empezar

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News