Mistral OCR se presenta: la mejor API de comprensión de documentos

(mistral.ai)

13 puntos por GN⁺ 2025-03-07 | 2 comentarios | Compartir por WhatsApp

Mistral OCR es la mejor API de comprensión de documentos del mundo, y ofrece la capacidad de entender y analizar documentos con mayor precisión que los modelos existentes
Extrae texto, medios, fórmulas y tablas de PDF e imágenes y los convierte en una salida estructurada
La API está disponible actualmente por 1000 páginas/$1 (con procesamiento por lotes, el costo por página se reduce a la mitad)

Características principales de Mistral OCR

Capacidad para comprender documentos complejos: interpreta con precisión tablas, imágenes, fórmulas e incluso formato LaTeX
Soporte multilingüe y multimodal: compatible con diversos idiomas, tipografías y escrituras
Rendimiento de nivel líder en la industria: registra una precisión superior a la de otros modelos OCR
Máxima velocidad: puede procesar 2000 páginas por minuto en un solo nodo
Posibilidad de usar documentos como prompt: admite salidas estructuradas como JSON
Opción on-premise (self-host): ideal para empresas que necesitan procesar documentos confidenciales

Comprensión de documentos complejos

Mistral OCR puede analizar en profundidad documentos que incluyen artículos científicos, gráficos, fórmulas, tablas e imágenes
Con el cuaderno de ejemplo se puede ver cómo el OCR extrae texto e imágenes desde un PDF (ejemplo)

Comparación de rendimiento (benchmark)

Mistral OCR obtiene la puntuación más alta en rendimiento general en comparación con otros modelos OCR principales

Rendimiento general (Overall): 94.89 (más alto que otros modelos)
Rendimiento en análisis matemático (Math): 94.29 (más de 7 puntos por encima de GPT-4o)
Rendimiento en reconocimiento multilingüe: 89.55
Rendimiento con documentos escaneados (Scanned): 98.96
Rendimiento en reconocimiento de tablas (Table): 96.12 (el mejor frente a otros modelos)

Soporte multilingüe

Mistral OCR puede procesar una gran variedad de idiomas y escrituras de todo el mundo. Frente a los principales modelos, registra el mejor rendimiento OCR en todos los idiomas

Ruso (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
Francés (fr): 99.20 (Azure 97.50, Google 96.36)
Chino (zh): 97.11 (Azure 91.40, Google 90.89)
Alemán (de): 99.51 (Azure 98.39, Google 97.09)

Velocidad de procesamiento rápida

Mistral OCR es más liviano que los modelos OCR existentes y puede procesar hasta 2000 páginas/minuto en un solo nodo
Admite aprendizaje y mejoras continuas en entornos donde se requiere procesar grandes volúmenes de documentos

Uso de documentos como prompt (Doc-as-prompt)

Permite extraer información específica de documentos y generar salidas estructuradas como JSON
Los datos extraídos pueden conectarse a procesos de IA posteriores para automatización
Ejemplo: extraer cláusulas específicas de documentos legales y luego generar respuestas con un chatbot de IA

Opción on-premise (self-host)

Si se necesita procesar documentos confidenciales dentro de la empresa, es posible hacer self-hosting
Adecuado para instituciones y empresas donde la privacidad y la seguridad de los datos son importantes

Casos de uso principales

Digitalización de investigación científica: convierte artículos y revistas a formatos que la IA puede procesar para acelerar la colaboración en investigación
Preservación de historia y patrimonio cultural: museos y organizaciones sin fines de lucro pueden digitalizar documentos históricos para preservarlos y compartirlos
Mejora del servicio al cliente: indexa manuales y documentos para agilizar la atención al cliente
Uso de IA en diseño, educación y documentos legales: permite indexar planos de ingeniería, materiales de clase y documentos regulatorios para búsqueda de información basada en IA

Probar Mistral OCR

Mistral OCR se puede probar gratis en Le Chat (Le Chat)
La API está disponible en la Plateforme (usar API)
También se ofrecen despliegue on-premise y soluciones empresariales personalizadas (contacto)

2 comentarios

taeha 2025-03-13

No hay información sobre el rendimiento en coreano, pero al probarlo no se ve nada mal.

GN⁺ 2025-03-07

Comentarios de Hacker News

Hay quien opina que "no está mal". Pero todavía se presentan alucinaciones.
- En la imagen proporcionada como ejemplo, el texto del bloque central se reprodujo con precisión.
- Sin embargo, en el siguiente bloque se repitió parte del texto del bloque anterior, se incluyó incorrectamente parte del siguiente bloque y se generaron palabras que no existían.
- El texto correcto es "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
Se ejecutó parcialmente un benchmark para comparar el rendimiento de Mistral y Marker.
- En 375 muestras, según la evaluación de un LLM, Mistral obtuvo 4.32 puntos y Marker 4.41.
- Marker puede hacer inferencia de 20 a 120 páginas por segundo en una H100.
- Tanto las muestras como el código del benchmark pueden consultarse en Hugging Face y GitHub, respectivamente.
- Mistral OCR es un modelo impresionante, pero el problema del OCR sigue siendo difícil.
Hay expectativas de que, a medida que avance la tecnología OCR, será más fácil leer artículos académicos y libros de texto.
- Se pueden vincular las referencias a figuras con las figuras reales, sin interrumpir el flujo de lectura.
- Sería posible una conversión limpia a HTML, permitiendo hacer clic en definiciones o agregar preguntas para comprobar la comprensión.
- Incluso existe la posibilidad de integrar automáticamente Orbit SRS de Andy Matuschak en PDFs.
La tecnología OCR está acercándose a un estado en el que casi puede considerarse resuelta.
- Sin embargo, en los negocios sigue habiendo una gran brecha para pasar de la salida OCR en bruto al procesamiento documental.
- Los LLM y VLM no son magia, y esperar una automatización del 100% es poco realista.
- Hace falta construir datasets, ajustar pipelines, detectar incertidumbre y corregir con intervención humana.
Hay quien comenta que, para convertir libros de texto médicos de PDF a MD, los resultados de MinerU/PDF-Extract-Kit son mejores.
- El enlace de Colab del artículo no funciona, pero se encontró un enlace funcional en la documentación.
Hay opiniones de que ya llegó el día en que la tecnología permite editar PDFs.
- Sin embargo, el problema de OCR en archivos PDF que contienen datos personales sigue sin resolverse.
Hay quien dice que es muy rápido y más preciso que Google, Claude y otros.
- El precio es de $1 por cada 1000 páginas, y para lotes se cobra por cada 2000 páginas.
- También hay opiniones de que es excelente para convertir PDF a Markdown.
Usar un VLM general en lugar de un modelo específico tiene la desventaja de que es difícil ajustarlo a casos concretos.
- Por ejemplo, se usa Gemini para agregar texto alternativo muy específico al Markdown extraído.
- Cuesta de 2 a 3 veces más que Gemini Flash, pero la mejora de rendimiento es importante.
Se busca una explicación simple de por qué el OCR con VLM produce alucinaciones.