- Mistral OCR es la mejor API de comprensión de documentos del mundo, y ofrece la capacidad de entender y analizar documentos con mayor precisión que los modelos existentes
- Extrae texto, medios, fórmulas y tablas de PDF e imágenes y los convierte en una salida estructurada
- La API está disponible actualmente por 1000 páginas/$1 (con procesamiento por lotes, el costo por página se reduce a la mitad)
Características principales de Mistral OCR
- Capacidad para comprender documentos complejos: interpreta con precisión tablas, imágenes, fórmulas e incluso formato LaTeX
- Soporte multilingüe y multimodal: compatible con diversos idiomas, tipografías y escrituras
- Rendimiento de nivel líder en la industria: registra una precisión superior a la de otros modelos OCR
- Máxima velocidad: puede procesar 2000 páginas por minuto en un solo nodo
- Posibilidad de usar documentos como prompt: admite salidas estructuradas como JSON
- Opción on-premise (self-host): ideal para empresas que necesitan procesar documentos confidenciales
Comprensión de documentos complejos
- Mistral OCR puede analizar en profundidad documentos que incluyen artículos científicos, gráficos, fórmulas, tablas e imágenes
- Con el cuaderno de ejemplo se puede ver cómo el OCR extrae texto e imágenes desde un PDF (ejemplo)
Comparación de rendimiento (benchmark)
Mistral OCR obtiene la puntuación más alta en rendimiento general en comparación con otros modelos OCR principales
- Rendimiento general (Overall): 94.89 (más alto que otros modelos)
- Rendimiento en análisis matemático (Math): 94.29 (más de 7 puntos por encima de GPT-4o)
- Rendimiento en reconocimiento multilingüe: 89.55
- Rendimiento con documentos escaneados (Scanned): 98.96
- Rendimiento en reconocimiento de tablas (Table): 96.12 (el mejor frente a otros modelos)
Soporte multilingüe
Mistral OCR puede procesar una gran variedad de idiomas y escrituras de todo el mundo. Frente a los principales modelos, registra el mejor rendimiento OCR en todos los idiomas
- Ruso (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
- Francés (fr): 99.20 (Azure 97.50, Google 96.36)
- Chino (zh): 97.11 (Azure 91.40, Google 90.89)
- Alemán (de): 99.51 (Azure 98.39, Google 97.09)
Velocidad de procesamiento rápida
- Mistral OCR es más liviano que los modelos OCR existentes y puede procesar hasta 2000 páginas/minuto en un solo nodo
- Admite aprendizaje y mejoras continuas en entornos donde se requiere procesar grandes volúmenes de documentos
Uso de documentos como prompt (Doc-as-prompt)
- Permite extraer información específica de documentos y generar salidas estructuradas como JSON
- Los datos extraídos pueden conectarse a procesos de IA posteriores para automatización
- Ejemplo: extraer cláusulas específicas de documentos legales y luego generar respuestas con un chatbot de IA
Opción on-premise (self-host)
- Si se necesita procesar documentos confidenciales dentro de la empresa, es posible hacer self-hosting
- Adecuado para instituciones y empresas donde la privacidad y la seguridad de los datos son importantes
Casos de uso principales
- Digitalización de investigación científica: convierte artículos y revistas a formatos que la IA puede procesar para acelerar la colaboración en investigación
- Preservación de historia y patrimonio cultural: museos y organizaciones sin fines de lucro pueden digitalizar documentos históricos para preservarlos y compartirlos
- Mejora del servicio al cliente: indexa manuales y documentos para agilizar la atención al cliente
- Uso de IA en diseño, educación y documentos legales: permite indexar planos de ingeniería, materiales de clase y documentos regulatorios para búsqueda de información basada en IA
2 comentarios
No hay información sobre el rendimiento en coreano, pero al probarlo no se ve nada mal.
Comentarios de Hacker News
Hay quien opina que "no está mal". Pero todavía se presentan alucinaciones.
Se ejecutó parcialmente un benchmark para comparar el rendimiento de Mistral y Marker.
Hay expectativas de que, a medida que avance la tecnología OCR, será más fácil leer artículos académicos y libros de texto.
La tecnología OCR está acercándose a un estado en el que casi puede considerarse resuelta.
Hay quien comenta que, para convertir libros de texto médicos de PDF a MD, los resultados de MinerU/PDF-Extract-Kit son mejores.
Hay opiniones de que ya llegó el día en que la tecnología permite editar PDFs.
Hay quien dice que es muy rápido y más preciso que Google, Claude y otros.
Usar un VLM general en lugar de un modelo específico tiene la desventaja de que es difícil ajustarlo a casos concretos.
Se busca una explicación simple de por qué el OCR con VLM produce alucinaciones.