13 puntos por GN⁺ 2025-03-07 | 2 comentarios | Compartir por WhatsApp
  • Mistral OCR es la mejor API de comprensión de documentos del mundo, y ofrece la capacidad de entender y analizar documentos con mayor precisión que los modelos existentes
  • Extrae texto, medios, fórmulas y tablas de PDF e imágenes y los convierte en una salida estructurada
  • La API está disponible actualmente por 1000 páginas/$1 (con procesamiento por lotes, el costo por página se reduce a la mitad)

Características principales de Mistral OCR

  • Capacidad para comprender documentos complejos: interpreta con precisión tablas, imágenes, fórmulas e incluso formato LaTeX
  • Soporte multilingüe y multimodal: compatible con diversos idiomas, tipografías y escrituras
  • Rendimiento de nivel líder en la industria: registra una precisión superior a la de otros modelos OCR
  • Máxima velocidad: puede procesar 2000 páginas por minuto en un solo nodo
  • Posibilidad de usar documentos como prompt: admite salidas estructuradas como JSON
  • Opción on-premise (self-host): ideal para empresas que necesitan procesar documentos confidenciales

Comprensión de documentos complejos

  • Mistral OCR puede analizar en profundidad documentos que incluyen artículos científicos, gráficos, fórmulas, tablas e imágenes
  • Con el cuaderno de ejemplo se puede ver cómo el OCR extrae texto e imágenes desde un PDF (ejemplo)

Comparación de rendimiento (benchmark)

Mistral OCR obtiene la puntuación más alta en rendimiento general en comparación con otros modelos OCR principales

  • Rendimiento general (Overall): 94.89 (más alto que otros modelos)
  • Rendimiento en análisis matemático (Math): 94.29 (más de 7 puntos por encima de GPT-4o)
  • Rendimiento en reconocimiento multilingüe: 89.55
  • Rendimiento con documentos escaneados (Scanned): 98.96
  • Rendimiento en reconocimiento de tablas (Table): 96.12 (el mejor frente a otros modelos)

Soporte multilingüe

Mistral OCR puede procesar una gran variedad de idiomas y escrituras de todo el mundo. Frente a los principales modelos, registra el mejor rendimiento OCR en todos los idiomas

  • Ruso (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
  • Francés (fr): 99.20 (Azure 97.50, Google 96.36)
  • Chino (zh): 97.11 (Azure 91.40, Google 90.89)
  • Alemán (de): 99.51 (Azure 98.39, Google 97.09)

Velocidad de procesamiento rápida

  • Mistral OCR es más liviano que los modelos OCR existentes y puede procesar hasta 2000 páginas/minuto en un solo nodo
  • Admite aprendizaje y mejoras continuas en entornos donde se requiere procesar grandes volúmenes de documentos

Uso de documentos como prompt (Doc-as-prompt)

  • Permite extraer información específica de documentos y generar salidas estructuradas como JSON
  • Los datos extraídos pueden conectarse a procesos de IA posteriores para automatización
  • Ejemplo: extraer cláusulas específicas de documentos legales y luego generar respuestas con un chatbot de IA

Opción on-premise (self-host)

  • Si se necesita procesar documentos confidenciales dentro de la empresa, es posible hacer self-hosting
  • Adecuado para instituciones y empresas donde la privacidad y la seguridad de los datos son importantes

Casos de uso principales

  1. Digitalización de investigación científica: convierte artículos y revistas a formatos que la IA puede procesar para acelerar la colaboración en investigación
  2. Preservación de historia y patrimonio cultural: museos y organizaciones sin fines de lucro pueden digitalizar documentos históricos para preservarlos y compartirlos
  3. Mejora del servicio al cliente: indexa manuales y documentos para agilizar la atención al cliente
  4. Uso de IA en diseño, educación y documentos legales: permite indexar planos de ingeniería, materiales de clase y documentos regulatorios para búsqueda de información basada en IA

Probar Mistral OCR

  • Mistral OCR se puede probar gratis en Le Chat (Le Chat)
  • La API está disponible en la Plateforme (usar API)
  • También se ofrecen despliegue on-premise y soluciones empresariales personalizadas (contacto)

2 comentarios

 
taeha 2025-03-13

No hay información sobre el rendimiento en coreano, pero al probarlo no se ve nada mal.

 
GN⁺ 2025-03-07
Comentarios de Hacker News
  • Hay quien opina que "no está mal". Pero todavía se presentan alucinaciones.

    • En la imagen proporcionada como ejemplo, el texto del bloque central se reprodujo con precisión.
    • Sin embargo, en el siguiente bloque se repitió parte del texto del bloque anterior, se incluyó incorrectamente parte del siguiente bloque y se generaron palabras que no existían.
    • El texto correcto es "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
  • Se ejecutó parcialmente un benchmark para comparar el rendimiento de Mistral y Marker.

    • En 375 muestras, según la evaluación de un LLM, Mistral obtuvo 4.32 puntos y Marker 4.41.
    • Marker puede hacer inferencia de 20 a 120 páginas por segundo en una H100.
    • Tanto las muestras como el código del benchmark pueden consultarse en Hugging Face y GitHub, respectivamente.
    • Mistral OCR es un modelo impresionante, pero el problema del OCR sigue siendo difícil.
  • Hay expectativas de que, a medida que avance la tecnología OCR, será más fácil leer artículos académicos y libros de texto.

    • Se pueden vincular las referencias a figuras con las figuras reales, sin interrumpir el flujo de lectura.
    • Sería posible una conversión limpia a HTML, permitiendo hacer clic en definiciones o agregar preguntas para comprobar la comprensión.
    • Incluso existe la posibilidad de integrar automáticamente Orbit SRS de Andy Matuschak en PDFs.
  • La tecnología OCR está acercándose a un estado en el que casi puede considerarse resuelta.

    • Sin embargo, en los negocios sigue habiendo una gran brecha para pasar de la salida OCR en bruto al procesamiento documental.
    • Los LLM y VLM no son magia, y esperar una automatización del 100% es poco realista.
    • Hace falta construir datasets, ajustar pipelines, detectar incertidumbre y corregir con intervención humana.
  • Hay quien comenta que, para convertir libros de texto médicos de PDF a MD, los resultados de MinerU/PDF-Extract-Kit son mejores.

    • El enlace de Colab del artículo no funciona, pero se encontró un enlace funcional en la documentación.
  • Hay opiniones de que ya llegó el día en que la tecnología permite editar PDFs.

    • Sin embargo, el problema de OCR en archivos PDF que contienen datos personales sigue sin resolverse.
  • Hay quien dice que es muy rápido y más preciso que Google, Claude y otros.

    • El precio es de $1 por cada 1000 páginas, y para lotes se cobra por cada 2000 páginas.
    • También hay opiniones de que es excelente para convertir PDF a Markdown.
  • Usar un VLM general en lugar de un modelo específico tiene la desventaja de que es difícil ajustarlo a casos concretos.

    • Por ejemplo, se usa Gemini para agregar texto alternativo muy específico al Markdown extraído.
    • Cuesta de 2 a 3 veces más que Gemini Flash, pero la mejora de rendimiento es importante.
  • Se busca una explicación simple de por qué el OCR con VLM produce alucinaciones.