2 puntos por GN⁺ 2025-12-20 | 1 comentarios | Compartir por WhatsApp
  • Un modelo OCR de próxima generación que mejora al mismo tiempo la precisión y la eficiencia en el procesamiento de documentos, ofreciendo un alto rendimiento de reconocimiento en diversos tipos de documentos
  • Registra una mejora general del rendimiento del 74% frente a la versión anterior, con resultados sobresalientes en escritura a mano, formularios, tablas complejas y documentos escaneados
  • Permite preservar incluso la información estructural del documento gracias a la reconstrucción de tablas basada en HTML y al soporte de salida en Markdown
  • 2 dólares por cada 1,000 páginas, con 50% de descuento para procesamiento masivo, lo que asegura una buena relación costo-eficiencia
  • Una tecnología OCR de amplio uso, desde pipelines empresariales a gran escala hasta flujos de trabajo documentales interactivos, que emerge como infraestructura clave para el aprovechamiento de datos con IA generativa

Principales capacidades y características

  • Mistral OCR 3 realiza extracción de texto e imágenes incrustadas con alta precisión en distintos tipos de documentos
    • Soporta salida en formato Markdown y reconstrucción de tablas en HTML, por lo que puede reconocer no solo el contenido del documento, sino también su estructura
    • Gracias a su tamaño de modelo reducido, se ofrece con menor costo que las soluciones competidoras: 2 dólares por cada 1,000 páginas, o 1 dólar usando Batch API
  • Es posible integrar el modelo mistral-ocr-2512 vía API o convertir PDF e imágenes a texto o JSON estructurado mediante la interfaz Document AI Playground

Mejoras de rendimiento y benchmark

  • En benchmarks internos, registró una tasa de victoria del 74% frente a Mistral OCR 2
    • Las pruebas se realizaron con base en casos de negocio reales de clientes, y la precisión se evaluó con la métrica fuzzy-match metric
  • Alcanzó una precisión superior tanto a las soluciones empresariales de procesamiento documental como al OCR impulsado por IA

Áreas principales de mejora

  • Reconocimiento de escritura a mano: interpreta con precisión cursiva, anotaciones mixtas y escritura manual sobre formularios impresos
  • Procesamiento de formularios: mejora en el reconocimiento de cajas, etiquetas, entradas manuscritas y diseños complejos
  • Documentos escaneados y complejos: mayor resistencia a artefactos de compresión, distorsión, baja resolución y ruido de fondo
  • Estructuras de tablas complejas: reproduce por completo tablas con encabezados, celdas combinadas y jerarquías de múltiples filas y columnas mediante etiquetas HTML (colspan/rowspan)
  • Mejora general del rendimiento frente a Mistral OCR 2 en todos los idiomas y formatos documentales

Casos de uso y aplicaciones

  • Adecuado tanto para pipelines empresariales de documentos a gran escala como para flujos de trabajo documentales interactivos
    • Soporta tareas como extracción de texto e imágenes seguida de conversión a Markdown, parsing automático de formularios y facturas, construcción de pipelines de comprensión documental y digitalización de escritura manuscrita y documentos históricos
  • Los primeros clientes ya lo utilizan para convertir facturas en campos estructurados, digitalizar archivos empresariales, extraer texto de reportes técnicos y científicos, y mejorar la búsqueda empresarial
  • Tim Law, de IDC, señaló que “el OCR es una tecnología fundamental para la IA generativa y la IA agéntica, y la capacidad de extracción de texto con alta precisión y bajo costo determina la competitividad en el aprovechamiento de datos”

Enfoque de acceso y compatibilidad

  • Disponible de inmediato a través de la API o de la interfaz Document AI Playground
  • Totalmente compatible con Mistral OCR 2, por lo que puede actualizarse fácilmente en sistemas existentes
  • La documentación detallada está disponible en mistral.ai/docs

1 comentarios

 
GN⁺ 2025-12-20
Comentarios en Hacker News
  • Vi este video en Twitter y me surgió la duda de por qué Mistral no se compara con los modelos SoTA más recientes
    Estaría bueno compararlo con modelos como Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR y PaddleOCR

    • Desde la perspectiva de alguien que ha hecho mucho trabajo de extracción de documentos, el tono del tuit me resulta algo molesto, pero lo que dice es correcto
      Mistral se está comparando con servicios de visión por computadora generales, no con modelos basados en VLM
      Los primeros entienden mejor los documentos, pero los segundos ofrecen bounding boxes precisos
      También fallan de forma distinta — un VLM puede leer mal una oración completa, mientras que un modelo de visión suele cometer errores del nivel de una letra dentro de una palabra
    • Hice clic en el enlace y sentí que el ambiente de Twitter se ha vuelto mucho más raro que antes
    • También me gustaría ver una comparación con Qwen 3 VL 235B-A22B. En mi experiencia, fue mucho mejor que MinerU
  • En los últimos 3 meses han salido una enorme cantidad de modelos OCR open source
    Sobre todo modelos de menos de 1B parámetros que funcionan bien incluso en dispositivos edge
    Me habría gustado que lo compararan con modelos como paddleOCR-VL, olmOCR-2, chandra y dots.ocr
    Es una lástima que casi no existan leaderboards o arenas relacionados con OCR o CV

    • Hace como un mes apareció un proyecto llamado ocrarena.ai
      Funciona como llmarena, enfrentando modelos entre sí, pero Mistral todavía no ha sido actualizado ahí
      Por ahora Gemini está entre los primeros lugares
    • La ventaja de MistralOCR es su política de precios simple — $1 por cada 1,000 páginas, con API hospedada en servidor
      Otros OCR cobran por tokens, así que es difícil calcular el costo real
      Por ejemplo, Gemini 3.0 flash parece tener un precio similar a primera vista, pero por token en realidad sale como 3 veces más caro
    • Intenté instalar paddleOCR, pero lo dejé al toparme con un conflicto de versiones mientras instalaba 12 GB de dependencias de PyTorch
      Le di permisos de root a Claude para que lo instalara por mí, y parecía estar disfrutándolo mucho más que yo
      Tuve una experiencia parecida al instalar open web UI, y al final terminé implementando solo la función que necesitaba con 100 líneas de HTML
      Ojalá OCR pudiera hacerse igual de simple
    • También vale la pena revisar codesota.com/ocr
  • Dicen que Mistral OCR 3 es adecuado para pipelines empresariales a gran escala, pero con una precisión de 79% me cuesta confiar en él
    Desde la perspectiva de alguien que trabaja con journals científicos, errores de reconocimiento como 2.9+0.5 en lugar de 29+0.5 son críticos
    Al final se necesita verificación humana en todas las etapas

    • En estos casos, datalab.to me ha funcionado bastante bien
    • 79% parece ser una cifra de tasa de victoria, no de precisión
  • Estoy trabajando en un proyecto para convertir un diccionario Shipibo (lengua indígena de Perú)-español en un diccionario Shipibo-inglés
    La calidad de los escaneos PDF no es buena, y el layout de dos columnas junto con headers y footers hace que el OCR falle con frecuencia
    Además, tengo que separar los ejemplos en Shipibo de las definiciones en español y traducir solo estas últimas al inglés, así que es complicado
    Cada vez que sale alguna novedad de OCR/LLM lo intento, pero siempre termino decepcionado

    • Me pregunto si te interesa la investigación sobre la tradición de la Ayahuasca
      En la cultura Shipibo, no eran personas comunes sino las maestras quienes tomaban Ayahuasca para diagnosticar enfermedades
      Hacían una dieta específica para cada planta, restringiendo cosas como el uso de jabón, las relaciones sexuales y el consumo de sal
      Tradicionalmente podía durar más de un año, aunque hoy en día suele acortarse a unas semanas
      Me impresionó lo profundamente que estudian la medicina de las plantas
  • Estoy tratando de convertir libros de matemáticas a markdown con fórmulas LaTeX, pero todavía no encuentro un modelo OCR satisfactorio
    Planeo probarlo directamente en el OCR playground de Mistral

    • Procesé miles de documentos con el modelo Gemini Pro 3 vision y fue, por mucho, más preciso que cualquier OCR que haya usado hasta ahora
      Incluso convirtió las fórmulas perfectamente a LaTeX
    • Ojalá luego compartas cómo te fue con los resultados
  • Estoy buscando traducción dentro de la imagen (in-place translation)
    Mistral OCR3 está más enfocado en extracción de datos, así que no me sirve para ese caso de uso
    Quiero traducir texto de artbooks extranjeros y mostrarlo directamente sobre la ilustración, pero los servicios pagos existentes fallan por la disposición no estándar del texto
    Por ahora estoy traduciendo con Google Lens apuntando la pantalla, lo cual es incómodo
    Lens integrado en Chrome también requiere selección manual, así que no es totalmente automático
    ¿Alguien sabe de novedades sobre avances en este tipo de función?

    • Si no te molesta pagar, DEEPL o la función de traducción de documentos de Word son bastante utilizables
  • Últimamente da la impresión de que Mistral solo persigue la periferia de las funciones de IA
    Parece ir por detrás de OAI, Google y Anthropic, y da la impresión de que falta inversión a nivel de la UE

    • Justamente funciones prácticas como el procesamiento de formularios son lo que la gente realmente necesita
      Tienen mucho más valor que generar memes
    • Seguir tal cual a las empresas líderes es riesgoso
      Como todavía no hay un modelo de ingresos bien establecido, a Mistral le conviene enfocarse en la calidad de sus modelos base
      Mantener talento dentro de la UE y crear modelos decentes es una meta realista
    • La UE sí está ‘invirtiendo’ mucho en Mistral — la mitad en cobrar impuestos, y la otra mitad en discutir regulaciones
    • Las regulaciones de la UE lo están frenando, así que probablemente termine siendo adquirida por una empresa estadounidense
    • Aun así, me parece mejor que simplemente copiar lo que hacen los demás
  • Vi evaluaciones que dicen que Mistral rinde peor que varios OCR open source (Paddle, MinerU, MonkeyOCR, etc.)
    Véase codesota.com/ocr

  • Estoy probando Mistral como reemplazo de MathPix
    Este script de Python es un prototipo para Windows que hace sniffing, envía la imagen del portapapeles a Mistral y pega automáticamente el resultado en Markdown

  • El mayor problema de Mistral es que no responde a las consultas de clientes
    Esconderse detrás de “consulta por precios” hace que dé igual aunque sea mejor que el SoTA

    • Yo también detesto profundamente tener que tratar cara a cara con un vendedor
      Prefiero elegir un servicio más caro y con peor rendimiento antes que pasar por ese proceso