43 puntos por xguru 2025-10-21 | 6 comentarios | Compartir por WhatsApp
  • Modelo visión-lenguaje (VLM) ultracompacto optimizado para análisis de documentos, compatible con 109 idiomas, incluido coreano, y capaz de reconocer con precisión elementos complejos como fórmulas, tablas, gráficos y escritura a mano
  • El modelo principal, PaddleOCR-VL-0.9B, combina un codificador visual de resolución dinámica basado en NaViT con el modelo de lenguaje ERNIE-4.5-0.3B para lograr al mismo tiempo reconocimiento de alta precisión y velocidad de inferencia rápida
  • Una arquitectura VLM pequeña pero potente que mantiene la eficiencia computacional mientras consigue un rendimiento de reconocimiento al nivel de modelos grandes existentes
  • Registró SOTA (estado del arte) en OmniDocBench y otros benchmarks, superando a modelos previos basados en pipelines
  • Además de coreano, chino, inglés y japonés, admite diversos sistemas de escritura como ruso, árabe, hindi y tailandés, por lo que puede usarse para automatizar el procesamiento de documentos a nivel global
  • Su estructura ligera reduce el uso de recursos de GPU y permite despliegue e integración sencillos mediante Docker, CLI y Python API
  • Supera a modelos multimodales de clase 72B en algunos apartados, y ofrece una solución multilingüe de procesamiento documental lista para aplicarse de inmediato en entornos reales

6 comentarios

 
helio 2025-10-21

¿Si es PaddleOCR, seguro que también hay lugares donde lo usan comercialmente, no?

 
tsboard 2025-10-21

Guau, no puede ser 😳😳😳 con esto hasta los documentos con tablas complejas se van a poder reconocer de inmediato.

 
xguru 2025-10-21

Según se comenta, supera por mucho incluso a algunos motores OCR comerciales.

 
yeorinhieut 2025-10-21

Parece que esta vez también salió DeepSeek OCR, así que tengo curiosidad por comparar el rendimiento.

 
yangeok 2025-10-21

Si puede manejar varios idiomas al mismo tiempo, sería lo máximo,,

 
forgotdonkey456 2025-10-21

Un comentario que más o menos especula que, si una empresa privada china ya puede sacar un modelo de este nivel, quizá la NSA tenga modelos de OCR aún mejores (o una locura total) para recopilar información.