PaddleOCR-VL - OCR multilingüe con un modelo visión-lenguaje ultracompacto de 0.9B presentado por Baidu

xguru · 2025-10-21T09:31:02+09:00

Modelo visión-lenguaje (VLM) ultracompacto optimizado para análisis de documentos, compatible con 109 idiomas, incluido coreano, y capaz de reconocer con precisión elementos complejos como fórmulas, tablas, gráficos y escritura a mano El modelo principal, PaddleOCR-VL-0.9B, combina un codificador visual de resolución dinámica basado en NaViT con el modelo de lenguaje ERNIE-4.5-0.3B para lograr al mismo tiempo reconocimiento de alta precisión y velocidad de inferencia rápida Una arquitectura VLM pequeña pero potente que mantiene la eficiencia computacional mientras consigue un rendimiento de reconocimiento al nivel de modelos grandes existentes Registró SOTA (estado del arte) en OmniDocBench y otros benchmarks, superando a modelos previos basados en pipelines Además de coreano, chino, inglés y japonés, admite diversos sistemas de escritura como ruso, árabe, hindi y tailandés, por lo que puede usarse para automatizar el procesamiento de documentos a nivel global Su estructura ligera reduce el uso de recursos de GPU y permite despliegue e integración sencillos mediante Docker, CLI y Python API Supera a modelos multimodales de clase 72B en algunos apartados, y ofrece una solución multilingüe de procesamiento documental lista para aplicarse de inmediato en entornos reales

(huggingface.co)

43 puntos por xguru 2025-10-21 | 6 comentarios | Compartir por WhatsApp

Modelo visión-lenguaje (VLM) ultracompacto optimizado para análisis de documentos, compatible con 109 idiomas, incluido coreano, y capaz de reconocer con precisión elementos complejos como fórmulas, tablas, gráficos y escritura a mano
El modelo principal, PaddleOCR-VL-0.9B, combina un codificador visual de resolución dinámica basado en NaViT con el modelo de lenguaje ERNIE-4.5-0.3B para lograr al mismo tiempo reconocimiento de alta precisión y velocidad de inferencia rápida
Una arquitectura VLM pequeña pero potente que mantiene la eficiencia computacional mientras consigue un rendimiento de reconocimiento al nivel de modelos grandes existentes
Registró SOTA (estado del arte) en OmniDocBench y otros benchmarks, superando a modelos previos basados en pipelines
Además de coreano, chino, inglés y japonés, admite diversos sistemas de escritura como ruso, árabe, hindi y tailandés, por lo que puede usarse para automatizar el procesamiento de documentos a nivel global
Su estructura ligera reduce el uso de recursos de GPU y permite despliegue e integración sencillos mediante Docker, CLI y Python API
Supera a modelos multimodales de clase 72B en algunos apartados, y ofrece una solución multilingüe de procesamiento documental lista para aplicarse de inmediato en entornos reales

6 comentarios

helio 2025-10-21

¿Si es PaddleOCR, seguro que también hay lugares donde lo usan comercialmente, no?

tsboard 2025-10-21

Guau, no puede ser 😳😳😳 con esto hasta los documentos con tablas complejas se van a poder reconocer de inmediato.

xguru 2025-10-21

Según se comenta, supera por mucho incluso a algunos motores OCR comerciales.

yeorinhieut 2025-10-21

Parece que esta vez también salió DeepSeek OCR, así que tengo curiosidad por comparar el rendimiento.

yangeok 2025-10-21

Si puede manejar varios idiomas al mismo tiempo, sería lo máximo,,

forgotdonkey456 2025-10-21

Un comentario que más o menos especula que, si una empresa privada china ya puede sacar un modelo de este nivel, quizá la NSA tenga modelos de OCR aún mejores (o una locura total) para recopilar información.

PaddleOCR-VL - OCR multilingüe con un modelo visión-lenguaje ultracompacto de 0.9B presentado por Baidu

Lecturas relacionadas

6 comentarios