DeepSeek OCR
(github.com/deepseek-ai)Resumen en una línea
Propone y valida una compresión óptica de contexto que convierte documentos/registros de conversación en imágenes (tokens visuales) para reducir drásticamente el contexto del LLM (≈7–20×) y luego restaurarlo con precisión a texto (OCR). Combina un nuevo codificador visual (DeepEncoder) con un decodificador MoE de 3B para ofrecer rendimiento de parseo de documentos a nivel SOTA incluso con pocos tokens visuales.
Definición del problema
• En los LLM, el costo cuadrático crece a medida que aumenta la longitud.
• Si el texto de un documento se renderiza como imagen, la cantidad de tokens visuales es mucho menor que la de tokens de texto → si la restauración imagen→texto funciona bien, se logra una compresión de alta eficiencia.
• El OCR es un buen elemento experimental porque permite un mapeo natural de compresión/restauración entre visión↔texto y una evaluación cuantitativa.
Resumen del método
Arquitectura: DeepEncoder (codificador) + DeepSeek-3B-MoE-A570M (decodificador)
• DeepEncoder (núcleo)
• Está compuesto por dos etapas:
1. Bloque de percepción visual basado en atención por ventanas (familia SAM-base, ~80M) → baja memoria activa incluso en alta resolución
2. Tras reducir fuertemente la cantidad de tokens con un compresor convolucional 16×,
3. bloque de conocimiento visual basado en atención global (CLIP-large, eliminando el primer Patch embedding)
• Soporte multirresolución (modos): Tiny (64 tokens, 512²), Small (100, 640²), Base (256, 1024²), Large (400,1280²) +
Gundam (n mosaicos de 640² + vista global de 1024² → tokens = n×100+256),
Gundam-M (mosaicos de 1024² + global de 1280²)
• Concepto de tokens válidos (valid): se cuentan solo los tokens reales excluyendo los espacios en blanco generados por padding (definido mediante fórmula).
• Decodificador MoE: usa DeepSeek-3B-MoE (12 capas) para restaurar el texto original a partir de los tokens visuales comprimidos generados por el codificador.
Motor de datos y entrenamiento
• OCR 1.0 (OCR tradicional):
• 30 millones de páginas PDF de internet (aprox. 100 idiomas):
• Coarse: extraídas con fitz (para entrenamiento de reconocimiento óptico de texto)
• Fine: 2 millones de páginas en chino y 2 millones en inglés etiquetadas finamente con layout/OCR avanzado (cajas + texto intercalado), además de 3 millones de páginas de documentos Word
• OCR de escenas naturales: 10 millones de muestras en chino y 10 millones en inglés (etiquetas de PaddleOCR)
• OCR 2.0 (parseo de imágenes artificiales complejas):
• Gráficas (pyecharts/matplotlib): 10 millones de imágenes → etiquetadas como tablas HTML
• Fórmulas químicas: 5 millones renderizadas con RDKit a partir de PubChem SMILES
• Geometría plana: generación de datos al estilo Slow Perception (diccionario de segmentos, etc.)
• Visión general: mezcla de 100 millones de muestras de LAION para preentrenar el codificador
• Infraestructura de entrenamiento: 20 nodos (cada uno con 8×A100-40G), paralelismo de pipeline en 4 etapas (2 para el codificador, 2 para el decodificador), DP=40, batch global 640.
• Solo texto: 90B tok/día, multimodal: 70B tok/día
• Generación de datos en producción: con 20 nodos se pueden generar 33 millones de páginas por día
Resultados experimentales
-
Estudio de compresión óptica de contexto (Compression) — benchmark Fox (100 páginas en inglés, 600–1300 tokens)
• Con Small (100 tokens visuales), precisión y tasa de compresión (tokens de texto/tokens visuales):
• 600–700: 98.5%, 6.7×
• 700–800: 97.3%, 7.5×
• 800–900: 96.8%, 8.5×
• 900–1000: 96.8%, 9.7×
• 1000–1100: 91.5%, 10.6×
• 1100–1200: 89.8%, 11.3×
• 1200–1300: 87.1%, 12.6ו Resumen: con compresión de 9–10× se logra precisión de 96%+, con 10–12× ≈90%, y cerca de 20× ≈60%.
→ En torno a 10× se acerca a una compresión casi sin pérdida; por encima de eso, el rendimiento cae gradualmente por la complejidad del layout y el desenfoque por baja resolución. -
Parseo de documentos en escenarios reales (OmniDocBench) — distancia de edición (más bajo es mejor)
• Con solo 100 tokens (640²) supera a GOT-OCR2.0 (256 tokens)
• Con 400 tokens (1280²) queda al nivel del SOTA más reciente
• En modo Gundam (<800 tokens) supera a MinerU-2.0 (≈6,790 tokens)
→ La eficiencia de tokens es muy alta (mismo o mejor rendimiento con menos tokens visuales). -
Resultados cualitativos (funciones)
• Parseo profundo:
• gráficas → tablas HTML,
• fórmulas químicas → SMILES,
• figuras geométricas → estructuras predefinidas (segmentos/coordenadas/tipos, etc.)
• También permite preguntas y respuestas básicas sobre imágenes naturales
• Multilingüe: reconocimiento de PDFs en unos 100 idiomas (la salida con layout/sin layout se controla por prompt)
Implicaciones
• Demuestra que la compresión vía tokens visuales es una solución prometedora al problema del costo de contexto en LLM con entradas extremadamente largas.
• Propone una estrategia de decaimiento de memoria (memory decay) en la que el contexto reciente se mantiene en alta resolución y el historial antiguo se reduce progresivamente (↑ tasa de compresión) → una asignación de recursos similar a la curva del olvido humana.
• Optimización del presupuesto de tokens: ofrece lineamientos sobre la cantidad de tokens necesaria según la tarea/tipo de documento (para contenido de altísima densidad como periódicos se recomiendan los modos Gundam/M).
Limitaciones y trabajo futuro
• Por ahora está más cerca de una PoC basada en OCR, y el análisis de pérdidas de una verdadera tubería digital↔óptica↔digital requiere más investigación.
• Queda por mejorar la causa de la caída brusca del rendimiento más allá de 10× (layouts complejos, desenfoque por baja resolución).
• Hay cuestiones de alineación entre formato y benchmark (p. ej., diferencias de formato en la evaluación Fox podrían subestimar el rendimiento real).
Puntos clave
• DeepEncoder: atención por ventanas (baja activación) → compresión convolucional 16× → atención global (CLIP)
• La combinación de multirresolución + mosaicos + global (Gundam) equilibra ahorro de memoria/tokens y rendimiento
• Con ≈10× de compresión asegura ~96% de precisión de restauración → una pista para reducir drásticamente el costo de contexto
• OmniDocBench: se acerca o supera el SOTA con 100–800 tokens visuales
• Utilidad práctica que abarca gráficas, química, geometría y multilingüismo
3 comentarios
Vaya, qué impresionante jajaja. Pero entonces, al final, ¿si lo restauras no queda igual ese mismo token? ¿No solo se pueden ahorrar los tokens mientras están almacenados? Soy medio tonto para esto, así que no lo entiendo bien T.T ¿Alguien me lo puede explicar de forma fácil?
La idea de DeepSeek está muy buena.
DeepSeek OCR - modelo de OCR de ultraalta eficiencia mediante compresión del contexto visual
Consulta también la versión resumida por GN+ y los comentarios de Hacker News.