Por qué sigue siendo difícil extraer datos de los PDF

(arstechnica.com)

3 puntos por GN⁺ 2025-03-20 | 1 comentarios | Compartir por WhatsApp

Limitaciones del OCR (reconocimiento óptico de caracteres)

Los archivos PDF contienen datos importantes, como investigaciones científicas y registros gubernamentales, pero su formato fijo dificulta que las máquinas los lean y analicen
Como el PDF es un formato creado para ajustarse al diseño de impresión, no es adecuado para el análisis digital
Muchos PDF contienen imágenes de información, por lo que se necesita software OCR para convertirlas en datos
En el caso de documentos antiguos o escritos a mano, el rendimiento del OCR es aún peor

El problema de los datos no estructurados

Aproximadamente entre el 80% y el 90% de los datos de las organizaciones en todo el mundo se almacenan como datos no estructurados, y muchos están contenidos en PDF
La extracción de datos es especialmente difícil en diseños de dos columnas, tablas, gráficos y escaneos de baja calidad
Esto genera problemas importantes, en especial para la investigación científica, la preservación de documentos históricos, el servicio al cliente y el acceso a documentación técnica en sistemas de IA

Impacto por sector

Afecta la operación de instituciones públicas como registros gubernamentales, tribunales, policía y servicios sociales
En industrias dependientes de la información, como seguros y banca, convertir datos de PDF consume tiempo y recursos

Historia de la tecnología OCR

En la década de 1970, Ray Kurzweil desarrolló un sistema OCR comercial basado en algoritmos de coincidencia de patrones
La Kurzweil Reading Machine ofrecía reconocimiento de texto para personas con discapacidad visual
Los sistemas OCR tradicionales convierten caracteres reconociendo patrones de contraste y sombra
Su rendimiento cae ante fuentes complejas, diseños de múltiples columnas y tablas
El OCR tradicional tiene errores predecibles, lo que facilita corregirlos, pero sigue teniendo límites

El auge del OCR basado en IA

Los LLM multimodales (modelos de lenguaje de gran tamaño) integran imagen y texto para extraer datos
Modelos de OpenAI, Google y Meta pueden reconocer al mismo tiempo los elementos visuales del documento y el contexto del texto
Mientras que el OCR tradicional usa coincidencia de patrones a nivel de caracteres, la IA procesa el documento entendiendo su diseño y contexto
Textract de Amazon usa un enfoque OCR tradicional, pero los LLM pueden analizar documentos en un contexto más amplio
Manejan mejor diseños complejos, tablas y subtítulos

Nuevos intentos de OCR basado en LLM

La empresa francesa de IA Mistral lanzó Mistral OCR, una API de procesamiento de documentos basada en LLM
Su objetivo es extraer texto e imágenes de documentos con diseños complejos
Surgieron problemas de rendimiento: fallas al procesar tablas en documentos antiguos y errores numéricos
También hubo problemas al reconocer escritura manuscrita → la IA generó contenido inventado (alucinaciones)
Actualmente, Gemini 2.0 de Google ofrece el mejor rendimiento → presenta menos errores incluso en documentos complejos

Problemas del OCR basado en LLM

Como los LLM son modelos probabilísticos, la posibilidad de errores es alta
Cuando el diseño del documento se repite, puede ocurrir que se omitan líneas
Los LLM pueden fallar al distinguir entre el prompt del usuario y el contenido del documento, lo que lleva a interpretaciones incorrectas
Si se asignan valores incorrectos en una tabla, pueden producirse errores críticos → esto causa grandes problemas en finanzas, derecho y salud
El problema de generar texto inventado → hace necesaria la revisión humana

Retos hacia adelante

Aún no existe una solución OCR perfecta
Google, OpenAI y otras empresas están mejorando el rendimiento mediante productos de IA con comprensión de contexto
Las empresas de IA esperan obtener datos de entrenamiento extrayendo datos de los PDF
Si la IA llega a procesar perfectamente los datos en PDF, podría abrirse una nueva era para el análisis de datos

1 comentarios

sixmen 2025-03-20

"El PDF no es adecuado para el análisis digital porque es un formato creado para ajustarse al diseño de impresión"

Creo que HWP tiene un problema similar. Sigo pensando que HWP es un software excelente, pero en esencia es para publicación, así que analizarlo es difícil.

En cambio, Word es un desastre si quieres usarlo para producir materiales finales, pero justamente por eso te permite enfocarte en el contenido y, por lo mismo, creo que al final encajó mejor en la era de la web y la IA.