3 puntos por GN⁺ 2025-03-20 | 1 comentarios | Compartir por WhatsApp

Limitaciones del OCR (reconocimiento óptico de caracteres)

  • Los archivos PDF contienen datos importantes, como investigaciones científicas y registros gubernamentales, pero su formato fijo dificulta que las máquinas los lean y analicen
  • Como el PDF es un formato creado para ajustarse al diseño de impresión, no es adecuado para el análisis digital
  • Muchos PDF contienen imágenes de información, por lo que se necesita software OCR para convertirlas en datos
  • En el caso de documentos antiguos o escritos a mano, el rendimiento del OCR es aún peor

El problema de los datos no estructurados

  • Aproximadamente entre el 80% y el 90% de los datos de las organizaciones en todo el mundo se almacenan como datos no estructurados, y muchos están contenidos en PDF
  • La extracción de datos es especialmente difícil en diseños de dos columnas, tablas, gráficos y escaneos de baja calidad
  • Esto genera problemas importantes, en especial para la investigación científica, la preservación de documentos históricos, el servicio al cliente y el acceso a documentación técnica en sistemas de IA

Impacto por sector

  • Afecta la operación de instituciones públicas como registros gubernamentales, tribunales, policía y servicios sociales
  • En industrias dependientes de la información, como seguros y banca, convertir datos de PDF consume tiempo y recursos

Historia de la tecnología OCR

  • En la década de 1970, Ray Kurzweil desarrolló un sistema OCR comercial basado en algoritmos de coincidencia de patrones
  • La Kurzweil Reading Machine ofrecía reconocimiento de texto para personas con discapacidad visual
  • Los sistemas OCR tradicionales convierten caracteres reconociendo patrones de contraste y sombra
  • Su rendimiento cae ante fuentes complejas, diseños de múltiples columnas y tablas
  • El OCR tradicional tiene errores predecibles, lo que facilita corregirlos, pero sigue teniendo límites

El auge del OCR basado en IA

  • Los LLM multimodales (modelos de lenguaje de gran tamaño) integran imagen y texto para extraer datos
  • Modelos de OpenAI, Google y Meta pueden reconocer al mismo tiempo los elementos visuales del documento y el contexto del texto
  • Mientras que el OCR tradicional usa coincidencia de patrones a nivel de caracteres, la IA procesa el documento entendiendo su diseño y contexto
  • Textract de Amazon usa un enfoque OCR tradicional, pero los LLM pueden analizar documentos en un contexto más amplio
  • Manejan mejor diseños complejos, tablas y subtítulos

Nuevos intentos de OCR basado en LLM

  • La empresa francesa de IA Mistral lanzó Mistral OCR, una API de procesamiento de documentos basada en LLM
  • Su objetivo es extraer texto e imágenes de documentos con diseños complejos
  • Surgieron problemas de rendimiento: fallas al procesar tablas en documentos antiguos y errores numéricos
  • También hubo problemas al reconocer escritura manuscrita → la IA generó contenido inventado (alucinaciones)
  • Actualmente, Gemini 2.0 de Google ofrece el mejor rendimiento → presenta menos errores incluso en documentos complejos

Problemas del OCR basado en LLM

  • Como los LLM son modelos probabilísticos, la posibilidad de errores es alta
  • Cuando el diseño del documento se repite, puede ocurrir que se omitan líneas
  • Los LLM pueden fallar al distinguir entre el prompt del usuario y el contenido del documento, lo que lleva a interpretaciones incorrectas
  • Si se asignan valores incorrectos en una tabla, pueden producirse errores críticos → esto causa grandes problemas en finanzas, derecho y salud
  • El problema de generar texto inventado → hace necesaria la revisión humana

Retos hacia adelante

  • Aún no existe una solución OCR perfecta
  • Google, OpenAI y otras empresas están mejorando el rendimiento mediante productos de IA con comprensión de contexto
  • Las empresas de IA esperan obtener datos de entrenamiento extrayendo datos de los PDF
  • Si la IA llega a procesar perfectamente los datos en PDF, podría abrirse una nueva era para el análisis de datos

1 comentarios

 
sixmen 2025-03-20

"El PDF no es adecuado para el análisis digital porque es un formato creado para ajustarse al diseño de impresión"

Creo que HWP tiene un problema similar. Sigo pensando que HWP es un software excelente, pero en esencia es para publicación, así que analizarlo es difícil.

En cambio, Word es un desastre si quieres usarlo para producir materiales finales, pero justamente por eso te permite enfocarte en el contenido y, por lo mismo, creo que al final encajó mejor en la era de la web y la IA.