39 puntos por GN⁺ 2025-02-15 | 1 comentarios | Compartir por WhatsApp
  • Completamente gratis y de código abierto. Sin suscripciones/funciones de pago/código oculto
  • Se puede aplicar de forma flexible, desde el procesamiento de alta calidad de manuscritos complejos hasta el reconocimiento masivo de texto completo de material impreso
  • Potente soporte para anotación de diseño y texto
    • Usando el editor LAREX para anotar manualmente, corregir o comparar elementos de diseño y texto
  • Totalmente compatible con el ecosistema OCR-D
  • Diseño pensado para la usabilidad: se pueden crear flujos de trabajo complejos de OCR desde la UI sin usar código/CLI
  • Desarrollo multiplataforma sencillo: se puede ejecutar con Docker y un solo comando sin importar el tipo de OS

1 comentarios

 
GN⁺ 2025-02-15
Comentarios en Hacker News
  • Los pipelines de segmentación complejos eran necesarios hace unos años, pero ahora introducen muchos errores y le quitan contexto importante al modelo. Para pasar a la escritura manuscrita, se necesita contexto

    • Para descifrar escritura manuscrita histórica, los expertos dirían que hace falta el documento completo
    • Hay que llevar el reconocimiento de texto hasta el final, no solo el reconocimiento de caracteres
    • Evaluar modelos con CER no es una buena idea
    • El reconocimiento de texto está repitiendo los errores de la traducción automática de hace 15 años
  • OCR4all es software para la recuperación y el reconocimiento de texto digital de impresos de la primera modernidad

    • Los tipos de impresión complejos y los diseños no uniformes ponen a prueba las capacidades del software común de reconocimiento de texto
    • Parece estar construido sobre Calamari-OCR
  • OCR4all aborda de forma clara e intuitiva las necesidades de los usuarios no técnicos

    • Hay instrucciones que dicen que abras una terminal en Linux y escribas comandos
    • Queda la duda de cómo eso ayuda a usuarios no técnicos
  • El Vision Framework de Apple ofrece una biblioteca de reconocimiento de texto más rápida y precisa que Tesseract

    • Puede procesar casi cualquier formato de imagen
    • Se escribió una herramienta CLI simple y un wrapper de Python
  • Combinar Tesseract con un LLM para corregir errores y mejorar el formato es actualmente el punto óptimo en velocidad/eficiencia/precisión

    • Se puede editar el texto del prompt en inglés para priorizar aspectos específicos del documento de entrada
  • Se desarrolló una API de OCR asistida por IA

    • Combina Tesseract y Poppler-utils para extraer segmentos de documentos de forma inteligente
    • Puede ampliarse fácilmente a varios modelos Vision LLM
    • Entrega toda la API de agentes de IA como un contenedor Dockerized
  • Este flujo de trabajo consiste en digitalizar documentos impresos históricos

    • Está relacionado con preservar avisos antiguos en tipografía blackletter
  • OCR4all ofrece un flujo de trabajo de reconocimiento automático de texto al combinar varias soluciones de código abierto

    • Parece basarse en OCR-D, que a su vez se basa en Tesseract, Kraken, DUP-ocropy y Calamari-OCR
    • Parece ser una alternativa de código abierto a Transkribus
    • eScriptorium es otra alternativa
  • Hay curiosidad por saber si es un nuevo motor OCR SOTA o una herramienta que usa otros motores ya conocidos

    • Ojalá la landing page fuera más clara
  • Aunque parecía que Tesseract ya había resuelto la mayor parte del OCR, se está buscando una biblioteca o implementación para la compresión MRC de PDFs resultantes

    • Los productos comerciales son caros, y separar, comprimir y volver a combinar las capas de imagen es un problema difícil