OCR4all - OCR para todos

(ocr4all.org)

39 puntos por GN⁺ 2025-02-15 | 1 comentarios | Compartir por WhatsApp

Completamente gratis y de código abierto. Sin suscripciones/funciones de pago/código oculto
Se puede aplicar de forma flexible, desde el procesamiento de alta calidad de manuscritos complejos hasta el reconocimiento masivo de texto completo de material impreso
Potente soporte para anotación de diseño y texto
- Usando el editor LAREX para anotar manualmente, corregir o comparar elementos de diseño y texto
Totalmente compatible con el ecosistema OCR-D
Diseño pensado para la usabilidad: se pueden crear flujos de trabajo complejos de OCR desde la UI sin usar código/CLI
Desarrollo multiplataforma sencillo: se puede ejecutar con Docker y un solo comando sin importar el tipo de OS

1 comentarios

GN⁺ 2025-02-15

Comentarios en Hacker News

Los pipelines de segmentación complejos eran necesarios hace unos años, pero ahora introducen muchos errores y le quitan contexto importante al modelo. Para pasar a la escritura manuscrita, se necesita contexto
- Para descifrar escritura manuscrita histórica, los expertos dirían que hace falta el documento completo
- Hay que llevar el reconocimiento de texto hasta el final, no solo el reconocimiento de caracteres
- Evaluar modelos con CER no es una buena idea
- El reconocimiento de texto está repitiendo los errores de la traducción automática de hace 15 años
OCR4all es software para la recuperación y el reconocimiento de texto digital de impresos de la primera modernidad
- Los tipos de impresión complejos y los diseños no uniformes ponen a prueba las capacidades del software común de reconocimiento de texto
- Parece estar construido sobre Calamari-OCR
OCR4all aborda de forma clara e intuitiva las necesidades de los usuarios no técnicos
- Hay instrucciones que dicen que abras una terminal en Linux y escribas comandos
- Queda la duda de cómo eso ayuda a usuarios no técnicos
El Vision Framework de Apple ofrece una biblioteca de reconocimiento de texto más rápida y precisa que Tesseract
- Puede procesar casi cualquier formato de imagen
- Se escribió una herramienta CLI simple y un wrapper de Python
Combinar Tesseract con un LLM para corregir errores y mejorar el formato es actualmente el punto óptimo en velocidad/eficiencia/precisión
- Se puede editar el texto del prompt en inglés para priorizar aspectos específicos del documento de entrada
Se desarrolló una API de OCR asistida por IA
- Combina Tesseract y Poppler-utils para extraer segmentos de documentos de forma inteligente
- Puede ampliarse fácilmente a varios modelos Vision LLM
- Entrega toda la API de agentes de IA como un contenedor Dockerized
Este flujo de trabajo consiste en digitalizar documentos impresos históricos
- Está relacionado con preservar avisos antiguos en tipografía blackletter
OCR4all ofrece un flujo de trabajo de reconocimiento automático de texto al combinar varias soluciones de código abierto
- Parece basarse en OCR-D, que a su vez se basa en Tesseract, Kraken, DUP-ocropy y Calamari-OCR
- Parece ser una alternativa de código abierto a Transkribus
- eScriptorium es otra alternativa
Hay curiosidad por saber si es un nuevo motor OCR SOTA o una herramienta que usa otros motores ya conocidos
- Ojalá la landing page fuera más clara
Aunque parecía que Tesseract ya había resuelto la mayor parte del OCR, se está buscando una biblioteca o implementación para la compresión MRC de PDFs resultantes
- Los productos comerciales son caros, y separar, comprimir y volver a combinar las capas de imagen es un problema difícil

OCR4all - OCR para todos

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News