3 puntos por GN⁺ 2024-11-17 | 1 comentarios | Compartir por WhatsApp
  • Introducción al proyecto

    • Este proyecto es una herramienta que usa llama-ocr y Together AIOCR para convertir imágenes en Markdown estructurado.
    • Los usuarios pueden subir imágenes para extraer texto y convertirlo a formato Markdown.
  • Funciones principales

    • Ofrece una función de carga de imágenes.
    • Extrae texto de las imágenes y lo convierte a Markdown.
    • Proporciona imágenes de ejemplo para que los usuarios puedan probar la funcionalidad.
  • Ejemplo de código

    • Incluye un ejemplo de código que usa la biblioteca llama-ocr para extraer texto de una imagen.
    • Genera Markdown pasando la ruta del archivo de imagen y la API key a la función ocr.
  • Importancia del proyecto

    • Este proyecto mejora la eficiencia del trabajo con documentos al ofrecer una forma sencilla de extraer texto de imágenes y convertirlo a Markdown.
    • En comparación con las herramientas OCR existentes, ofrece facilidad de uso y conversión a Markdown.

1 comentarios

 
GN⁺ 2024-11-17
Comentarios en Hacker News
  • El autor de llama-ocr desarrolló una herramienta que convierte imágenes en Markdown estructurado mediante una API simple. Planea añadir soporte para parseo de PDF y salida en JSON más adelante

    • En el ejemplo del webtoon, se detectó un problema donde los diálogos en mayúsculas se mostraban de forma distinta en cada panel
    • Se usó para digitalizar diapositivas antiguas, y el color amarillo de las diapositivas en realidad se debía a un problema de balance de blancos
    • Como ejemplo de sesgo del modelo, identificó erróneamente la diapositiva como una antigüedad y generó un título incorrecto
    • No están documentados los límites de tamaño de archivo o resolución de la API
  • Se usó llama3.2-vision para procesar hojas de pujas de una subasta benéfica, y fue bastante preciso incluso con letra poco legible

    • Fue incómodo que no generara salida en CSV de forma consistente
    • Como la escala del problema era de unas 100 páginas, fue posible corregirlo manualmente
  • Los modelos OCR generales no son adecuados para digitalizar texto de fotos familiares, y Gemini Flash fue el mejor

    • Aun así, sigue habiendo muchos errores y hacerlo a mano es más rápido
  • Hay dudas sobre si es apropiado como publicación de "Show HN", y tiene poca relación con el nombre Llama

  • Se dibujó como un círculo real una frase generada con un algoritmo genético, pero no fue reconocida como texto

  • Se subió un PDF de varias páginas, pero se indicó que no es compatible

  • Se subió una captura de pantalla de HN, pero no se generó código Markdown

  • El OCR en japonés funciona bien a través de la API de ChatGPT

  • En un recibo de Walmart, el número 9 fue reconocido erróneamente como 0