1 comentarios

 
GN⁺ 2024-04-15
Opiniones en Hacker News

En resumen, es lo siguiente:

  • Al desarrollar una herramienta que convierte páginas web a Markdown, hay preocupaciones sobre el manejo de carga y la sostenibilidad de un servicio gratuito
  • Al convertir una página web a Markdown, los problemas importantes son los siguientes:
    1. Raspado exhaustivo del contenido de la página (alto recall)
    2. Eliminación de anuncios/contenido auxiliar (alta precisión)
    3. Extracción correcta del tipo de diseño/secciones (formato)
  • Las herramientas open source existentes (Trafilatura, Newspaper4k, python-readability, etc.) muestran un rendimiento por encima de cierto nivel. Hay curiosidad por saber cuáles son los puntos de diferenciación o mejoras
  • En sitios donde aparece un mensaje de cookies, existe el problema de que se parsea solo el contenido relacionado con cookies en lugar del contenido real (ej.: cnbc.com)
  • La idea de usar GPT para descargar y filtrar imágenes es buena
  • Presentación de herramientas similares:
    • url2text.com: puede extraer junto con HTML renderizado con JS, metadatos, capturas de pantalla, etc.
    • firecrawl.dev: ofrece funciones de rastreo de todo el sitio, no solo de una página individual
    • substack-ai.vercel.app: especializada en extraer contenido de newsletters de Substack
    • content-parser.com: soporta varios formatos como Markdown, HTML, texto, PDF, etc.
  • También es posible implementar una función similar con herramientas genéricas de conversión de documentos como pandoc
  • La mayoría de las herramientas están desarrolladas usando el proyecto readability de Mozilla