Al desarrollar una herramienta que convierte páginas web a Markdown, hay preocupaciones sobre el manejo de carga y la sostenibilidad de un servicio gratuito
Al convertir una página web a Markdown, los problemas importantes son los siguientes:
Raspado exhaustivo del contenido de la página (alto recall)
Eliminación de anuncios/contenido auxiliar (alta precisión)
Extracción correcta del tipo de diseño/secciones (formato)
Las herramientas open source existentes (Trafilatura, Newspaper4k, python-readability, etc.) muestran un rendimiento por encima de cierto nivel. Hay curiosidad por saber cuáles son los puntos de diferenciación o mejoras
En sitios donde aparece un mensaje de cookies, existe el problema de que se parsea solo el contenido relacionado con cookies en lugar del contenido real (ej.: cnbc.com)
La idea de usar GPT para descargar y filtrar imágenes es buena
Presentación de herramientas similares:
url2text.com: puede extraer junto con HTML renderizado con JS, metadatos, capturas de pantalla, etc.
firecrawl.dev: ofrece funciones de rastreo de todo el sitio, no solo de una página individual
substack-ai.vercel.app: especializada en extraer contenido de newsletters de Substack
content-parser.com: soporta varios formatos como Markdown, HTML, texto, PDF, etc.
También es posible implementar una función similar con herramientas genéricas de conversión de documentos como pandoc
La mayoría de las herramientas están desarrolladas usando el proyecto readability de Mozilla
1 comentarios
Opiniones en Hacker News
En resumen, es lo siguiente:
Trafilatura,Newspaper4k,python-readability, etc.) muestran un rendimiento por encima de cierto nivel. Hay curiosidad por saber cuáles son los puntos de diferenciación o mejorascnbc.com)url2text.com: puede extraer junto con HTML renderizado con JS, metadatos, capturas de pantalla, etc.firecrawl.dev: ofrece funciones de rastreo de todo el sitio, no solo de una página individualsubstack-ai.vercel.app: especializada en extraer contenido de newsletters de Substackcontent-parser.com: soporta varios formatos como Markdown, HTML, texto, PDF, etc.pandocreadabilityde Mozilla