- Un parser de contenido que elimina comentarios, barras laterales, encabezados y pies de página innecesarios de una página web, y extrae solo el contenido principal depurado en HTML/Markdown
- En videos de YouTube, extrae el diálogo separado por hablante (desde la versión 0.12.0)
- Fue desarrollado para Obsidian Web Clipper, pero puede usarse en diversos entornos como navegador y Node.js
- Diseñado como reemplazo de Mozilla Readability para ofrecer un procesamiento más flexible y una salida más consistente
- Minimiza la eliminación de elementos inciertos
- Soporta salida estandarizada para notas al pie, fórmulas, bloques de código, etc.
- Detecta elementos innecesarios mediante análisis de estilos móviles
- Extrae automáticamente más metadatos, incluidos los de schema.org
- Soporta una interfaz CLI, por lo que permite analizar HTML y URL directamente desde la terminal
- Licencia MIT
8 comentarios
Defuddle - Open source de HTML a Markdown que reemplaza a Readability
Ya había aparecido una vez hace 10 meses, pero esta vez se añadió una función para extraer el diálogo de videos de YouTube separando a los hablantes.
Y mientras tanto también se agregaron muchas funciones, como extracción asíncrona de URL de X, extracción de artículos, soporte para la app de Substack, incorporación de CLI y soporte para URL de GitHub.
Jina AI Reader - una herramienta que convierte URLs en entradas amigables para LLM
Ojalá que a los enlaces internos de GeekNews se les pusiera el título automáticamente...
Ya lo dejé corregido. A partir de ahora, los comentarios que se publiquen tendrán el título convertido automáticamente.
Guau, gracias.
Vaya, así que sí se podía hacer tan directo, qué impresionante. A mí también me había resultado incómodo alguna vez, debí haberlo comentado.
Parece que el Markdown se extrae de forma un poco inconsistente. Da la impresión de que solo se extrae bien cuando la página web está muy bien optimizada para SEO. ¿Es así?
Cuando lo combinas con Claude Code, queda realmente muy bien.