56 puntos por xguru 2026-03-16 | 8 comentarios | Compartir por WhatsApp
  • Un parser de contenido que elimina comentarios, barras laterales, encabezados y pies de página innecesarios de una página web, y extrae solo el contenido principal depurado en HTML/Markdown
  • En videos de YouTube, extrae el diálogo separado por hablante (desde la versión 0.12.0)
  • Fue desarrollado para Obsidian Web Clipper, pero puede usarse en diversos entornos como navegador y Node.js
  • Diseñado como reemplazo de Mozilla Readability para ofrecer un procesamiento más flexible y una salida más consistente
    • Minimiza la eliminación de elementos inciertos
    • Soporta salida estandarizada para notas al pie, fórmulas, bloques de código, etc.
    • Detecta elementos innecesarios mediante análisis de estilos móviles
    • Extrae automáticamente más metadatos, incluidos los de schema.org
  • Soporta una interfaz CLI, por lo que permite analizar HTML y URL directamente desde la terminal
  • Licencia MIT

8 comentarios

 
xguru 2026-03-16

Defuddle - Open source de HTML a Markdown que reemplaza a Readability
Ya había aparecido una vez hace 10 meses, pero esta vez se añadió una función para extraer el diálogo de videos de YouTube separando a los hablantes.
Y mientras tanto también se agregaron muchas funciones, como extracción asíncrona de URL de X, extracción de artículos, soporte para la app de Substack, incorporación de CLI y soporte para URL de GitHub.

 
tested 2026-03-16

Ojalá que a los enlaces internos de GeekNews se les pusiera el título automáticamente...

 
xguru 2026-03-16

Ya lo dejé corregido. A partir de ahora, los comentarios que se publiquen tendrán el título convertido automáticamente.

 
tested 2026-03-16

Guau, gracias.

 
crawler 2026-03-16

Vaya, así que sí se podía hacer tan directo, qué impresionante. A mí también me había resultado incómodo alguna vez, debí haberlo comentado.

 
shakespeares 2026-03-16

Parece que el Markdown se extrae de forma un poco inconsistente. Da la impresión de que solo se extrae bien cuando la página web está muy bien optimizada para SEO. ¿Es así?

 
dbs0829 2026-03-16

Cuando lo combinas con Claude Code, queda realmente muy bien.