mdream - convierte cualquier sitio a Markdown limpio y llms.txt
(github.com/harlan-zw)- Herramienta que convierte sitios web de forma rápida y ligera a formatos Markdown y llms.txt, para ayudar a generar contexto para LLM que la IA pueda consultar
- Los convertidores tradicionales de HTML→Markdown no están pensados para LLM, por lo que consumen más tokens y son más lentos
- El núcleo de
mdreames un convertidor de HTML→Markdown optimizado para LLM que genera una salida optimizada con aprox. 50% menos tokens y puede convertir 1.4MB de HTML en unos 50ms a gran velocidad- Biblioteca de 5kB gzip sin dependencias externas
- Con el paquete
@mdream/crawlse puede rastrear un sitio completo para generar llms.txt, llms-full.txt y archivos Markdown individuales, y conectarlo con herramientas de IA como Claude Code - Puede ejecutarse en distintos entornos como CLI, Docker, GitHub Actions, Vite y Nuxt
- Con un sistema de plugins, permite agregar filtrado de contenido, transformación de nodos y comportamientos personalizados mediante hooks en el pipeline
- extractionPlugin: extrae elementos específicos usando selectores CSS, útil para análisis de datos
- filterPlugin: permite incluir o excluir elementos según selectores CSS o ID de etiquetas
- frontmatterPlugin: genera YAML frontmatter a partir de la información del
headHTML (title,meta, etc.) - isolateMainPlugin: extrae solo el contenido principal usando el elemento
<main>o el rango entreheaderyfooter - tailwindPlugin: convierte clases de Tailwind CSS en formato Markdown (negritas, cursivas, etc.)
- readabilityPlugin: puntúa y extrae la legibilidad del contenido (función experimental)
1 comentarios
Lo probé, pero da error y no funciona correctamente. Publiqué un comentario en el issue correspondiente.