- Herramienta que convierte sitios web de forma rápida y ligera a formatos Markdown y llms.txt, para ayudar a generar contexto para LLM que la IA pueda consultar
- Los convertidores tradicionales de HTML→Markdown no están pensados para LLM, por lo que consumen más tokens y son más lentos
- El núcleo de
mdream es un convertidor de HTML→Markdown optimizado para LLM que genera una salida optimizada con aprox. 50% menos tokens y puede convertir 1.4MB de HTML en unos 50ms a gran velocidad
- Biblioteca de 5kB gzip sin dependencias externas
- Con el paquete
@mdream/crawl se puede rastrear un sitio completo para generar llms.txt, llms-full.txt y archivos Markdown individuales, y conectarlo con herramientas de IA como Claude Code
- Puede ejecutarse en distintos entornos como CLI, Docker, GitHub Actions, Vite y Nuxt
- Con un sistema de plugins, permite agregar filtrado de contenido, transformación de nodos y comportamientos personalizados mediante hooks en el pipeline
- extractionPlugin: extrae elementos específicos usando selectores CSS, útil para análisis de datos
- filterPlugin: permite incluir o excluir elementos según selectores CSS o ID de etiquetas
- frontmatterPlugin: genera YAML frontmatter a partir de la información del
head HTML (title, meta, etc.)
- isolateMainPlugin: extrae solo el contenido principal usando el elemento
<main> o el rango entre header y footer
- tailwindPlugin: convierte clases de Tailwind CSS en formato Markdown (negritas, cursivas, etc.)
- readabilityPlugin: puntúa y extrae la legibilidad del contenido (función experimental)
1 comentarios
Lo probé, pero da error y no funciona correctamente. Publiqué un comentario en el issue correspondiente.