41 puntos por xguru 2025-09-24 | 1 comentarios | Compartir por WhatsApp
  • Herramienta que convierte sitios web de forma rápida y ligera a formatos Markdown y llms.txt, para ayudar a generar contexto para LLM que la IA pueda consultar
  • Los convertidores tradicionales de HTML→Markdown no están pensados para LLM, por lo que consumen más tokens y son más lentos
  • El núcleo de mdream es un convertidor de HTML→Markdown optimizado para LLM que genera una salida optimizada con aprox. 50% menos tokens y puede convertir 1.4MB de HTML en unos 50ms a gran velocidad
    • Biblioteca de 5kB gzip sin dependencias externas
  • Con el paquete @mdream/crawl se puede rastrear un sitio completo para generar llms.txt, llms-full.txt y archivos Markdown individuales, y conectarlo con herramientas de IA como Claude Code
  • Puede ejecutarse en distintos entornos como CLI, Docker, GitHub Actions, Vite y Nuxt
  • Con un sistema de plugins, permite agregar filtrado de contenido, transformación de nodos y comportamientos personalizados mediante hooks en el pipeline
    • extractionPlugin: extrae elementos específicos usando selectores CSS, útil para análisis de datos
    • filterPlugin: permite incluir o excluir elementos según selectores CSS o ID de etiquetas
    • frontmatterPlugin: genera YAML frontmatter a partir de la información del head HTML (title, meta, etc.)
    • isolateMainPlugin: extrae solo el contenido principal usando el elemento <main> o el rango entre header y footer
    • tailwindPlugin: convierte clases de Tailwind CSS en formato Markdown (negritas, cursivas, etc.)
    • readabilityPlugin: puntúa y extrae la legibilidad del contenido (función experimental)

1 comentarios

 
tensun 2025-09-24

Lo probé, pero da error y no funciona correctamente. Publiqué un comentario en el issue correspondiente.