9 puntos por GN⁺ 2024-11-10 | 1 comentarios | Compartir por WhatsApp
  • Una herramienta potente para convertir HTML en Markdown limpio y fácil de leer
  • Soporta formatos complejos y permite controlar por completo el proceso de conversión mediante opciones personalizadas y plugins
  • Se puede usar como librería de Golang o mediante comandos CLI, o probar directamente a través de una demo en línea o una API REST

Funciones principales

  • Bold & Italic: soporta negritas y cursivas incluso dentro de una palabra
  • List: soporta perfectamente listas ordenadas y no ordenadas con anidación completa
  • Blockquote: puede incluir otros elementos dentro de citas y también soporta citas anidadas de forma fluida
  • Inline Code & Code Block: maneja correctamente las comillas invertidas y los bloques de código multilínea para conservar la estructura del código
  • Link & Image: da formato correctamente a enlaces de varias líneas y agrega escape para líneas vacías
  • Smart Escaping: escapa caracteres especiales solo cuando es necesario para evitar un renderizado no intencional de Markdown
  • Remove/Keep HTML: ofrece la opción de eliminar o conservar etiquetas HTML específicas
  • Plugin: permite ampliar plugins fácilmente o crear plugins personalizados para mejorar la funcionalidad
    • Si se necesita lógica personalizada, se puede escribir código y registrarlo
    • Si la configuración predeterminada no te convence, puedes usar PriorityEarly para ejecutar la lógica antes que las demás
  • Converter se puede usar desde múltiples goroutines y utiliza un mutex internamente

1 comentarios

 
GN⁺ 2024-11-10
Comentarios en Hacker News
  • Con la API gratuita de Jina.ai, puedes obtener una URL y recibir un documento en Markdown sin autenticación ni API key

    • No puede procesar algunos sitios web, pero en la mayoría de los casos puede hacer el 90% del trabajo
    • Se puede usar Pandoc para convertir HTML a Markdown
  • Me pregunto si esta herramienta con licencia MIT podría usarse como alternativa a p2k, Instapaper y otros para leer en Kindle

    • Estos servicios tienen renderizado impreciso y exigen una suscripción
    • Si el proyecto se mantiene activamente, podría probarlo con varios artículos y reportar problemas
  • Uso esta librería en una función Lambda para convertir URLs a Markdown y guardarlos en S3

    • La conecté por webhook a todas mis apps de marcadores para guardar en Markdown todo lo que marco
    • Es cómodo para importarlo a Obsidian
  • Es útil para proporcionar datos de páginas web a un LLM

    • Hice una herramienta similar para el mundo de Elixir, pero es limitada
    • Podría tomar prestada la idea
  • Estaría bien que la herramienta tuviera una función de eliminación de duplicados por n-gramas

    • Hace falta una función para eliminar contenido repetido en headers y footers
  • Con Urlbox puedes obtener capturas de pantalla exactas de una página web y también Markdown

    • Esta función se puede usar con una herramienta gratuita
  • RedditToMarkdown y urltomarkdown.com son útiles para crear apps de LLM e IA

  • Estoy buscando una librería similar para usar en una app de Kotlin/Spring

    • Al convertir de HTML a Markdown, la cadena del documento HTML ya está limpia
  • Una de las dificultades al usar esta herramienta es manejar bloques de código con resaltado de sintaxis

    • Me pregunto cómo funciona html-to-markdown en esos escenarios