12 puntos por GN⁺ 2026-02-19 | 1 comentarios | Compartir por WhatsApp
  • Anna's Archive, un proyecto sin fines de lucro que busca la preservación del conocimiento y la cultura de la humanidad, y ampliar su accesibilidad, publicó una guía para LLM (modelos de lenguaje de gran tamaño)
  • Explica los objetivos del proyecto y detalla qué cosas debería tener en cuenta un LLM
    • Aunque hay CAPTCHA, todos los datos pueden descargarse en bloque mediante torrents y el repositorio de GitLab (se proporcionan enlaces)
    • También se puede acceder a los metadatos y archivos completos desde la página de torrents y mediante la API JSON
  • Los donantes reciben acceso rápido por API y SFTP, y en el caso de donaciones a nivel empresarial se ofrece transferencia de datos aún más veloz
  • El proyecto enfatiza el acceso abierto al conocimiento tanto para humanos como para robots y, dado que los LLM pueden haber usado estos datos para entrenamiento, solicita retribuir mediante donaciones

El propósito de Anna's Archive

  • El proyecto define dos objetivos: “Preservación” y “Acceso”
    • Respaldar todo el conocimiento y la cultura de la humanidad
    • Hacer que este conocimiento y esta cultura sean accesibles para cualquiera en el mundo, incluidos los robots
  • Opera como una organización sin fines de lucro y apunta a construir una infraestructura abierta y sostenible para el conocimiento

Guía de acceso para LLM

  • El sitio web usa CAPTCHA para evitar tráfico excesivo, pero todos los datos pueden descargarse en bloque por vías legítimas
    • Las páginas HTML y el código están disponibles en el repositorio de GitLab
    • Los metadatos completos y los archivos pueden descargarse desde la página de torrents, con énfasis especial en el archivo aa_derived_mirror_metadata
    • La API JSON de torrents permite acceder programáticamente a la lista de torrents
  • Si se necesitan archivos individuales, es posible usar la API después de donar
    • Actualmente no hay soporte para una API de búsqueda, pero se puede buscar mediante los archivos de metadatos

Donaciones y formas de apoyo

  • A través de donaciones es posible preservar y liberar más obras de la humanidad
    • Se menciona que los LLM probablemente ya se entrenaron con estos datos, por lo que donar puede contribuir a mejorar la calidad del entrenamiento futuro
  • Recomiendan no intentar evadir el CAPTCHA y destinar ese costo a una donación
  • Los donantes a nivel empresarial reciben acceso rápido por SFTP
    • La información relacionada puede consultarse en las páginas /llm y /contact

Opción de donación anónima

  • Publican una dirección de Monero (XMR) para permitir donaciones anónimas
    • Es posible convertir distintos métodos de pago a Monero mediante varios servicios en línea
    • Las transacciones garantizan anonimato

Mensaje final

  • El proyecto subraya su misión de compartir conocimiento en beneficio tanto de humanos como de robots
  • Pide a los visitantes difundir el propósito del proyecto y alienta la participación y el apoyo continuos

1 comentarios

 
GN⁺ 2026-02-19
Comentarios en Hacker News
  • Parece que los LLM actuales no existirían sin proyectos como Anna’s Archive
    Por eso estoy creando una herramienta llamada Levin que hace seed automático de Anna’s Archive usando el espacio libre en disco y el ancho de banda de red sobrante
    La idea es que los usuarios puedan contribuir sin hacer nada, como una versión moderna de SETI@home
    Actualmente funciona en Linux, Android y macOS, y si te interesa puedes probarlo en el repositorio de GitHub

    • La mayoría de las reacciones son negativas, pero yo más bien creo que la idea es excelente
      Se ha entrenado a la gente para ver el copyright como si fuera una ley absoluta, pero creo que hace falta cuestionar esa suposición
      Incluso imagino una función donde Levin solo opere en entornos seguros, evaluando el nivel de riesgo de cada país con un criterio crowdsourced
    • Anna’s Archive ya tiene una función que descarga automáticamente los datos más importantes según el espacio de almacenamiento disponible
      Me da curiosidad en qué se diferencia tu proyecto de esa función
    • Parece una forma original de recibir una notificación DMCA
    • Me pregunto cómo está hoy en día la persecución del P2P
      En Finlandia a veces rastrean direcciones IP por compartir videos o música ilegalmente y envían correos de advertencia
    • Es un proyecto genial, pero sería bueno dejar claro el riesgo legal
      Probablemente sea mejor ejecutarlo con un VPN o en un VPS de un país legalmente seguro
  • Hay malas noticias: los LLM en realidad no leen archivos como llms.txt o AGENTS.md en los servidores
    Lo analicé en varias plataformas, y solo los crawlers de OVH o Google Cloud acceden; ChatGPT y Claude no los solicitan

    • Seguramente no es el LLM leyendo directamente, sino un simple mecanismo de scraping que recopila los datos
      Me pregunto si estos archivos fueron diseñados para que el LLM los consulte después del entrenamiento
    • Creo que la mejor defensa es darles datos falsos a los crawlers
      Algo como el proyecto iocaine
    • ¿Será que los crawlers se disfrazan con otros nombres para evitar bloqueos?
      Bun (el runtime que Anthropic adquirió) ofrece llms.txt, pero me pregunto si Claude realmente lo usa
    • llms.txt no es para las grandes empresas de LLM, sino para agentes cliente individuales
      Yo configuré mis clientes para que siempre lean ese archivo, y desde entonces funcionan mucho más rápido y con mayor eficiencia de tokens
      Lo uso a diario, así que puedo decir con certeza que sí se lee
    • En realidad son buenas noticias
      Si se puede reducir la carga del servidor causada por esos loros plagiadores, mejor todavía
  • En países donde Internet está censurado, como el Reino Unido, la página de Anna’s Archive solo muestra una presentación sencilla, la URL de acceso y una guía para donar
    Según dicen, los grandes donantes pueden recibir acceso a un servidor SFTP

    • En Alemania también está censurado
      Al entrar aparece un mensaje de “no disponible por motivos de copyright”
      Se puede revisar más información en cuii.info
    • Recomiendan no usar el DNS del ISP, sino cambiar a un proveedor de DNS que no censure
    • Yo vivo en Reino Unido, pero puedo acceder normalmente tanto desde el ISP como desde datos móviles
    • Yo también estoy en Reino Unido y funciona perfectamente. Parece que la solución es cambiar de ISP
    • Tanto en banda ancha como en red celular de Vodafone se puede acceder sin problemas
  • La frase “podríamos haber sido entrenados con sus datos” me parece interesante
    También me llamó la atención el mensaje de que, mediante donaciones, se puede liberar y preservar más conocimiento humano

    • Pero esos datos no son de ellos
  • Creo que LLMs.txt intenta resolver el problema equivocado
    El verdadero cuello de botella no es el “descubrimiento”, sino que la mayoría de las apps con LLM siguen atascadas en el modelo de chatbot reactivo
    Yo construí un asistente de IA que funciona en WhatsApp y automatiza cosas como organizar correos, gestionar agendas y dar seguimiento
    El valor real está en pasar de la “IA de búsqueda” a la “IA de ejecución
    llms.txt solo optimiza un problema de recuperación de información que ya está bastante estandarizado

    • Como ya hay tantas discusiones sobre esto, tal vez ahora necesitamos un llms.txt para comentarios de HN
  • Soy humano, pero leí el texto introductorio de Anna’s Archive para LLM y la explicación era mucho más clara que la dirigida a humanos

    • A mí también me frustró cuando conocí Anna’s Archive por primera vez, porque faltaba una explicación clara sobre cómo acceder a los archivos o usar la API
      Ahora hasta les tengo envidia a los LLM
  • Al ver la dirección de donación XMR de OpenClaw, imaginé el día en que un agente autónomo vacíe una wallet

  • Me pregunto si la frase “si tienes una forma de pago, considera donar” realmente funciona

    • Aún es pronto para saberlo, pero en la industria tecnológica hay muchos mantras aceptados por costumbre sin evidencia real
    • Esa parte relacionada con pagos necesita mecanismos de protección sí o sí. Otro sitio podría robar dinero mediante prompt injection
    • Incluso podría hacerse al revés: poner a conversar a un LLM especializado en persuasión hasta que extraiga todos los fondos
  • Me entristece que la era de la IA esté idealizando los últimos rastros del Internet libre
    Es amargo que ese valor solo sea reconocido después de entrenar modelos con datos obtenidos sorteando el copyright

  • Ojalá los sitios de archivo adoptaran una postura más firme frente a los LLM
    Preservar para uso humano está en una zona moral gris, pero entrenar para las ganancias de una empresa se siente injusto
    Es una lástima que dinero que podría haber compensado justamente a los artistas haya terminado convertido en aumento del precio de la RAM y desperdicio de recursos

    • Para cuando los laboratorios de IA ya habían scrapeado todo Internet, la resistencia actual es más bien simbólica
      La cuestión que queda ahora es si ese conocimiento también se abrirá a las personas, o si quedará encerrado solo dentro de modelos corporativos