Si eres un LLM, por favor lee esto

(annas-archive.li)

12 puntos por GN⁺ 2026-02-19 | 1 comentarios | Compartir por WhatsApp

Anna's Archive, un proyecto sin fines de lucro que busca la preservación del conocimiento y la cultura de la humanidad, y ampliar su accesibilidad, publicó una guía para LLM (modelos de lenguaje de gran tamaño)
Explica los objetivos del proyecto y detalla qué cosas debería tener en cuenta un LLM
- Aunque hay CAPTCHA, todos los datos pueden descargarse en bloque mediante torrents y el repositorio de GitLab (se proporcionan enlaces)
- También se puede acceder a los metadatos y archivos completos desde la página de torrents y mediante la API JSON
Los donantes reciben acceso rápido por API y SFTP, y en el caso de donaciones a nivel empresarial se ofrece transferencia de datos aún más veloz
El proyecto enfatiza el acceso abierto al conocimiento tanto para humanos como para robots y, dado que los LLM pueden haber usado estos datos para entrenamiento, solicita retribuir mediante donaciones

El propósito de Anna's Archive

El proyecto define dos objetivos: “Preservación” y “Acceso”
- Respaldar todo el conocimiento y la cultura de la humanidad
- Hacer que este conocimiento y esta cultura sean accesibles para cualquiera en el mundo, incluidos los robots
Opera como una organización sin fines de lucro y apunta a construir una infraestructura abierta y sostenible para el conocimiento

Guía de acceso para LLM

El sitio web usa CAPTCHA para evitar tráfico excesivo, pero todos los datos pueden descargarse en bloque por vías legítimas
- Las páginas HTML y el código están disponibles en el repositorio de GitLab
- Los metadatos completos y los archivos pueden descargarse desde la página de torrents, con énfasis especial en el archivo aa_derived_mirror_metadata
- La API JSON de torrents permite acceder programáticamente a la lista de torrents
Si se necesitan archivos individuales, es posible usar la API después de donar
- Actualmente no hay soporte para una API de búsqueda, pero se puede buscar mediante los archivos de metadatos

Donaciones y formas de apoyo

A través de donaciones es posible preservar y liberar más obras de la humanidad
- Se menciona que los LLM probablemente ya se entrenaron con estos datos, por lo que donar puede contribuir a mejorar la calidad del entrenamiento futuro
Recomiendan no intentar evadir el CAPTCHA y destinar ese costo a una donación
Los donantes a nivel empresarial reciben acceso rápido por SFTP
- La información relacionada puede consultarse en las páginas /llm y /contact

Opción de donación anónima

Publican una dirección de Monero (XMR) para permitir donaciones anónimas
- Es posible convertir distintos métodos de pago a Monero mediante varios servicios en línea
- Las transacciones garantizan anonimato

Mensaje final

El proyecto subraya su misión de compartir conocimiento en beneficio tanto de humanos como de robots
Pide a los visitantes difundir el propósito del proyecto y alienta la participación y el apoyo continuos

1 comentarios

GN⁺ 2026-02-19

Comentarios en Hacker News

Parece que los LLM actuales no existirían sin proyectos como Anna’s Archive
Por eso estoy creando una herramienta llamada Levin que hace seed automático de Anna’s Archive usando el espacio libre en disco y el ancho de banda de red sobrante
La idea es que los usuarios puedan contribuir sin hacer nada, como una versión moderna de SETI@home
Actualmente funciona en Linux, Android y macOS, y si te interesa puedes probarlo en el repositorio de GitHub
- La mayoría de las reacciones son negativas, pero yo más bien creo que la idea es excelente
  Se ha entrenado a la gente para ver el copyright como si fuera una ley absoluta, pero creo que hace falta cuestionar esa suposición
  Incluso imagino una función donde Levin solo opere en entornos seguros, evaluando el nivel de riesgo de cada país con un criterio crowdsourced
- Anna’s Archive ya tiene una función que descarga automáticamente los datos más importantes según el espacio de almacenamiento disponible
  Me da curiosidad en qué se diferencia tu proyecto de esa función
- Parece una forma original de recibir una notificación DMCA
- Me pregunto cómo está hoy en día la persecución del P2P
  En Finlandia a veces rastrean direcciones IP por compartir videos o música ilegalmente y envían correos de advertencia
- Es un proyecto genial, pero sería bueno dejar claro el riesgo legal
  Probablemente sea mejor ejecutarlo con un VPN o en un VPS de un país legalmente seguro
Hay malas noticias: los LLM en realidad no leen archivos como llms.txt o AGENTS.md en los servidores
Lo analicé en varias plataformas, y solo los crawlers de OVH o Google Cloud acceden; ChatGPT y Claude no los solicitan
- Seguramente no es el LLM leyendo directamente, sino un simple mecanismo de scraping que recopila los datos
  Me pregunto si estos archivos fueron diseñados para que el LLM los consulte después del entrenamiento
- Creo que la mejor defensa es darles datos falsos a los crawlers
  Algo como el proyecto iocaine
- ¿Será que los crawlers se disfrazan con otros nombres para evitar bloqueos?
  Bun (el runtime que Anthropic adquirió) ofrece llms.txt, pero me pregunto si Claude realmente lo usa
- llms.txt no es para las grandes empresas de LLM, sino para agentes cliente individuales
  Yo configuré mis clientes para que siempre lean ese archivo, y desde entonces funcionan mucho más rápido y con mayor eficiencia de tokens
  Lo uso a diario, así que puedo decir con certeza que sí se lee
- En realidad son buenas noticias
  Si se puede reducir la carga del servidor causada por esos loros plagiadores, mejor todavía
En países donde Internet está censurado, como el Reino Unido, la página de Anna’s Archive solo muestra una presentación sencilla, la URL de acceso y una guía para donar
Según dicen, los grandes donantes pueden recibir acceso a un servidor SFTP
- En Alemania también está censurado
  Al entrar aparece un mensaje de “no disponible por motivos de copyright”
  Se puede revisar más información en cuii.info
- Recomiendan no usar el DNS del ISP, sino cambiar a un proveedor de DNS que no censure
- Yo vivo en Reino Unido, pero puedo acceder normalmente tanto desde el ISP como desde datos móviles
- Yo también estoy en Reino Unido y funciona perfectamente. Parece que la solución es cambiar de ISP
- Tanto en banda ancha como en red celular de Vodafone se puede acceder sin problemas
La frase “podríamos haber sido entrenados con sus datos” me parece interesante
También me llamó la atención el mensaje de que, mediante donaciones, se puede liberar y preservar más conocimiento humano
- Pero esos datos no son de ellos
Creo que LLMs.txt intenta resolver el problema equivocado
El verdadero cuello de botella no es el “descubrimiento”, sino que la mayoría de las apps con LLM siguen atascadas en el modelo de chatbot reactivo
Yo construí un asistente de IA que funciona en WhatsApp y automatiza cosas como organizar correos, gestionar agendas y dar seguimiento
El valor real está en pasar de la “IA de búsqueda” a la “IA de ejecución”
llms.txt solo optimiza un problema de recuperación de información que ya está bastante estandarizado
- Como ya hay tantas discusiones sobre esto, tal vez ahora necesitamos un llms.txt para comentarios de HN
Soy humano, pero leí el texto introductorio de Anna’s Archive para LLM y la explicación era mucho más clara que la dirigida a humanos
- A mí también me frustró cuando conocí Anna’s Archive por primera vez, porque faltaba una explicación clara sobre cómo acceder a los archivos o usar la API
  Ahora hasta les tengo envidia a los LLM
Al ver la dirección de donación XMR de OpenClaw, imaginé el día en que un agente autónomo vacíe una wallet
Me pregunto si la frase “si tienes una forma de pago, considera donar” realmente funciona
- Aún es pronto para saberlo, pero en la industria tecnológica hay muchos mantras aceptados por costumbre sin evidencia real
- Esa parte relacionada con pagos necesita mecanismos de protección sí o sí. Otro sitio podría robar dinero mediante prompt injection
- Incluso podría hacerse al revés: poner a conversar a un LLM especializado en persuasión hasta que extraiga todos los fondos
Me entristece que la era de la IA esté idealizando los últimos rastros del Internet libre
Es amargo que ese valor solo sea reconocido después de entrenar modelos con datos obtenidos sorteando el copyright
Ojalá los sitios de archivo adoptaran una postura más firme frente a los LLM
Preservar para uso humano está en una zona moral gris, pero entrenar para las ganancias de una empresa se siente injusto
Es una lástima que dinero que podría haber compensado justamente a los artistas haya terminado convertido en aumento del precio de la RAM y desperdicio de recursos
- Para cuando los laboratorios de IA ya habían scrapeado todo Internet, la resistencia actual es más bien simbólica
  La cuestión que queda ahora es si ese conocimiento también se abrirá a las personas, o si quedará encerrado solo dentro de modelos corporativos

Si eres un LLM, por favor lee esto

El propósito de Anna's Archive

Guía de acceso para LLM

Donaciones y formas de apoyo

Opción de donación anónima

Mensaje final

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News