- Anna's Archive, un proyecto sin fines de lucro que busca la preservación del conocimiento y la cultura de la humanidad, y ampliar su accesibilidad, publicó una guía para LLM (modelos de lenguaje de gran tamaño)
- Explica los objetivos del proyecto y detalla qué cosas debería tener en cuenta un LLM
- Aunque hay CAPTCHA, todos los datos pueden descargarse en bloque mediante torrents y el repositorio de GitLab (se proporcionan enlaces)
- También se puede acceder a los metadatos y archivos completos desde la página de torrents y mediante la API JSON
- Los donantes reciben acceso rápido por API y SFTP, y en el caso de donaciones a nivel empresarial se ofrece transferencia de datos aún más veloz
- El proyecto enfatiza el acceso abierto al conocimiento tanto para humanos como para robots y, dado que los LLM pueden haber usado estos datos para entrenamiento, solicita retribuir mediante donaciones
El propósito de Anna's Archive
- El proyecto define dos objetivos: “Preservación” y “Acceso”
- Respaldar todo el conocimiento y la cultura de la humanidad
- Hacer que este conocimiento y esta cultura sean accesibles para cualquiera en el mundo, incluidos los robots
- Opera como una organización sin fines de lucro y apunta a construir una infraestructura abierta y sostenible para el conocimiento
Guía de acceso para LLM
- El sitio web usa CAPTCHA para evitar tráfico excesivo, pero todos los datos pueden descargarse en bloque por vías legítimas
- Las páginas HTML y el código están disponibles en el repositorio de GitLab
- Los metadatos completos y los archivos pueden descargarse desde la página de torrents, con énfasis especial en el archivo
aa_derived_mirror_metadata
- La API JSON de torrents permite acceder programáticamente a la lista de torrents
- Si se necesitan archivos individuales, es posible usar la API después de donar
- Actualmente no hay soporte para una API de búsqueda, pero se puede buscar mediante los archivos de metadatos
Donaciones y formas de apoyo
- A través de donaciones es posible preservar y liberar más obras de la humanidad
- Se menciona que los LLM probablemente ya se entrenaron con estos datos, por lo que donar puede contribuir a mejorar la calidad del entrenamiento futuro
- Recomiendan no intentar evadir el CAPTCHA y destinar ese costo a una donación
- Los donantes a nivel empresarial reciben acceso rápido por SFTP
- La información relacionada puede consultarse en las páginas
/llm y /contact
Opción de donación anónima
- Publican una dirección de Monero (XMR) para permitir donaciones anónimas
- Es posible convertir distintos métodos de pago a Monero mediante varios servicios en línea
- Las transacciones garantizan anonimato
Mensaje final
- El proyecto subraya su misión de compartir conocimiento en beneficio tanto de humanos como de robots
- Pide a los visitantes difundir el propósito del proyecto y alienta la participación y el apoyo continuos
1 comentarios
Comentarios en Hacker News
Parece que los LLM actuales no existirían sin proyectos como Anna’s Archive
Por eso estoy creando una herramienta llamada Levin que hace seed automático de Anna’s Archive usando el espacio libre en disco y el ancho de banda de red sobrante
La idea es que los usuarios puedan contribuir sin hacer nada, como una versión moderna de SETI@home
Actualmente funciona en Linux, Android y macOS, y si te interesa puedes probarlo en el repositorio de GitHub
Se ha entrenado a la gente para ver el copyright como si fuera una ley absoluta, pero creo que hace falta cuestionar esa suposición
Incluso imagino una función donde Levin solo opere en entornos seguros, evaluando el nivel de riesgo de cada país con un criterio crowdsourced
Me da curiosidad en qué se diferencia tu proyecto de esa función
En Finlandia a veces rastrean direcciones IP por compartir videos o música ilegalmente y envían correos de advertencia
Probablemente sea mejor ejecutarlo con un VPN o en un VPS de un país legalmente seguro
Hay malas noticias: los LLM en realidad no leen archivos como llms.txt o AGENTS.md en los servidores
Lo analicé en varias plataformas, y solo los crawlers de OVH o Google Cloud acceden; ChatGPT y Claude no los solicitan
Me pregunto si estos archivos fueron diseñados para que el LLM los consulte después del entrenamiento
Algo como el proyecto iocaine
Bun (el runtime que Anthropic adquirió) ofrece llms.txt, pero me pregunto si Claude realmente lo usa
Yo configuré mis clientes para que siempre lean ese archivo, y desde entonces funcionan mucho más rápido y con mayor eficiencia de tokens
Lo uso a diario, así que puedo decir con certeza que sí se lee
Si se puede reducir la carga del servidor causada por esos loros plagiadores, mejor todavía
En países donde Internet está censurado, como el Reino Unido, la página de Anna’s Archive solo muestra una presentación sencilla, la URL de acceso y una guía para donar
Según dicen, los grandes donantes pueden recibir acceso a un servidor SFTP
Al entrar aparece un mensaje de “no disponible por motivos de copyright”
Se puede revisar más información en cuii.info
La frase “podríamos haber sido entrenados con sus datos” me parece interesante
También me llamó la atención el mensaje de que, mediante donaciones, se puede liberar y preservar más conocimiento humano
Creo que LLMs.txt intenta resolver el problema equivocado
El verdadero cuello de botella no es el “descubrimiento”, sino que la mayoría de las apps con LLM siguen atascadas en el modelo de chatbot reactivo
Yo construí un asistente de IA que funciona en WhatsApp y automatiza cosas como organizar correos, gestionar agendas y dar seguimiento
El valor real está en pasar de la “IA de búsqueda” a la “IA de ejecución”
llms.txt solo optimiza un problema de recuperación de información que ya está bastante estandarizado
Soy humano, pero leí el texto introductorio de Anna’s Archive para LLM y la explicación era mucho más clara que la dirigida a humanos
Ahora hasta les tengo envidia a los LLM
Al ver la dirección de donación XMR de OpenClaw, imaginé el día en que un agente autónomo vacíe una wallet
Me pregunto si la frase “si tienes una forma de pago, considera donar” realmente funciona
Me entristece que la era de la IA esté idealizando los últimos rastros del Internet libre
Es amargo que ese valor solo sea reconocido después de entrenar modelos con datos obtenidos sorteando el copyright
Ojalá los sitios de archivo adoptaran una postura más firme frente a los LLM
Preservar para uso humano está en una zona moral gris, pero entrenar para las ganancias de una empresa se siente injusto
Es una lástima que dinero que podría haber compensado justamente a los artistas haya terminado convertido en aumento del precio de la RAM y desperdicio de recursos
La cuestión que queda ahora es si ese conocimiento también se abrirá a las personas, o si quedará encerrado solo dentro de modelos corporativos