Internet Archive alcanza 1 billón de páginas web archivadas

(blog.archive.org)

4 puntos por GN⁺ 2025-10-07 | 1 comentarios | Compartir por WhatsApp

Internet Archive y su Wayback Machine alcanzaron un hito histórico al preservar 1 billón de páginas web de todo el mundo
Iniciado en 1996, este proyecto es una colaboración para preservar la memoria colectiva de la web, archivando contenidos diversos como noticias, blogs y páginas personales
Para conmemorarlo, durante todo octubre se realizará en San Francisco y en línea una serie de eventos, como conciertos, charlas, foros y jornadas de puertas abiertas
En los eventos participarán pioneros de internet como Tim Berners-Lee, creador de la web, Brewster Kahle, fundador de Internet Archive, y Vint Cerf de Google
Este logro invita a reflexionar sobre el valor de preservar el registro colectivo en la era digital y sirve como espacio para debatir juntos el futuro de una web libre y abierta

El significado de llegar a 1 billón de páginas en Internet Archive

Desde 1996, Wayback Machine recopila y preserva automáticamente sitios web de todo el mundo para que cualquiera pueda explorar la web del pasado
Alcanzar ahora 1 billón de registros representa un gran avance hacia la meta de ser una “biblioteca compartida de la historia en línea de la humanidad”
El proyecto se ha sostenido gracias a la colaboración global con bibliotecas, instituciones de investigación y voluntarios individuales
El archivo conserva titulares de noticias, blogs, foros y páginas personales como memoria digital para las generaciones futuras, resguardando huellas de la web que podrían desaparecer

Calendario de eventos conmemorativos de octubre

7 de octubre — The Vast Blue We: Del Sol Quartet at the Internet Archive

En la sede de San Francisco se realizará una presentación del Del Sol Quartet para celebrar, a través de la música, la magnitud de la colaboración humana
Se interpretarán nuevas composiciones de Erika Oba y Sam Reider
- La música buscará expresar la belleza de la colaboración en la web, creada por la suma de las acciones de miles de millones de personas

9 de octubre — Conversación entre Sir Tim Berners-Lee y Brewster Kahle

Diálogo entre Sir Tim Berners-Lee, creador de la World Wide Web, y Brewster Kahle, fundador de Internet Archive
Se abordarán diversos temas, como el crecimiento de internet, los cambios sociales y el papel del archivo de internet
Estará compuesto por una conversación profunda sobre la evolución continua de internet y los temas clave de su futuro
Se llevará a cabo en el Commonwealth Club de San Francisco y también se transmitirá en vivo en línea

16 de octubre — Library Leaders Forum 2025 (en línea)

Internet Archive y sus instituciones asociadas compartirán nuevos servicios bibliotecarios y el estado actual de proyectos existentes
Líderes de bibliotecas de todo el mundo participarán para debatir el futuro de la preservación digital y el apoyo a la investigación
También se presentarán nuevos servicios de Internet Archive y casos de apoyo a la investigación

21 de octubre — Doors Open 2025: recorrido por el archivo físico

Se abrirán al público las condiciones reales de resguardo de libros, música, video y películas en el archivo físico ubicado en Richmond, California
Habrá demostraciones del proceso de archivado físico de libros, música, películas y microfichas
Será una oportunidad para conocer directamente todo el ciclo de vida de los materiales físicos, desde la donación y preservación hasta la digitalización y la accesibilidad

22 de octubre — The Web We’ve Built: 1 Trillion Celebration

Evento oficial de celebración por las 1 billón de páginas web alcanzadas por Wayback Machine
Se realizará en simultáneo una fiesta global por streaming desde la sede de San Francisco
Bajo el tema “preservar 1 billón de recuerdos, momentos y movimientos”, se celebrará el valor de la web pública y la fuerza del registro colectivo

27 de octubre — Wayback to the Future: Celebrating the Open Web

Se llevará a cabo en la Riggs Library de la Universidad de Georgetown, en Washington D.C.
Organizado conjuntamente por Foundation for American Innovation, Massive Data Institute e Internet Archive
Además de recordar el valor de la web del pasado, abierta y experimental, también se debatirá la sostenibilidad de un ecosistema de internet libre y el futuro de la web en medio de las tendencias actuales hacia la concentración y el cierre
Participarán como ponentes Vint Cerf (Google), Cindy Cohn (EFF) y Jon Stokes (Ars Technica), entre otros

El futuro de la memoria digital

Archivar 1 billón de páginas web tiene un significado que va mucho más allá de una simple cifra
Estos datos han convertido a Wayback Machine en un recurso público clave en ámbitos como casos de inmigración, historias personales, investigación académica y periodismo de investigación
Internet Archive mantendrá su visión de una “biblioteca web pública accesible para todos”
Alcanzar 1 billón de páginas no es el final, sino un nuevo punto de partida, y también continuará la discusión sobre cómo acceder y preservar la información en la era de la IA
Brewster Kahle enfatizó que “la web que hemos construido juntos es un enorme registro de la inteligencia colectiva, y protegerla es una responsabilidad de la humanidad”

1 comentarios

GN⁺ 2025-10-07

Comentarios de Hacker News

Si pudiera pedir algo, sería una red de espejos P2P para archive.org; la aplicación web de IA tiende a bloquearte rápido cuando intentas hacer clic en varias fechas, y estaría genial que existiera una fuente alternativa donde el contenido de archive.org se replicara de forma distribuida y lenta, al estilo torrent, para que los usuarios pudieran consultar y verificar selectivamente los datos; por ahora mantengo mi propio archivo con ArchiveBox, pero lo uso solo para mis necesidades personales; la mayoría de las veces sigo usando IA, porque realmente tiene muchísimo material
- Archive Team ha llevado proyectos para hacer respaldos distribuidos de partes del Internet Archive, por separado de Internet Archive; se puede ver más información y el estado del avance en la wiki del proyecto INTERNETARCHIVE.BAK, aunque últimamente está en pausa temporal
- Definitivamente he vivido lo lento que puede ser el archivo web; también parece que los scrapers de IA generan cuellos de botella de ancho de banda; algunos archivos digitales, como Common Crawl, requieren una cuenta especial para científicos para poder acceder; la cantidad de datos es enorme y el objetivo de almacenamiento también lo es, así que guardan no solo internet sino también una dimensión adicional: el tiempo; hay tantos datos que navegar o buscar se vuelve extremadamente difícil y, en la práctica, casi inutilizable; por eso terminé creando yo mismo el proyecto de enlaces de metadatos Internet-Places-Database para obtener información de dominios
- Hace tiempo, durante un proyecto de scraping, quise buscar snapshots antiguos y me di cuenta de que extraer información del Internet Archive era inesperadamente difícil; usar pywaybackup me mejoró bastante la experiencia
- Me pregunto por qué IA no opera una instancia de IPFS, o si ya la opera pero no es muy popular; ya hay varios servicios espejo en IPFS que funcionan bastante rápido; uno de los problemas que tuve con IA es que algunos sitios web muy antiguos no se renderizan bien por problemas de JS o CSS; también me pregunto si habría alguna forma de corregir eso retroactivamente; si se pudiera exportar todo el código que era posible en ese momento, quizás se podría restaurar el sitio de forma más completa; sería increíble que, al hacer clic en un dominio en IA, un cliente de escritorio descargara lentamente, en una cola de baja prioridad, tantos archivos WAR como uno quiera, para poder verlos completos incluso sin conexión
- Alguna vez imaginé un sistema para “donar” espacio de almacenamiento sobrante a archive.org; ejecutas un cliente y dices que vas a aportar 1TB, y entonces el servidor te envía a tu computadora el contenido más raro; sería una estructura basada en torrent, y encima de eso se podría montar fácilmente un sistema de distribución de contenido; también podría usarse para obtener datos desde esta red; le escribí a algunos equipos de archivo, pero como nadie mostró interés, al final no lo hice
Dirijo el equipo de datacenter/infraestructura en Internet Archive; me gustaría invitar a todos a los distintos eventos que tendremos este otoño; si el precio del boleto es un problema, por favor escríbanme por correo (vean mi perfil); haré lo posible para que puedan participar
- Me pregunto si el equipo de IA hará eventos distribuidos por todo el mundo o si será todo reunido en SF; y de verdad, gracias por hacer un trabajo tan importante para la humanidad
- Quise trabajar en IA, pero las oportunidades de contratación son realmente escasas
- Me interesan las historias técnicas detrás de este logro, por ejemplo detalles sobre cómo hicieron el web crawling o cómo almacenan todo
- Me gustaría saber específicamente qué eventos son
Archivar 1 billón de páginas web es un logro impresionante, pero... no hay forma de buscarlo; al final, si conoces la url puedes escribirla directamente y encontrarla, pero eso reduce muchísimo la utilidad del servicio; por ejemplo, estaría bien poder buscar por nombre de artista, nombre de archivo o incluso por el contenido de las imágenes
- Indexar todo eso suena como una auténtica pesadilla
- Recuerdo que algo así se podía hacer en Kagi, pero ahora no encuentro dónde se usa
- Aquí también hay que pensar en los problemas de privacidad; las reglas de robots.txt quedarían anuladas y borrar un sitio se volvería, en la práctica, imposible de forma retroactiva; al final sigue siendo material público, así que aunque uno quiera bloquearlo no hay mucho que hacer, pero volver totalmente buscable todo IA me parece una muy mala idea
- Yo uso la búsqueda web de GPT y a veces le pido que me encuentre libros de texto en IA; para eso funciona bien, pero no sé qué tan útil sea para páginas web generales
Si quieres aportar material adicional a IA, el grupo de voluntarios relacionado es ArchiveTeam; ellos envían datos a IA y hay más información en archiveteam.org
- Alguien tendrá que decidir manualmente qué material vale la pena conservar; hace falta algún filtro para evitar que alguien use IA como almacenamiento gratuito para las fotos de sus viajes
Creo que Internet Archive debería cerrar grandes acuerdos con empresas de IA... por ejemplo: les damos un camión lleno con todos los datos a una empresa de IA, y a cambio hacen una donación importante para que IA pueda seguir operando durante los próximos años; si no ponen dinero, igual se les permite el acceso, pero se les baja muchísimo la velocidad de descarga, de modo que tardarían años en obtener todos los datos
- Eso rompería la confianza que han construido hasta ahora como bien público; a la mayoría de la gente le parece bien que IA preserve el contenido que crean, pero si empiezan a ganar dinero con eso, sin duda habrá una reacción fuertísima
Me pregunto si Internet Archive y Common Crawl alguna vez han colaborado; me gustaría comparar el alcance o la infraestructura de ambas organizaciones; sus objetivos son distintos, pero en la práctica hacen cosas parecidas
- IA acepta datos recolectados por varios grupos, incluyendo los WARCs recolectados por CC y por grupos como ArchiveTeam
El artista Sam Reider, que se presentará en el evento presencial de esta semana, es realmente excelente; tengo muchas ganas de verlo
Entonces, ¿esto significa que al final no hace falta rastrear toda la web, y que basta con pagarle al Archive para obtener todos los datos?
En la entrada de blog relacionada están reuniendo historias, por si les interesa
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
Es un hito verdaderamente impresionante en la historia de internet

Internet Archive alcanza 1 billón de páginas web archivadas

El significado de llegar a 1 billón de páginas en Internet Archive

Calendario de eventos conmemorativos de octubre

7 de octubre — The Vast Blue We: Del Sol Quartet at the Internet Archive

9 de octubre — Conversación entre Sir Tim Berners-Lee y Brewster Kahle

16 de octubre — Library Leaders Forum 2025 (en línea)

21 de octubre — Doors Open 2025: recorrido por el archivo físico

22 de octubre — The Web We’ve Built: 1 Trillion Celebration

27 de octubre — Wayback to the Future: Celebrating the Open Web

El futuro de la memoria digital

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News