- Un proyecto restauró las publicaciones desaparecidas de Li.st de Anthony Bourdain a partir de datos públicos de rastreo web
- Se usaron Common Crawl e Internet Archive para rastrear y reconstruir el HTML remanente del dominio li.st
- Con el script de Python
commoncrawl_search.py, se recolectaron automáticamente documentos HTML desde un bucket público de S3
- Se recuperó el texto de muchas publicaciones, pero la mayoría de las imágenes se perdieron y solo algunos elementos quedaron preservados en HTML
- Los resultados se publicaron en un repositorio de GitHub para que la comunidad pueda participar en futuras tareas de restauración y preservación
Resumen del proyecto
- Un intento de restaurar las publicaciones perdidas de Li.st de Bourdain usando datos públicos de rastreo
- Tras ver que en el sitio GReg TeChnoLogY ya se había publicado parte del listado, se exploró la posibilidad de restaurarlas
- Con experiencia en seguridad y crawling, solo se utilizaron archivos de datos con acceso público
- Se buscó en el índice documental de Common Crawl para recopilar datos de la ruta
https://li.st/Bourdain*
- Se ejecutó en un entorno de Python 3.14.2 tras instalar las dependencias de
requirements.txt
- Ejemplo de comando:
python commoncrawl_search.py "https://li.st/Bourdain*" --all --download
Proceso de restauración y herramientas
commoncrawl_search.py envía solicitudes al índice de conjuntos de datos específicos y descarga coincidencias desde un bucket público de S3
- Como los documentos HTML son pequeños, fue relativamente fácil restaurarlos
- Los resultados restaurados se organizaron en el repositorio de GitHub (https://github.com/thecsw/bourdain)
- Cada archivo HTML mantiene el diseño original, pero fue reconstruido sin modificar el contenido
- No se trata de contenido generado por IA; solo parte del código se escribió con herramientas de automatización
Principales publicaciones restauradas
- things-i-no-longer-have-time-or-patience-for: una lista con “Cocaine”, “True Detective”, “Beer nerds” y otros
- nice-views: paisajes de viaje en Montana, Puerto Rico, Naxos, LA, Estambul y más
- if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: incluye “The Wire”, “Tinker, Tailor, Soldier, Spy” y otras
- objects-of-desire: colecciones personales como lentes de sol vintage, herramientas de trepanación, gi de BJJ y cuchillos Kramer
- four-spy-novels-by-real-spies-and-one-not-by-a-spy: recomendaciones de novelas de espionaje de autores como Somerset Maugham y Graham Greene
- hotel-slut-that-s-me: una lista de hoteles alrededor del mundo con comentarios personales de afecto
- Muchas listas relacionadas con Nueva York, como some-new-york-sandwiches, great-dead-bars-of-new-york y guilty-pleasures
- En la mayoría de las publicaciones, el texto se recuperó con éxito, pero todos los archivos de imagen se perdieron
Elemento que no pudo restaurarse
- Solo la publicación David Bowie Related (14 de enero de 2016) no apareció en Common Crawl
Importancia del proyecto y planes futuros
- El trabajo de restauración se describe como un intento de arqueología digital, y demuestra la posibilidad de preservar contenido web del pasado
- Aunque restaurar imágenes es difícil, la creación de un archivo textual fue exitosa
- Gracias al repositorio público de Git, cualquiera puede participar en restauraciones adicionales
- También se plantea la necesidad de construir archivos públicos y buscar estrategias de preservación a largo plazo
1 comentarios
Comentarios de Hacker News
Yo también caí en el mismo rabbit hole e hice exactamente lo mismo la semana pasada
Enlace a mi intento
Si te inspiraste al verlo, estaría bien que lo mencionaras; y si no, me parece interesante ver que llegamos de forma independiente a la misma idea
De todos modos, actualicé tanto git como la página web para mencionar explícitamente tu trabajo. Puse un enlace directo a tu sitio; avísame si te parece bien
Como continuación de esta publicación, logré restaurar todas las publicaciones de li.st de Anthony Bourdain que se creían perdidas con el paso del tiempo
De verdad creo que no habrá otro como Tony
Me gustaba mucho su serie, pero cuando visitó mi ciudad natal me decepcionó porque la retrató mal por completo
Entiendo la mirada antisistema y alternativa, pero terminó rodeándose de estafadores locales y gente que llevaba restaurantes fracasados, y los presentó como ‘cocineros progresistas’
Después de eso empecé a volver a ver sus otros episodios con otros ojos
Da mucho gusto ver este material restaurado :)
Ojalá también se puedan recuperar las imágenes. Me da curiosidad la lista de discos que mencionó
Me alegra saber que SIBERIA volvió a abrir, de la lista “Great Dead Bars of New York”
Esta vez arrancó de nuevo dentro de la estación de 59th Street/Columbus Circle
No debería meterme con el diseño del sitio web, pero la tipografía gris clara sobre fondo blanco es demasiado difícil de leer. Sobre todo para ojos mayores, casi no se ve
Siberia, su bar favorito, volvió a abrir
Está en el extremo sur de la estación de metro Columbus Circle, y Tracy, la dueña, sigue ahí; el ambiente sigue siendo igual de sencillo que antes
Si es una lista de películas que incluye Tampopo, entonces para mí es buena sí o sí
De verdad agradezco mucho que hayas hecho este trabajo de restauración
Como fan de Bourdain, creo que, incluso con sus defectos humanos, fue una de las figuras más interesantes del espíritu de su época
Su serie Parts Unknown fue uno de los mejores contenidos antropológicos que he visto en TV. También leí esta publicación con muchísimo interés