1 puntos por GN⁺ 2025-12-15 | 1 comentarios | Compartir por WhatsApp
  • Un proyecto restauró las publicaciones desaparecidas de Li.st de Anthony Bourdain a partir de datos públicos de rastreo web
  • Se usaron Common Crawl e Internet Archive para rastrear y reconstruir el HTML remanente del dominio li.st
  • Con el script de Python commoncrawl_search.py, se recolectaron automáticamente documentos HTML desde un bucket público de S3
  • Se recuperó el texto de muchas publicaciones, pero la mayoría de las imágenes se perdieron y solo algunos elementos quedaron preservados en HTML
  • Los resultados se publicaron en un repositorio de GitHub para que la comunidad pueda participar en futuras tareas de restauración y preservación

Resumen del proyecto

  • Un intento de restaurar las publicaciones perdidas de Li.st de Bourdain usando datos públicos de rastreo
    • Tras ver que en el sitio GReg TeChnoLogY ya se había publicado parte del listado, se exploró la posibilidad de restaurarlas
    • Con experiencia en seguridad y crawling, solo se utilizaron archivos de datos con acceso público
  • Se buscó en el índice documental de Common Crawl para recopilar datos de la ruta https://li.st/Bourdain*
    • Se ejecutó en un entorno de Python 3.14.2 tras instalar las dependencias de requirements.txt
    • Ejemplo de comando: python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

Proceso de restauración y herramientas

  • commoncrawl_search.py envía solicitudes al índice de conjuntos de datos específicos y descarga coincidencias desde un bucket público de S3
    • Como los documentos HTML son pequeños, fue relativamente fácil restaurarlos
  • Los resultados restaurados se organizaron en el repositorio de GitHub (https://github.com/thecsw/bourdain)
    • Cada archivo HTML mantiene el diseño original, pero fue reconstruido sin modificar el contenido
    • No se trata de contenido generado por IA; solo parte del código se escribió con herramientas de automatización

Principales publicaciones restauradas

  • things-i-no-longer-have-time-or-patience-for: una lista con “Cocaine”, “True Detective”, “Beer nerds” y otros
  • nice-views: paisajes de viaje en Montana, Puerto Rico, Naxos, LA, Estambul y más
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: incluye “The Wire”, “Tinker, Tailor, Soldier, Spy” y otras
  • objects-of-desire: colecciones personales como lentes de sol vintage, herramientas de trepanación, gi de BJJ y cuchillos Kramer
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy: recomendaciones de novelas de espionaje de autores como Somerset Maugham y Graham Greene
  • hotel-slut-that-s-me: una lista de hoteles alrededor del mundo con comentarios personales de afecto
  • Muchas listas relacionadas con Nueva York, como some-new-york-sandwiches, great-dead-bars-of-new-york y guilty-pleasures
  • En la mayoría de las publicaciones, el texto se recuperó con éxito, pero todos los archivos de imagen se perdieron

Elemento que no pudo restaurarse

  • Solo la publicación David Bowie Related (14 de enero de 2016) no apareció en Common Crawl

Importancia del proyecto y planes futuros

  • El trabajo de restauración se describe como un intento de arqueología digital, y demuestra la posibilidad de preservar contenido web del pasado
  • Aunque restaurar imágenes es difícil, la creación de un archivo textual fue exitosa
  • Gracias al repositorio público de Git, cualquiera puede participar en restauraciones adicionales
  • También se plantea la necesidad de construir archivos públicos y buscar estrategias de preservación a largo plazo

1 comentarios

 
GN⁺ 2025-12-15
Comentarios de Hacker News
  • Yo también caí en el mismo rabbit hole e hice exactamente lo mismo la semana pasada
    Enlace a mi intento
    Si te inspiraste al verlo, estaría bien que lo mencionaras; y si no, me parece interesante ver que llegamos de forma independiente a la misma idea

    • Oh, ¡no lo sabía! Yo empecé después de ver la publicación original de Greg, y luego él me comentó que había alguien que revisó Common Crawl
      De todos modos, actualicé tanto git como la página web para mencionar explícitamente tu trabajo. Puse un enlace directo a tu sitio; avísame si te parece bien
  • Como continuación de esta publicación, logré restaurar todas las publicaciones de li.st de Anthony Bourdain que se creían perdidas con el paso del tiempo
    De verdad creo que no habrá otro como Tony

    • Restauré casi todo, pero según el artículo todavía falta una — “David Bowie Related” (del 14 de enero de 2016)
  • Me gustaba mucho su serie, pero cuando visitó mi ciudad natal me decepcionó porque la retrató mal por completo
    Entiendo la mirada antisistema y alternativa, pero terminó rodeándose de estafadores locales y gente que llevaba restaurantes fracasados, y los presentó como ‘cocineros progresistas’
    Después de eso empecé a volver a ver sus otros episodios con otros ojos

    • Te entiendo. Vice News hizo algo parecido en Chicago y la gente local terminó odiándolo
    • En Shanghái pasó lo mismo
    • Yo sentí algo parecido. Su programa era interesante, pero se notaba una arrogancia sutil de hombre blanco adinerado explicando la realidad local como si fuera experto en cualquier lugar. La comida muchas veces era algo secundario
    • Me da curiosidad saber qué ciudad fue. En algunos lugares también me dio esa impresión, y siempre me pregunté con qué criterio el equipo de producción elegía los sitios
    • Probablemente él no verificaba personalmente el trasfondo político de la gente. Lo más seguro es que el equipo hiciera la gestión previa y él solo participara. Aun así, hay razones de sobra para mirar su programa críticamente. Me da curiosidad saber el nombre de la ciudad
  • Da mucho gusto ver este material restaurado :)
    Ojalá también se puedan recuperar las imágenes. Me da curiosidad la lista de discos que mencionó

  • Me alegra saber que SIBERIA volvió a abrir, de la lista “Great Dead Bars of New York”
    Esta vez arrancó de nuevo dentro de la estación de 59th Street/Columbus Circle

  • No debería meterme con el diseño del sitio web, pero la tipografía gris clara sobre fondo blanco es demasiado difícil de leer. Sobre todo para ojos mayores, casi no se ve

    • En mi pantalla no se ve gris claro. Revisé tanto en escritorio como en móvil, y el color #2B2B2B es lo suficientemente oscuro. Probablemente sea un tema de configuración gamma de la pantalla. El sitio se ve bien
    • A mí también me lo pareció al principio, pero luego me di cuenta de que una extensión de modo oscuro estaba cambiando los colores. La desactivé y quedó bien
    • Entiendo que si de repente aparece una pantalla blanca brillante, te duelan los ojos
    • También molesta un poco que se note levemente el patrón punteado del fondo. El contraste importa
  • Siberia, su bar favorito, volvió a abrir
    Está en el extremo sur de la estación de metro Columbus Circle, y Tracy, la dueña, sigue ahí; el ambiente sigue siendo igual de sencillo que antes

  • Si es una lista de películas que incluye Tampopo, entonces para mí es buena sí o sí

  • De verdad agradezco mucho que hayas hecho este trabajo de restauración
    Como fan de Bourdain, creo que, incluso con sus defectos humanos, fue una de las figuras más interesantes del espíritu de su época
    Su serie Parts Unknown fue uno de los mejores contenidos antropológicos que he visto en TV. También leí esta publicación con muchísimo interés