29 puntos por GN⁺ 2025-12-21 | 7 comentarios | Compartir por WhatsApp
  • Anna’s Archive respaldó todos los metadatos y archivos musicales de Spotify y los publicó como un archivo torrent de aproximadamente 300 TB
  • Incluye metadatos de alrededor de 256 millones de canciones y 86 millones de archivos de música, cubriendo el 99.6% de las reproducciones
  • Guarda las canciones populares con calidad original OGG Vorbis 160kbit/s y las menos populares en OGG Opus 75kbit/s, logrando una preservación eficiente
  • Los datos se ofrecen en forma de bases de datos SQLite e incluyen hasta la estructura detallada de playlists, audio features y carátulas de álbumes
  • Es el primer archivo de preservación musical completamente abierto del mundo, creado para preservar permanentemente el patrimonio musical de la humanidad frente a desastres naturales, guerras, recortes presupuestarios y más

Descripción general del proyecto

  • Anna’s Archive hizo un respaldo mediante scraping a gran escala de todos los metadatos y archivos musicales de Spotify
    • Capacidad total de alrededor de 300 TB, distribuida en forma de torrents agrupados por popularidad
    • Incluye 256 millones de pistas y 186 millones de códigos ISRC únicos
  • Este archivo es un repositorio de preservación musical totalmente abierto que cualquiera puede replicar, e incluye 86 millones de archivos de música
    • Esto representa aproximadamente el 99.6% de todas las reproducciones en Spotify
  • Anna’s Archive antes se enfocaba en la preservación centrada en texto (libros, artículos, etc.), pero esta vez se expandió hacia la música como medio no textual
  • Tras descubrir un método de scraping estructurado de Spotify, impulsó la construcción de un archivo centrado en la preservación musical

Limitaciones de la preservación musical existente

  • Los intentos previos de preservación musical tenían tres problemas principales
    1. Sesgo hacia artistas populares, dejando fuera música de nicho
    2. Obsesión con la calidad sin pérdida, lo que provoca un uso ineficiente del almacenamiento
    3. Ausencia de una lista de torrents que represente toda la música
  • Este respaldo de Spotify corrige esos problemas para construir un archivo musical enfocado en la preservación

Composición de los datos y estadísticas

  • Se obtuvo el 99.9% de los metadatos de aproximadamente 256 millones de pistas de Spotify
  • Se estableció prioridad según el indicador de popularidad (popularity)
    • Las pistas con popularity>0 se guardan con calidad original OGG Vorbis 160kbit/s
    • Las pistas con popularity=0 se recodifican a OGG Opus 75kbit/s
  • Se incluyen la mayoría de las canciones lanzadas antes de julio de 2025
  • Las reproducciones acumuladas de las 3 canciones principales (Lady Gaga, Billie Eilish y Bad Bunny) superan la suma de entre los 20 millones y 100 millones de canciones del extremo inferior
  • Más del 70% del total son canciones poco populares con menos de 1000 reproducciones

Estructura de distribución por torrent

  • Los datos se componen de dos partes: metadatos y archivos musicales
    • Metadatos: se entregan como SQLite DB, con un tamaño de aproximadamente 200 GB (comprimidos)
    • Datos de análisis de audio: 4 TB (comprimidos)
  • Los archivos musicales se distribuyen en formato Anna’s Archive Containers (AAC)
    • Tras eliminar paquetes OGG defectuosos de Spotify, se insertan metadatos como título, ISRC, carátula del álbum e información de replaygain
    • En algunos archivos existe un error en la etiqueta REPLAYGAIN_ALBUM_PEAK

Exploración y análisis de datos

  • Distribución de popularidad: la mayoría de las reproducciones ocurre en canciones del rango popularity 50~80
  • Duración de las pistas: hay picos en intervalos de 2, 3 y 4 minutos
  • Se incluyen estadísticas sobre contenido explícito (Explicit) y canciones con ISRC duplicado
  • Distribución de géneros de artistas: ofrece visualizaciones por géneros detallados y géneros agrupados
  • Análisis del año de lanzamiento de álbumes: aumento reciente de música generada automáticamente y por IA
  • Análisis de audio features: BPM promedio de alrededor de 120, con una correlación entre loudness y energy

Estructura detallada de los metadatos

  • Principales archivos SQLite
    • spotify_clean.sqlite3: copia casi completa de la API para artistas, álbumes y pistas
    • spotify_clean_audio_features.sqlite3: guarda audio features por pista, como BPM, key, energy y valence
    • spotify_clean_playlists.sqlite3: incluye 6.6 millones de playlists y 1.7 mil millones de entradas de pistas
    • spotify_clean_track_files.sqlite3: mapeo entre pistas y archivos reales, con estado del archivo, hash SHA256 e información del licenciante
  • Archivos JSONL adicionales incluyen datos de audiolibros, podcasts, shows y episodios
  • spotify_2025_07_coverart.tar.torrent almacena archivos de imagen de carátulas de álbumes

Participación y solicitud de preservación

  • Anna’s Archive solicita donaciones y participación en el seeding de torrents
    • Incluso un seeding pequeño puede contribuir a la preservación total
  • El objetivo es preservar permanentemente el patrimonio musical de la humanidad frente a desastres naturales, guerras, recortes presupuestarios y más

Funciones adicionales y experimentos

  • Es posible implementar una función de “True Shuffle” sobre todas las pistas de Spotify
    • Mediante consultas SQLite se puede generar una lista de reproducción realmente aleatoria
  • Si en el futuro hay suficiente interés, se menciona la posibilidad de añadir descarga individual de archivos

Resumen

  • Anna’s Archive respaldó casi todos los datos de Spotify y construyó la mayor base de metadatos musicales abierta del mundo
  • Como archivo de preservación completamente abierto, cualquiera puede replicarlo
  • Es un proyecto que reúne transparencia en la estructura de datos, precisión técnica y preservación a largo plazo
  • Va más allá de la dependencia de la industria musical en plataformas comerciales y sienta la base para la preservación permanente del registro cultural

7 comentarios

 
tested 2025-12-24

¿Spotify se va a enojar?

 
lsdcnu 2026-01-25

Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
Parece que, según las noticias recientes, lo demandaron.

 
vndk2234 2025-12-23

En algún punto entre un Robin Hood y un forajido...

 
roxie 2025-12-21

Los derechos de autor...

 
devworld 2025-12-21

Ahora parece que los modelos de generación musical que antes se quedaban solo en el ámbito comercial, como Suno, también podrán entrenarse como open-weight y open-source.

 
daumkakao 2025-12-21

Es una locura jajaja

 
GN⁺ 2025-12-21
Comentarios de Hacker News
  • Esto es realmente sorprendente
    No sabía que el DRM de Spotify había sido vulnerado hasta el punto de permitir descargas a esta escala
    Puede que no parezca muy útil para el usuario común, pero para quienes investigan clasificación o generación musical podría ser una oportunidad enorme
    Aun así, parece difícil revelar con qué conjunto de datos se entrenó
    Me pregunto si esto se hizo por petición de investigadores de IA o si fue simplemente con fines de preservación

    • No estoy de acuerdo con que no le sirva al usuario común
      Ya se han masificado dispositivos y apps que encuentran automáticamente streams ilegales de TV y películas
      Técnicamente es totalmente posible, y hasta gente no especializada en mi familia usa cosas así
      Pero el equipo de Anna’s Archive es un grupo movido por motivaciones ideológicas, así que no es algo hecho para empresas de IA
    • Yo no uso Spotify
      Si necesitaba música, la bajaba de YouTube con ytldp, aunque hoy casi ya no lo hago
      Uso más YouTube para noticias o como audio de fondo que para música
      Da un poco de tristeza que Google controle esto
    • De hecho, puede que el metadata valga más que los archivos de música
    • Decir que esto es “para investigadores de clasificación musical” suena a racionalización para no apoyar a los artistas
      El camino real es regular a empresas como Spotify para garantizar una compensación justa a los músicos
      Publicar estos datos más bien incentiva la generación de basura con IA
    • Con algo así, parece que sería más fácil crear herramientas de recolección automática de música tipo Lidarr a nivel de pista
  • Pensando en la escala, es realmente gigantesco
    El antiguo What.CD era llamado la “Biblioteca de Alejandría de la música”, y aun así en ese tiempo hablábamos de unos pocos millones de torrents
    Pero el rip de Spotify de Anna incluye 186 millones de registros únicos
    Claro, al final también habrá cosas como música hecha por bots, pero la escala en sí es abrumadora

    • Lo impresionante de What.CD no era solo la cantidad, sino su rareza y calidad
      Había desde EPs tempranos de bandas rurales hasta discos raros que no podían subirse a streaming por temas de derechos poco claros
      La alegría de descubrir música que surgía de las recomendaciones, reseñas y playlists armadas a mano por la comunidad es algo que ningún algoritmo puede reemplazar
      Gracias a eso conocí a muchos artistas que todavía me gustan
    • Antes de What.CD estaba OiNK’s Pink Palace
      Era una comunidad impulsada puramente por el amor a la música, y hasta Trent Reznor la elogió públicamente
      Da pena que ya casi no existan comunidades musicales así de puras
    • Sí, en What.CD había mucha música que no está en Spotify, como CDs, bootlegs y cintas
      Spotify tiene el límite de incluir solo material con licencia de streaming
    • Yo también escucho con frecuencia temas de nicho en YouTube Music, y hay muchos comentarios de “qué pena que no esté en Spotify”
      Todavía falta mucho para que sea un archivo musical completo
    • What.CD contaba torrents por álbum, pero Spotify incluye hasta podcasts y contenido generado por IA
  • Yo sí creo que este tipo de proyectos son necesarios
    Lugares como Anna’s Archive son tan importantes como Internet Archive
    Lo central es la preservación del patrimonio digital: sitios web, juegos, libros y más
    Con el cambio generacional, hay mucha gente que ya no puede experimentar la creatividad de la web del pasado
    Creo que esta generación es la que tiene la oportunidad de preservar todo eso

  • En una época en la que música y películas desaparecen de las plataformas una por una, esta preservación es realmente importante
    Yo ya tengo tres playlists atenuadas en gris; ni siquiera queda el título, así que no sé qué escuchaba
    Por eso compro en CD la música que quiero conservar para siempre, y la música de baile simplemente la dejo pasar

  • Este trabajo es realmente importante
    Basta ver artículos de hace 10 años: la mayoría de los enlaces externos ya terminaron en 404
    Se puede debatir si hay que preservar absolutamente todo, pero si es posible, debería preservarse

  • Qué sorprendente
    El simple hecho de que hayan scrapeado Spotify a gran escala ya resulta interesante
    No van a revelar el método exacto, pero sería entretenido leer sobre ello

    • En realidad no es tan difícil
      Solo conviene no abusar y dejarlo a nivel de proyecto de hobby
      Mi servidor de música también reproduce pistas de Spotify de esta manera
      Enlace al código
    • Lo más sorprendente es que hayan transferido 300 TB de datos de forma anónima
    • Probablemente usaron una herramienta como esta → spotizerr-spotify
  • En lo personal, esto no me convence mucho
    Ya existen fuentes con mejor calidad de audio, y este tipo de rip masivo solo aumenta el riesgo legal
    Me preocupa especialmente que hasta las bibliotecas de libros electrónicos puedan verse afectadas
    Incluso en el aviso decían que “la música ya está suficientemente preservada”, así que debieron separarlo como un proyecto aparte

  • Un proveedor de internet alemán (SIM.de/Drillisch) estaba bloqueando Anna’s Archive
    Si apagaba el VPN no podía entrar, y solo abría al activar Mullvad VPN
    No sabía que existiera este tipo de censura en Alemania

    • A mí me pasó algo parecido
      Si buscas alextud popcorntime, no aparece el resultado de PopcornTimeTV GitHub
      Pasa igual en Google, Kagi, DuckDuckGo y Bing
      Aparecen forks, pero no el original, así que sospecho filtrado en las búsquedas
  • Antes hubo canciones que fueron eliminadas de varias plataformas al mismo tiempo
    Me pregunto si sería posible volver a encontrarlas en un archivo así
    Hoy en día se crea lost media moderna todos los días
    Algunos publishers intentan eliminar deliberadamente todas las copias, y eso me parece un acto mentalmente espantoso
    No hay ninguna razón que justifique destruir por completo una obra creativa
    Si solo queda en una cinta guardada en una caja fuerte de acero, no es muy distinto a que no exista

  • Técnicamente también sería posible crear un servidor de streaming con torrents como backend
    La idea sería descargar solo las partes necesarias cuando llegue una solicitud

    • Spotify también usó streaming P2P hasta 2014
      Enlace al artículo relacionado
    • Yo también armé recientemente un *stack arr en mi homelab, pero todavía no siento que la música lo justifique por precio/necesidad
      Spotify sigue siendo barato, así que no me preocupa mucho por ahora, aunque el problema de compensación a los artistas sigue ahí
      Ojalá algún día sea fácil montar un servidor de música autoalojado basado en torrents
    • Técnicamente no debería hacerse, pero se puede
    • Sería una especie de Popcorn Time