Se publica una copia de respaldo completa de Spotify

(annas-archive.li)

29 puntos por GN⁺ 2025-12-21 | 7 comentarios | Compartir por WhatsApp

Anna’s Archive respaldó todos los metadatos y archivos musicales de Spotify y los publicó como un archivo torrent de aproximadamente 300 TB
Incluye metadatos de alrededor de 256 millones de canciones y 86 millones de archivos de música, cubriendo el 99.6% de las reproducciones
Guarda las canciones populares con calidad original OGG Vorbis 160kbit/s y las menos populares en OGG Opus 75kbit/s, logrando una preservación eficiente
Los datos se ofrecen en forma de bases de datos SQLite e incluyen hasta la estructura detallada de playlists, audio features y carátulas de álbumes
Es el primer archivo de preservación musical completamente abierto del mundo, creado para preservar permanentemente el patrimonio musical de la humanidad frente a desastres naturales, guerras, recortes presupuestarios y más

Descripción general del proyecto

Anna’s Archive hizo un respaldo mediante scraping a gran escala de todos los metadatos y archivos musicales de Spotify
- Capacidad total de alrededor de 300 TB, distribuida en forma de torrents agrupados por popularidad
- Incluye 256 millones de pistas y 186 millones de códigos ISRC únicos
Este archivo es un repositorio de preservación musical totalmente abierto que cualquiera puede replicar, e incluye 86 millones de archivos de música
- Esto representa aproximadamente el 99.6% de todas las reproducciones en Spotify
Anna’s Archive antes se enfocaba en la preservación centrada en texto (libros, artículos, etc.), pero esta vez se expandió hacia la música como medio no textual
Tras descubrir un método de scraping estructurado de Spotify, impulsó la construcción de un archivo centrado en la preservación musical

Limitaciones de la preservación musical existente

Los intentos previos de preservación musical tenían tres problemas principales
1. Sesgo hacia artistas populares, dejando fuera música de nicho
2. Obsesión con la calidad sin pérdida, lo que provoca un uso ineficiente del almacenamiento
3. Ausencia de una lista de torrents que represente toda la música
Este respaldo de Spotify corrige esos problemas para construir un archivo musical enfocado en la preservación

Composición de los datos y estadísticas

Se obtuvo el 99.9% de los metadatos de aproximadamente 256 millones de pistas de Spotify
Se estableció prioridad según el indicador de popularidad (popularity)
- Las pistas con popularity>0 se guardan con calidad original OGG Vorbis 160kbit/s
- Las pistas con popularity=0 se recodifican a OGG Opus 75kbit/s
Se incluyen la mayoría de las canciones lanzadas antes de julio de 2025
Las reproducciones acumuladas de las 3 canciones principales (Lady Gaga, Billie Eilish y Bad Bunny) superan la suma de entre los 20 millones y 100 millones de canciones del extremo inferior
Más del 70% del total son canciones poco populares con menos de 1000 reproducciones

Estructura de distribución por torrent

Los datos se componen de dos partes: metadatos y archivos musicales
- Metadatos: se entregan como SQLite DB, con un tamaño de aproximadamente 200 GB (comprimidos)
- Datos de análisis de audio: 4 TB (comprimidos)
Los archivos musicales se distribuyen en formato Anna’s Archive Containers (AAC)
- Tras eliminar paquetes OGG defectuosos de Spotify, se insertan metadatos como título, ISRC, carátula del álbum e información de replaygain
- En algunos archivos existe un error en la etiqueta REPLAYGAIN_ALBUM_PEAK

Exploración y análisis de datos

Distribución de popularidad: la mayoría de las reproducciones ocurre en canciones del rango popularity 50~80
Duración de las pistas: hay picos en intervalos de 2, 3 y 4 minutos
Se incluyen estadísticas sobre contenido explícito (Explicit) y canciones con ISRC duplicado
Distribución de géneros de artistas: ofrece visualizaciones por géneros detallados y géneros agrupados
Análisis del año de lanzamiento de álbumes: aumento reciente de música generada automáticamente y por IA
Análisis de audio features: BPM promedio de alrededor de 120, con una correlación entre loudness y energy

Estructura detallada de los metadatos

Principales archivos SQLite
- spotify_clean.sqlite3: copia casi completa de la API para artistas, álbumes y pistas
- spotify_clean_audio_features.sqlite3: guarda audio features por pista, como BPM, key, energy y valence
- spotify_clean_playlists.sqlite3: incluye 6.6 millones de playlists y 1.7 mil millones de entradas de pistas
- spotify_clean_track_files.sqlite3: mapeo entre pistas y archivos reales, con estado del archivo, hash SHA256 e información del licenciante
Archivos JSONL adicionales incluyen datos de audiolibros, podcasts, shows y episodios
spotify_2025_07_coverart.tar.torrent almacena archivos de imagen de carátulas de álbumes

Participación y solicitud de preservación

Anna’s Archive solicita donaciones y participación en el seeding de torrents
- Incluso un seeding pequeño puede contribuir a la preservación total
El objetivo es preservar permanentemente el patrimonio musical de la humanidad frente a desastres naturales, guerras, recortes presupuestarios y más

Funciones adicionales y experimentos

Es posible implementar una función de “True Shuffle” sobre todas las pistas de Spotify
- Mediante consultas SQLite se puede generar una lista de reproducción realmente aleatoria
Si en el futuro hay suficiente interés, se menciona la posibilidad de añadir descarga individual de archivos

Resumen

Anna’s Archive respaldó casi todos los datos de Spotify y construyó la mayor base de metadatos musicales abierta del mundo
Como archivo de preservación completamente abierto, cualquiera puede replicarlo
Es un proyecto que reúne transparencia en la estructura de datos, precisión técnica y preservación a largo plazo
Va más allá de la dependencia de la industria musical en plataformas comerciales y sienta la base para la preservación permanente del registro cultural

7 comentarios

tested 2025-12-24

¿Spotify se va a enojar?

lsdcnu 2026-01-25

Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
Parece que, según las noticias recientes, lo demandaron.

vndk2234 2025-12-23

En algún punto entre un Robin Hood y un forajido...

roxie 2025-12-21

Los derechos de autor...

devworld 2025-12-21

Ahora parece que los modelos de generación musical que antes se quedaban solo en el ámbito comercial, como Suno, también podrán entrenarse como open-weight y open-source.

daumkakao 2025-12-21

Es una locura jajaja

GN⁺ 2025-12-21

Comentarios de Hacker News

Esto es realmente sorprendente
No sabía que el DRM de Spotify había sido vulnerado hasta el punto de permitir descargas a esta escala
Puede que no parezca muy útil para el usuario común, pero para quienes investigan clasificación o generación musical podría ser una oportunidad enorme
Aun así, parece difícil revelar con qué conjunto de datos se entrenó
Me pregunto si esto se hizo por petición de investigadores de IA o si fue simplemente con fines de preservación
- No estoy de acuerdo con que no le sirva al usuario común
  Ya se han masificado dispositivos y apps que encuentran automáticamente streams ilegales de TV y películas
  Técnicamente es totalmente posible, y hasta gente no especializada en mi familia usa cosas así
  Pero el equipo de Anna’s Archive es un grupo movido por motivaciones ideológicas, así que no es algo hecho para empresas de IA
- Yo no uso Spotify
  Si necesitaba música, la bajaba de YouTube con ytldp, aunque hoy casi ya no lo hago
  Uso más YouTube para noticias o como audio de fondo que para música
  Da un poco de tristeza que Google controle esto
- De hecho, puede que el metadata valga más que los archivos de música
- Decir que esto es “para investigadores de clasificación musical” suena a racionalización para no apoyar a los artistas
  El camino real es regular a empresas como Spotify para garantizar una compensación justa a los músicos
  Publicar estos datos más bien incentiva la generación de basura con IA
- Con algo así, parece que sería más fácil crear herramientas de recolección automática de música tipo Lidarr a nivel de pista
Pensando en la escala, es realmente gigantesco
El antiguo What.CD era llamado la “Biblioteca de Alejandría de la música”, y aun así en ese tiempo hablábamos de unos pocos millones de torrents
Pero el rip de Spotify de Anna incluye 186 millones de registros únicos
Claro, al final también habrá cosas como música hecha por bots, pero la escala en sí es abrumadora
- Lo impresionante de What.CD no era solo la cantidad, sino su rareza y calidad
  Había desde EPs tempranos de bandas rurales hasta discos raros que no podían subirse a streaming por temas de derechos poco claros
  La alegría de descubrir música que surgía de las recomendaciones, reseñas y playlists armadas a mano por la comunidad es algo que ningún algoritmo puede reemplazar
  Gracias a eso conocí a muchos artistas que todavía me gustan
- Antes de What.CD estaba OiNK’s Pink Palace
  Era una comunidad impulsada puramente por el amor a la música, y hasta Trent Reznor la elogió públicamente
  Da pena que ya casi no existan comunidades musicales así de puras
- Sí, en What.CD había mucha música que no está en Spotify, como CDs, bootlegs y cintas
  Spotify tiene el límite de incluir solo material con licencia de streaming
- Yo también escucho con frecuencia temas de nicho en YouTube Music, y hay muchos comentarios de “qué pena que no esté en Spotify”
  Todavía falta mucho para que sea un archivo musical completo
- What.CD contaba torrents por álbum, pero Spotify incluye hasta podcasts y contenido generado por IA
Yo sí creo que este tipo de proyectos son necesarios
Lugares como Anna’s Archive son tan importantes como Internet Archive
Lo central es la preservación del patrimonio digital: sitios web, juegos, libros y más
Con el cambio generacional, hay mucha gente que ya no puede experimentar la creatividad de la web del pasado
Creo que esta generación es la que tiene la oportunidad de preservar todo eso
En una época en la que música y películas desaparecen de las plataformas una por una, esta preservación es realmente importante
Yo ya tengo tres playlists atenuadas en gris; ni siquiera queda el título, así que no sé qué escuchaba
Por eso compro en CD la música que quiero conservar para siempre, y la música de baile simplemente la dejo pasar
Este trabajo es realmente importante
Basta ver artículos de hace 10 años: la mayoría de los enlaces externos ya terminaron en 404
Se puede debatir si hay que preservar absolutamente todo, pero si es posible, debería preservarse
Qué sorprendente
El simple hecho de que hayan scrapeado Spotify a gran escala ya resulta interesante
No van a revelar el método exacto, pero sería entretenido leer sobre ello
- En realidad no es tan difícil
  Solo conviene no abusar y dejarlo a nivel de proyecto de hobby
  Mi servidor de música también reproduce pistas de Spotify de esta manera
  Enlace al código
- Lo más sorprendente es que hayan transferido 300 TB de datos de forma anónima
- Probablemente usaron una herramienta como esta → spotizerr-spotify
En lo personal, esto no me convence mucho
Ya existen fuentes con mejor calidad de audio, y este tipo de rip masivo solo aumenta el riesgo legal
Me preocupa especialmente que hasta las bibliotecas de libros electrónicos puedan verse afectadas
Incluso en el aviso decían que “la música ya está suficientemente preservada”, así que debieron separarlo como un proyecto aparte
Un proveedor de internet alemán (SIM.de/Drillisch) estaba bloqueando Anna’s Archive
Si apagaba el VPN no podía entrar, y solo abría al activar Mullvad VPN
No sabía que existiera este tipo de censura en Alemania
- A mí me pasó algo parecido
  Si buscas alextud popcorntime, no aparece el resultado de PopcornTimeTV GitHub
  Pasa igual en Google, Kagi, DuckDuckGo y Bing
  Aparecen forks, pero no el original, así que sospecho filtrado en las búsquedas
Antes hubo canciones que fueron eliminadas de varias plataformas al mismo tiempo
Me pregunto si sería posible volver a encontrarlas en un archivo así
Hoy en día se crea lost media moderna todos los días
Algunos publishers intentan eliminar deliberadamente todas las copias, y eso me parece un acto mentalmente espantoso
No hay ninguna razón que justifique destruir por completo una obra creativa
Si solo queda en una cinta guardada en una caja fuerte de acero, no es muy distinto a que no exista
Técnicamente también sería posible crear un servidor de streaming con torrents como backend
La idea sería descargar solo las partes necesarias cuando llegue una solicitud
- Spotify también usó streaming P2P hasta 2014
  Enlace al artículo relacionado
- Yo también armé recientemente un *stack arr en mi homelab, pero todavía no siento que la música lo justifique por precio/necesidad
  Spotify sigue siendo barato, así que no me preocupa mucho por ahora, aunque el problema de compensación a los artistas sigue ahí
  Ojalá algún día sea fácil montar un servidor de música autoalojado basado en torrents
- Técnicamente no debería hacerse, pero se puede
- Sería una especie de Popcorn Time