- Anna’s Archive respaldó todos los metadatos y archivos musicales de Spotify y los publicó como un archivo torrent de aproximadamente 300 TB
- Incluye metadatos de alrededor de 256 millones de canciones y 86 millones de archivos de música, cubriendo el 99.6% de las reproducciones
- Guarda las canciones populares con calidad original OGG Vorbis 160kbit/s y las menos populares en OGG Opus 75kbit/s, logrando una preservación eficiente
- Los datos se ofrecen en forma de bases de datos SQLite e incluyen hasta la estructura detallada de playlists, audio features y carátulas de álbumes
- Es el primer archivo de preservación musical completamente abierto del mundo, creado para preservar permanentemente el patrimonio musical de la humanidad frente a desastres naturales, guerras, recortes presupuestarios y más
Descripción general del proyecto
- Anna’s Archive hizo un respaldo mediante scraping a gran escala de todos los metadatos y archivos musicales de Spotify
- Capacidad total de alrededor de 300 TB, distribuida en forma de torrents agrupados por popularidad
- Incluye 256 millones de pistas y 186 millones de códigos ISRC únicos
- Este archivo es un repositorio de preservación musical totalmente abierto que cualquiera puede replicar, e incluye 86 millones de archivos de música
- Esto representa aproximadamente el 99.6% de todas las reproducciones en Spotify
- Anna’s Archive antes se enfocaba en la preservación centrada en texto (libros, artículos, etc.), pero esta vez se expandió hacia la música como medio no textual
- Tras descubrir un método de scraping estructurado de Spotify, impulsó la construcción de un archivo centrado en la preservación musical
Limitaciones de la preservación musical existente
- Los intentos previos de preservación musical tenían tres problemas principales
- Sesgo hacia artistas populares, dejando fuera música de nicho
- Obsesión con la calidad sin pérdida, lo que provoca un uso ineficiente del almacenamiento
- Ausencia de una lista de torrents que represente toda la música
- Este respaldo de Spotify corrige esos problemas para construir un archivo musical enfocado en la preservación
Composición de los datos y estadísticas
- Se obtuvo el 99.9% de los metadatos de aproximadamente 256 millones de pistas de Spotify
- Se estableció prioridad según el indicador de popularidad (
popularity)
- Las pistas con
popularity>0 se guardan con calidad original OGG Vorbis 160kbit/s
- Las pistas con
popularity=0 se recodifican a OGG Opus 75kbit/s
- Se incluyen la mayoría de las canciones lanzadas antes de julio de 2025
- Las reproducciones acumuladas de las 3 canciones principales (Lady Gaga, Billie Eilish y Bad Bunny) superan la suma de entre los 20 millones y 100 millones de canciones del extremo inferior
- Más del 70% del total son canciones poco populares con menos de 1000 reproducciones
Estructura de distribución por torrent
- Los datos se componen de dos partes: metadatos y archivos musicales
- Metadatos: se entregan como SQLite DB, con un tamaño de aproximadamente 200 GB (comprimidos)
- Datos de análisis de audio: 4 TB (comprimidos)
- Los archivos musicales se distribuyen en formato Anna’s Archive Containers (AAC)
- Tras eliminar paquetes OGG defectuosos de Spotify, se insertan metadatos como título, ISRC, carátula del álbum e información de replaygain
- En algunos archivos existe un error en la etiqueta
REPLAYGAIN_ALBUM_PEAK
Exploración y análisis de datos
- Distribución de popularidad: la mayoría de las reproducciones ocurre en canciones del rango
popularity 50~80
- Duración de las pistas: hay picos en intervalos de 2, 3 y 4 minutos
- Se incluyen estadísticas sobre contenido explícito (Explicit) y canciones con ISRC duplicado
- Distribución de géneros de artistas: ofrece visualizaciones por géneros detallados y géneros agrupados
- Análisis del año de lanzamiento de álbumes: aumento reciente de música generada automáticamente y por IA
- Análisis de audio features: BPM promedio de alrededor de 120, con una correlación entre loudness y energy
Estructura detallada de los metadatos
- Principales archivos SQLite
spotify_clean.sqlite3: copia casi completa de la API para artistas, álbumes y pistas
spotify_clean_audio_features.sqlite3: guarda audio features por pista, como BPM, key, energy y valence
spotify_clean_playlists.sqlite3: incluye 6.6 millones de playlists y 1.7 mil millones de entradas de pistas
spotify_clean_track_files.sqlite3: mapeo entre pistas y archivos reales, con estado del archivo, hash SHA256 e información del licenciante
- Archivos JSONL adicionales incluyen datos de audiolibros, podcasts, shows y episodios
spotify_2025_07_coverart.tar.torrent almacena archivos de imagen de carátulas de álbumes
Participación y solicitud de preservación
- Anna’s Archive solicita donaciones y participación en el seeding de torrents
- Incluso un seeding pequeño puede contribuir a la preservación total
- El objetivo es preservar permanentemente el patrimonio musical de la humanidad frente a desastres naturales, guerras, recortes presupuestarios y más
Funciones adicionales y experimentos
- Es posible implementar una función de “True Shuffle” sobre todas las pistas de Spotify
- Mediante consultas SQLite se puede generar una lista de reproducción realmente aleatoria
- Si en el futuro hay suficiente interés, se menciona la posibilidad de añadir descarga individual de archivos
Resumen
- Anna’s Archive respaldó casi todos los datos de Spotify y construyó la mayor base de metadatos musicales abierta del mundo
- Como archivo de preservación completamente abierto, cualquiera puede replicarlo
- Es un proyecto que reúne transparencia en la estructura de datos, precisión técnica y preservación a largo plazo
- Va más allá de la dependencia de la industria musical en plataformas comerciales y sienta la base para la preservación permanente del registro cultural
7 comentarios
¿Spotify se va a enojar?
Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
Parece que, según las noticias recientes, lo demandaron.
En algún punto entre un Robin Hood y un forajido...
Los derechos de autor...
Ahora parece que los modelos de generación musical que antes se quedaban solo en el ámbito comercial, como Suno, también podrán entrenarse como open-weight y open-source.
Es una locura jajaja
Comentarios de Hacker News
Esto es realmente sorprendente
No sabía que el DRM de Spotify había sido vulnerado hasta el punto de permitir descargas a esta escala
Puede que no parezca muy útil para el usuario común, pero para quienes investigan clasificación o generación musical podría ser una oportunidad enorme
Aun así, parece difícil revelar con qué conjunto de datos se entrenó
Me pregunto si esto se hizo por petición de investigadores de IA o si fue simplemente con fines de preservación
Ya se han masificado dispositivos y apps que encuentran automáticamente streams ilegales de TV y películas
Técnicamente es totalmente posible, y hasta gente no especializada en mi familia usa cosas así
Pero el equipo de Anna’s Archive es un grupo movido por motivaciones ideológicas, así que no es algo hecho para empresas de IA
Si necesitaba música, la bajaba de YouTube con ytldp, aunque hoy casi ya no lo hago
Uso más YouTube para noticias o como audio de fondo que para música
Da un poco de tristeza que Google controle esto
El camino real es regular a empresas como Spotify para garantizar una compensación justa a los músicos
Publicar estos datos más bien incentiva la generación de basura con IA
Pensando en la escala, es realmente gigantesco
El antiguo What.CD era llamado la “Biblioteca de Alejandría de la música”, y aun así en ese tiempo hablábamos de unos pocos millones de torrents
Pero el rip de Spotify de Anna incluye 186 millones de registros únicos
Claro, al final también habrá cosas como música hecha por bots, pero la escala en sí es abrumadora
Había desde EPs tempranos de bandas rurales hasta discos raros que no podían subirse a streaming por temas de derechos poco claros
La alegría de descubrir música que surgía de las recomendaciones, reseñas y playlists armadas a mano por la comunidad es algo que ningún algoritmo puede reemplazar
Gracias a eso conocí a muchos artistas que todavía me gustan
Era una comunidad impulsada puramente por el amor a la música, y hasta Trent Reznor la elogió públicamente
Da pena que ya casi no existan comunidades musicales así de puras
Spotify tiene el límite de incluir solo material con licencia de streaming
Todavía falta mucho para que sea un archivo musical completo
Yo sí creo que este tipo de proyectos son necesarios
Lugares como Anna’s Archive son tan importantes como Internet Archive
Lo central es la preservación del patrimonio digital: sitios web, juegos, libros y más
Con el cambio generacional, hay mucha gente que ya no puede experimentar la creatividad de la web del pasado
Creo que esta generación es la que tiene la oportunidad de preservar todo eso
En una época en la que música y películas desaparecen de las plataformas una por una, esta preservación es realmente importante
Yo ya tengo tres playlists atenuadas en gris; ni siquiera queda el título, así que no sé qué escuchaba
Por eso compro en CD la música que quiero conservar para siempre, y la música de baile simplemente la dejo pasar
Este trabajo es realmente importante
Basta ver artículos de hace 10 años: la mayoría de los enlaces externos ya terminaron en 404
Se puede debatir si hay que preservar absolutamente todo, pero si es posible, debería preservarse
Qué sorprendente
El simple hecho de que hayan scrapeado Spotify a gran escala ya resulta interesante
No van a revelar el método exacto, pero sería entretenido leer sobre ello
Solo conviene no abusar y dejarlo a nivel de proyecto de hobby
Mi servidor de música también reproduce pistas de Spotify de esta manera
Enlace al código
En lo personal, esto no me convence mucho
Ya existen fuentes con mejor calidad de audio, y este tipo de rip masivo solo aumenta el riesgo legal
Me preocupa especialmente que hasta las bibliotecas de libros electrónicos puedan verse afectadas
Incluso en el aviso decían que “la música ya está suficientemente preservada”, así que debieron separarlo como un proyecto aparte
Un proveedor de internet alemán (SIM.de/Drillisch) estaba bloqueando Anna’s Archive
Si apagaba el VPN no podía entrar, y solo abría al activar Mullvad VPN
No sabía que existiera este tipo de censura en Alemania
Si buscas
alextud popcorntime, no aparece el resultado de PopcornTimeTV GitHubPasa igual en Google, Kagi, DuckDuckGo y Bing
Aparecen forks, pero no el original, así que sospecho filtrado en las búsquedas
Antes hubo canciones que fueron eliminadas de varias plataformas al mismo tiempo
Me pregunto si sería posible volver a encontrarlas en un archivo así
Hoy en día se crea lost media moderna todos los días
Algunos publishers intentan eliminar deliberadamente todas las copias, y eso me parece un acto mentalmente espantoso
No hay ninguna razón que justifique destruir por completo una obra creativa
Si solo queda en una cinta guardada en una caja fuerte de acero, no es muy distinto a que no exista
Técnicamente también sería posible crear un servidor de streaming con torrents como backend
La idea sería descargar solo las partes necesarias cuando llegue una solicitud
Enlace al artículo relacionado
Spotify sigue siendo barato, así que no me preocupa mucho por ahora, aunque el problema de compensación a los artistas sigue ahí
Ojalá algún día sea fácil montar un servidor de música autoalojado basado en torrents