Redd-Archiver - Cómo tener localmente un archivo completo de Reddit

(github.com/19-84)

3 puntos por GN⁺ 2026-01-16 | 1 comentarios | Compartir por WhatsApp

Herramienta de código abierto que convierte datos de plataformas como Reddit, Voat y Ruqqus en un archivo HTML basado en PostgreSQL
Procesa localmente 2.38 mil millones de publicaciones de Reddit (incluyendo más de 40 mil subreddits) y ofrece un diseño amigable para móviles y una interfaz sin JavaScript
En un contexto donde el acceso a la API de Reddit está prácticamente cerrado y el acceso a apps de terceros y a los datos está bloqueado, busca aprovechar el dataset existente de Pushshift para convertirlo en un archivo completo de Reddit bajo propiedad personal
Funciona como HTML estático sin JavaScript, solicitudes externas ni rastreo, y puede operar en distintas modalidades como offline, entornos air-gapped, USB, Raspberry Pi o servidores LAN
Ofrece búsqueda de texto completo (FTS) de PostgreSQL y más de 30 APIs REST, además de un servidor MCP (29 herramientas) para integrarse con herramientas de IA y permitir análisis y consultas a gran escala

Cambios en el entorno de acceso a los datos de Reddit

La API de Reddit pasó a un estado en el que en la práctica ya no puede usarse para archivado
Colapso del ecosistema de apps de terceros y amenazas recurrentes de bloqueo al acceso al dataset de Pushshift
- El dataset de Pushshift es un archivo masivo acumulado durante años mediante la recolección de publicaciones y comentarios públicos de Reddit, e incluye miles de millones de registros de texto
- Son datos snapshot de momentos pasados recolectados a través de la API oficial de Reddit, por lo que pueden aprovecharse sin acceder a los servidores o a la API actual de Reddit
- Tras los cambios en la política de la API y las restricciones de acceso a los datos, hoy se usa como el último recurso público de datos de facto para preservar la historia de Reddit y hacer análisis a gran escala
A través de Pushshift, el registro histórico completo de Reddit ya está publicado en formato torrent
- Subreddit Comments/Submissions 2005-06 to 2024-12
- Reúne en archivos individuales los 40 mil subreddits más populares de la historia de Reddit
- Con un cliente torrent es posible descargar solo los subreddits deseados

Resumen del proyecto Redd-Archiver

Redd-Archiver v1.0 convierte dumps de datos públicos de Reddit, Voat y Ruqqus para crear un archivo HTML navegable
- Reddit: formato Pushshift .zst, 2.38B publicaciones / 40,029 subreddits / 3.28 TB / magnet de Academic Torrents
- Voat: dump SQL, 3.81M publicaciones / 24.1M comentarios / 15GB / descargar en Archive.org
- Ruqqus: JSON Lines .7z, 500K publicaciones / 752MB / descargar en Archive.org
Usa un backend PostgreSQL para procesar datasets masivos con memoria estable (4GB) y ofrece búsquedas rápidas con FTS basado en indexación GIN
La salida HTML permite ordenar, paginar y navegar árboles de comentarios incluso sin conexión

Estructura central de la herramienta de archivado Redd-Archiver

Usa como entrada dumps de Reddit (.zst), Voat (SQL) y Ruqqus (.7z)
- Integración multiplataforma: combina las 3 plataformas en un solo archivo. Incluye detección automática de plataforma y búsqueda unificada
- Proporciona un esquema de rutas /r/, /v/, /g/ mediante flags de CLI y prefijos de URL
Genera archivos HTML estáticos para eliminar la dependencia de servidores
Basta con abrir index.html para navegar, sin necesidad de red externa
- Layout responsivo mobile-first y navegación amigable al tacto
- Índices de ordenamiento por puntaje, comentarios y fecha, con paginación
- Interacción basada en CSS sin JavaScript
Con configuración de PostgreSQL FTS, admite búsqueda de texto completo unificada entre plataformas
- Filtrado por palabras clave, autor, fecha, puntaje, etc.
Ofrece API REST con consultas de publicaciones, comentarios, usuarios, subreddits y agregaciones
Incluye un servidor MCP para que herramientas de IA consulten directamente el archivo
- Permite consultar publicaciones, comentarios, usuarios y búsquedas desde Claude Desktop o Claude Code
Puede procesar decenas de millones de publicaciones por instancia
Gracias a la estructura de PostgreSQL, el uso de memoria se mantiene constante sin importar el tamaño de los datos
Para el total de 2.38B publicaciones, se recomienda operar varias instancias distribuidas por tema
Implementado con Python, PostgreSQL, Jinja2 y Docker (con uso de Claude Code como apoyo general de desarrollo)

Escenarios de despliegue y operación

Permite navegación offline desde una unidad USB o carpeta local
Local/homelab: ejecución en entorno HTTP o Tor con un solo comando
HTTPS en producción: configuración automática de certificados Let’s Encrypt (aprox. 5 minutos)
Servicio oculto de Tor: acceso mediante dirección .onion sin port forwarding
Hosting estático: se puede subir a GitHub Pages o Codeberg Pages (excepto la función de búsqueda)
Despliegue basado en Docker: configuración totalmente automatizada con PostgreSQL incluido
- Soporta navegación offline, servidor de búsqueda local y modo simultáneo Tor/HTTPS

Información pública

Demo en vivo: https://online-archives.github.io/redd-archiver-example/
Repositorio en GitHub: https://github.com/19-84/redd-archiver
Licencia: distribuido bajo Unlicense (dominio público), permitiendo libremente uso comercial y no comercial, modificación y redistribución

1 comentarios

GN⁺ 2026-01-16

Comentarios de Hacker News

Es una gran forma de autoalojar el archivo
En lo personal, ojalá hubiera un plugin que restaurara automáticamente los comentarios eliminados o sobrescritos por bots a su versión original
Parte de por qué hoy en día es tan difícil usar Reddit es que la mitad de los enlaces viejos ahora apuntan a comentarios inútiles por culpa de esas sobrescrituras de protesta
Irónicamente, el original sigue existiendo en archivos para entrenamiento de IA, pero el usuario común ya no puede encontrar algo como una solución para un driver de impresora de hace 2 años
- En realidad eso no es tan irónico. La mayoría de las eliminaciones masivas de comentarios no fueron por protesta contra el entrenamiento de LLM, sino como boicot a Reddit por cerrar su API
  Que el sitio se volviera menos útil era precisamente el objetivo, y hacer que los usuarios se fueran era el núcleo de la protesta
- Comparte como proyecto relacionado el enlace a reddit-uncensored
- Yo también veo seguido comentarios desaparecidos, pero si quien los escribió ya no quiere participar en discusiones públicas, respeto esa decisión
  No voy a ponerme a buscar en archivos para invalidar esa decisión. Simplemente sigo adelante
Los datos se pueden descargar por torrent
Enlace: repositorio de redd-archiver
- También publicaron estadísticas y perfiles de subs por plataforma
  Ayuda a decidir qué comunidades conviene preservar primero
  - Reddit: subreddits_complete.json
  - Voat: subverses.json
  - Ruqqus: guilds.json
Es un proyecto realmente genial
Además de PushShift, hay otros archivos; por ejemplo, Arctic Shift o PullPush, que ofrecen datasets distintos
Según el alcance de las solicitudes de eliminación, los posts o comentarios incluidos pueden variar
Me pregunto si con estos datos se podría volver a sembrar una red social descentralizada
Como si se hiciera un fork del proyecto
- Ya prepararon tooling para un registro de instancias y un leaderboard basado en equipos
  La API también lo soporta, así que se puede coalojar el archivo de forma descentralizada
  - REGISTRY_SETUP.md
  - register-instance.yml
Es un proyecto muy interesante
Lo que me da curiosidad es si el dataset de Pushshift se actualiza periódicamente o si es una captura de un momento específico
Quisiera saber si, al autoalojarlo, hay que volver a bajar datos nuevos de forma periódica
- Ya publicaron datos hasta diciembre de 2025, y normalmente salen versiones nuevas cada mes
  watchful1 está dividiendo y reprocesando los datos, y más adelante planean traer los dumps de Arctic Shift para habilitar actualizaciones mensuales
  Enlaces relacionados:
Yo también estoy trabajando en un proyecto parecido y subí los datos de Pushshift Reddit a Hugging Face Datasets
Cuando el seed del torrent es débil, se pueden descargar archivos individuales directamente desde huggingface.co/datasets/nick007x/pushshift-reddit
Es útil para quien quiera probar datos mensuales o solo un subreddit específico
Intenté levantar el entorno local con Docker Compose, pero falló
No existe el archivo .env.example, y aunque uno configure las variables de entorno a mano, aparecen problemas con las rutas de volumen
Parece que todavía necesita un poco más de pulido
- Gracias al feedback, agregaron los archivos de ejemplo que faltaban y también actualizaron la documentación con el paso de mkdir
  Commits relacionados: 0bb1039, c3754ea
Me pregunto si se podría integrar con la ya desaparecida app Apollo para restaurar un punto específico en el tiempo del Reddit de antes
- Como la API soporta varias integraciones, parece posible
No quiero guardar todo Reddit en mi computadora
Estaría bien poder elegir solo ciertos subreddits
- El torrent incluye datos de los 40 mil subreddits principales
  watchful1 separó los datos por subreddit, así que se puede descargar solo la parte deseada
Me pregunto si hay alguna forma de verificar si los subreddits que se volvieron privados hace 2 o 3 años están incluidos en el volcado de datos
- Incluyeron también el volcado de metadatos de todos los subreddits
  En el campo de estado se puede ver si es privado, y además trae muchos más detalles
  - README del catálogo de datos
  - subreddits_complete.json

Redd-Archiver - Cómo tener localmente un archivo completo de Reddit

Cambios en el entorno de acceso a los datos de Reddit

Resumen del proyecto Redd-Archiver

Estructura central de la herramienta de archivado Redd-Archiver

Escenarios de despliegue y operación

Información pública

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News