- Herramienta de código abierto que convierte datos de plataformas como Reddit, Voat y Ruqqus en un archivo HTML basado en PostgreSQL
- Procesa localmente 2.38 mil millones de publicaciones de Reddit (incluyendo más de 40 mil subreddits) y ofrece un diseño amigable para móviles y una interfaz sin JavaScript
- En un contexto donde el acceso a la API de Reddit está prácticamente cerrado y el acceso a apps de terceros y a los datos está bloqueado, busca aprovechar el dataset existente de Pushshift para convertirlo en un archivo completo de Reddit bajo propiedad personal
- Funciona como HTML estático sin JavaScript, solicitudes externas ni rastreo, y puede operar en distintas modalidades como offline, entornos air-gapped, USB, Raspberry Pi o servidores LAN
- Ofrece búsqueda de texto completo (FTS) de PostgreSQL y más de 30 APIs REST, además de un servidor MCP (29 herramientas) para integrarse con herramientas de IA y permitir análisis y consultas a gran escala
Cambios en el entorno de acceso a los datos de Reddit
- La API de Reddit pasó a un estado en el que en la práctica ya no puede usarse para archivado
- Colapso del ecosistema de apps de terceros y amenazas recurrentes de bloqueo al acceso al dataset de Pushshift
- El dataset de Pushshift es un archivo masivo acumulado durante años mediante la recolección de publicaciones y comentarios públicos de Reddit, e incluye miles de millones de registros de texto
- Son datos snapshot de momentos pasados recolectados a través de la API oficial de Reddit, por lo que pueden aprovecharse sin acceder a los servidores o a la API actual de Reddit
- Tras los cambios en la política de la API y las restricciones de acceso a los datos, hoy se usa como el último recurso público de datos de facto para preservar la historia de Reddit y hacer análisis a gran escala
- A través de Pushshift, el registro histórico completo de Reddit ya está publicado en formato torrent
Resumen del proyecto Redd-Archiver
- Redd-Archiver v1.0 convierte dumps de datos públicos de Reddit, Voat y Ruqqus para crear un archivo HTML navegable
- Usa un backend PostgreSQL para procesar datasets masivos con memoria estable (4GB) y ofrece búsquedas rápidas con FTS basado en indexación GIN
- La salida HTML permite ordenar, paginar y navegar árboles de comentarios incluso sin conexión
Estructura central de la herramienta de archivado Redd-Archiver
- Usa como entrada dumps de Reddit (
.zst), Voat (SQL) y Ruqqus (.7z)
- Integración multiplataforma: combina las 3 plataformas en un solo archivo. Incluye detección automática de plataforma y búsqueda unificada
- Proporciona un esquema de rutas
/r/, /v/, /g/ mediante flags de CLI y prefijos de URL
- Genera archivos HTML estáticos para eliminar la dependencia de servidores
- Basta con abrir
index.html para navegar, sin necesidad de red externa
- Layout responsivo mobile-first y navegación amigable al tacto
- Índices de ordenamiento por puntaje, comentarios y fecha, con paginación
- Interacción basada en CSS sin JavaScript
- Con configuración de PostgreSQL FTS, admite búsqueda de texto completo unificada entre plataformas
- Filtrado por palabras clave, autor, fecha, puntaje, etc.
- Ofrece API REST con consultas de publicaciones, comentarios, usuarios, subreddits y agregaciones
- Incluye un servidor MCP para que herramientas de IA consulten directamente el archivo
- Permite consultar publicaciones, comentarios, usuarios y búsquedas desde Claude Desktop o Claude Code
- Puede procesar decenas de millones de publicaciones por instancia
- Gracias a la estructura de PostgreSQL, el uso de memoria se mantiene constante sin importar el tamaño de los datos
- Para el total de 2.38B publicaciones, se recomienda operar varias instancias distribuidas por tema
- Implementado con Python, PostgreSQL, Jinja2 y Docker (con uso de Claude Code como apoyo general de desarrollo)
Escenarios de despliegue y operación
- Permite navegación offline desde una unidad USB o carpeta local
- Local/homelab: ejecución en entorno HTTP o Tor con un solo comando
- HTTPS en producción: configuración automática de certificados Let’s Encrypt (aprox. 5 minutos)
- Servicio oculto de Tor: acceso mediante dirección
.onion sin port forwarding
- Hosting estático: se puede subir a GitHub Pages o Codeberg Pages (excepto la función de búsqueda)
- Despliegue basado en Docker: configuración totalmente automatizada con PostgreSQL incluido
- Soporta navegación offline, servidor de búsqueda local y modo simultáneo Tor/HTTPS
Información pública
1 comentarios
Comentarios de Hacker News
Es una gran forma de autoalojar el archivo
En lo personal, ojalá hubiera un plugin que restaurara automáticamente los comentarios eliminados o sobrescritos por bots a su versión original
Parte de por qué hoy en día es tan difícil usar Reddit es que la mitad de los enlaces viejos ahora apuntan a comentarios inútiles por culpa de esas sobrescrituras de protesta
Irónicamente, el original sigue existiendo en archivos para entrenamiento de IA, pero el usuario común ya no puede encontrar algo como una solución para un driver de impresora de hace 2 años
Que el sitio se volviera menos útil era precisamente el objetivo, y hacer que los usuarios se fueran era el núcleo de la protesta
No voy a ponerme a buscar en archivos para invalidar esa decisión. Simplemente sigo adelante
Los datos se pueden descargar por torrent
Enlace: repositorio de redd-archiver
Ayuda a decidir qué comunidades conviene preservar primero
Es un proyecto realmente genial
Además de PushShift, hay otros archivos; por ejemplo, Arctic Shift o PullPush, que ofrecen datasets distintos
Según el alcance de las solicitudes de eliminación, los posts o comentarios incluidos pueden variar
Me pregunto si con estos datos se podría volver a sembrar una red social descentralizada
Como si se hiciera un fork del proyecto
La API también lo soporta, así que se puede coalojar el archivo de forma descentralizada
Es un proyecto muy interesante
Lo que me da curiosidad es si el dataset de Pushshift se actualiza periódicamente o si es una captura de un momento específico
Quisiera saber si, al autoalojarlo, hay que volver a bajar datos nuevos de forma periódica
watchful1 está dividiendo y reprocesando los datos, y más adelante planean traer los dumps de Arctic Shift para habilitar actualizaciones mensuales
Enlaces relacionados:
Yo también estoy trabajando en un proyecto parecido y subí los datos de Pushshift Reddit a Hugging Face Datasets
Cuando el seed del torrent es débil, se pueden descargar archivos individuales directamente desde huggingface.co/datasets/nick007x/pushshift-reddit
Es útil para quien quiera probar datos mensuales o solo un subreddit específico
Intenté levantar el entorno local con Docker Compose, pero falló
No existe el archivo
.env.example, y aunque uno configure las variables de entorno a mano, aparecen problemas con las rutas de volumenParece que todavía necesita un poco más de pulido
mkdirCommits relacionados: 0bb1039, c3754ea
Me pregunto si se podría integrar con la ya desaparecida app Apollo para restaurar un punto específico en el tiempo del Reddit de antes
No quiero guardar todo Reddit en mi computadora
Estaría bien poder elegir solo ciertos subreddits
watchful1 separó los datos por subreddit, así que se puede descargar solo la parte deseada
Me pregunto si hay alguna forma de verificar si los subreddits que se volvieron privados hace 2 o 3 años están incluidos en el volcado de datos
En el campo de estado se puede ver si es privado, y además trae muchos más detalles