3 puntos por GN⁺ 2026-01-16 | 1 comentarios | Compartir por WhatsApp
  • Herramienta de código abierto que convierte datos de plataformas como Reddit, Voat y Ruqqus en un archivo HTML basado en PostgreSQL
  • Procesa localmente 2.38 mil millones de publicaciones de Reddit (incluyendo más de 40 mil subreddits) y ofrece un diseño amigable para móviles y una interfaz sin JavaScript
  • En un contexto donde el acceso a la API de Reddit está prácticamente cerrado y el acceso a apps de terceros y a los datos está bloqueado, busca aprovechar el dataset existente de Pushshift para convertirlo en un archivo completo de Reddit bajo propiedad personal
  • Funciona como HTML estático sin JavaScript, solicitudes externas ni rastreo, y puede operar en distintas modalidades como offline, entornos air-gapped, USB, Raspberry Pi o servidores LAN
  • Ofrece búsqueda de texto completo (FTS) de PostgreSQL y más de 30 APIs REST, además de un servidor MCP (29 herramientas) para integrarse con herramientas de IA y permitir análisis y consultas a gran escala

Cambios en el entorno de acceso a los datos de Reddit

  • La API de Reddit pasó a un estado en el que en la práctica ya no puede usarse para archivado
  • Colapso del ecosistema de apps de terceros y amenazas recurrentes de bloqueo al acceso al dataset de Pushshift
    • El dataset de Pushshift es un archivo masivo acumulado durante años mediante la recolección de publicaciones y comentarios públicos de Reddit, e incluye miles de millones de registros de texto
    • Son datos snapshot de momentos pasados recolectados a través de la API oficial de Reddit, por lo que pueden aprovecharse sin acceder a los servidores o a la API actual de Reddit
    • Tras los cambios en la política de la API y las restricciones de acceso a los datos, hoy se usa como el último recurso público de datos de facto para preservar la historia de Reddit y hacer análisis a gran escala
  • A través de Pushshift, el registro histórico completo de Reddit ya está publicado en formato torrent

Resumen del proyecto Redd-Archiver

  • Redd-Archiver v1.0 convierte dumps de datos públicos de Reddit, Voat y Ruqqus para crear un archivo HTML navegable
  • Usa un backend PostgreSQL para procesar datasets masivos con memoria estable (4GB) y ofrece búsquedas rápidas con FTS basado en indexación GIN
  • La salida HTML permite ordenar, paginar y navegar árboles de comentarios incluso sin conexión

Estructura central de la herramienta de archivado Redd-Archiver

  • Usa como entrada dumps de Reddit (.zst), Voat (SQL) y Ruqqus (.7z)
    • Integración multiplataforma: combina las 3 plataformas en un solo archivo. Incluye detección automática de plataforma y búsqueda unificada
    • Proporciona un esquema de rutas /r/, /v/, /g/ mediante flags de CLI y prefijos de URL
  • Genera archivos HTML estáticos para eliminar la dependencia de servidores
  • Basta con abrir index.html para navegar, sin necesidad de red externa
    • Layout responsivo mobile-first y navegación amigable al tacto
    • Índices de ordenamiento por puntaje, comentarios y fecha, con paginación
    • Interacción basada en CSS sin JavaScript
  • Con configuración de PostgreSQL FTS, admite búsqueda de texto completo unificada entre plataformas
    • Filtrado por palabras clave, autor, fecha, puntaje, etc.
  • Ofrece API REST con consultas de publicaciones, comentarios, usuarios, subreddits y agregaciones
  • Incluye un servidor MCP para que herramientas de IA consulten directamente el archivo
    • Permite consultar publicaciones, comentarios, usuarios y búsquedas desde Claude Desktop o Claude Code
  • Puede procesar decenas de millones de publicaciones por instancia
  • Gracias a la estructura de PostgreSQL, el uso de memoria se mantiene constante sin importar el tamaño de los datos
  • Para el total de 2.38B publicaciones, se recomienda operar varias instancias distribuidas por tema
  • Implementado con Python, PostgreSQL, Jinja2 y Docker (con uso de Claude Code como apoyo general de desarrollo)

Escenarios de despliegue y operación

  • Permite navegación offline desde una unidad USB o carpeta local
  • Local/homelab: ejecución en entorno HTTP o Tor con un solo comando
  • HTTPS en producción: configuración automática de certificados Let’s Encrypt (aprox. 5 minutos)
  • Servicio oculto de Tor: acceso mediante dirección .onion sin port forwarding
  • Hosting estático: se puede subir a GitHub Pages o Codeberg Pages (excepto la función de búsqueda)
  • Despliegue basado en Docker: configuración totalmente automatizada con PostgreSQL incluido
    • Soporta navegación offline, servidor de búsqueda local y modo simultáneo Tor/HTTPS

Información pública

1 comentarios

 
GN⁺ 2026-01-16
Comentarios de Hacker News
  • Es una gran forma de autoalojar el archivo
    En lo personal, ojalá hubiera un plugin que restaurara automáticamente los comentarios eliminados o sobrescritos por bots a su versión original
    Parte de por qué hoy en día es tan difícil usar Reddit es que la mitad de los enlaces viejos ahora apuntan a comentarios inútiles por culpa de esas sobrescrituras de protesta
    Irónicamente, el original sigue existiendo en archivos para entrenamiento de IA, pero el usuario común ya no puede encontrar algo como una solución para un driver de impresora de hace 2 años

    • En realidad eso no es tan irónico. La mayoría de las eliminaciones masivas de comentarios no fueron por protesta contra el entrenamiento de LLM, sino como boicot a Reddit por cerrar su API
      Que el sitio se volviera menos útil era precisamente el objetivo, y hacer que los usuarios se fueran era el núcleo de la protesta
    • Comparte como proyecto relacionado el enlace a reddit-uncensored
    • Yo también veo seguido comentarios desaparecidos, pero si quien los escribió ya no quiere participar en discusiones públicas, respeto esa decisión
      No voy a ponerme a buscar en archivos para invalidar esa decisión. Simplemente sigo adelante
  • Los datos se pueden descargar por torrent
    Enlace: repositorio de redd-archiver

  • Es un proyecto realmente genial
    Además de PushShift, hay otros archivos; por ejemplo, Arctic Shift o PullPush, que ofrecen datasets distintos
    Según el alcance de las solicitudes de eliminación, los posts o comentarios incluidos pueden variar

  • Me pregunto si con estos datos se podría volver a sembrar una red social descentralizada
    Como si se hiciera un fork del proyecto

    • Ya prepararon tooling para un registro de instancias y un leaderboard basado en equipos
      La API también lo soporta, así que se puede coalojar el archivo de forma descentralizada
  • Es un proyecto muy interesante
    Lo que me da curiosidad es si el dataset de Pushshift se actualiza periódicamente o si es una captura de un momento específico
    Quisiera saber si, al autoalojarlo, hay que volver a bajar datos nuevos de forma periódica

    • Ya publicaron datos hasta diciembre de 2025, y normalmente salen versiones nuevas cada mes
      watchful1 está dividiendo y reprocesando los datos, y más adelante planean traer los dumps de Arctic Shift para habilitar actualizaciones mensuales
      Enlaces relacionados:
  • Yo también estoy trabajando en un proyecto parecido y subí los datos de Pushshift Reddit a Hugging Face Datasets
    Cuando el seed del torrent es débil, se pueden descargar archivos individuales directamente desde huggingface.co/datasets/nick007x/pushshift-reddit
    Es útil para quien quiera probar datos mensuales o solo un subreddit específico

  • Intenté levantar el entorno local con Docker Compose, pero falló
    No existe el archivo .env.example, y aunque uno configure las variables de entorno a mano, aparecen problemas con las rutas de volumen
    Parece que todavía necesita un poco más de pulido

    • Gracias al feedback, agregaron los archivos de ejemplo que faltaban y también actualizaron la documentación con el paso de mkdir
      Commits relacionados: 0bb1039, c3754ea
  • Me pregunto si se podría integrar con la ya desaparecida app Apollo para restaurar un punto específico en el tiempo del Reddit de antes

    • Como la API soporta varias integraciones, parece posible
  • No quiero guardar todo Reddit en mi computadora
    Estaría bien poder elegir solo ciertos subreddits

    • El torrent incluye datos de los 40 mil subreddits principales
      watchful1 separó los datos por subreddit, así que se puede descargar solo la parte deseada
  • Me pregunto si hay alguna forma de verificar si los subreddits que se volvieron privados hace 2 o 3 años están incluidos en el volcado de datos