2 puntos por GN⁺ 2025-08-31 | 2 comentarios | Compartir por WhatsApp
  • Este sitio mide qué tan centralizados están los datos de usuarios en Fediverse (Mastodon, Pixelfed, etc.) y Atmosphere (Bluesky, WhiteWind, etc.)
  • Utiliza el Herfindahl–Hirschman Index (HHI) y el Shannon Index para analizar el grado de distribución de usuarios entre servidores
  • El HHI es un indicador usado en economía para medir el nivel de competencia: mientras más bajo sea el valor, mayor es la dispersión; mientras más alto, mayor la concentración monopólica
  • El Shannon Index es un indicador de diversidad basado en entropía: mientras más alto sea el valor, más uniformemente distribuida está la población entre servidores
  • Además de la concentración de datos, este proyecto considera distintos factores para medir la descentralización, como la estructura de red, la jurisdicción legal y la concentración del poder social, y publica sus datos y código en GitHub

Introducción y conceptos principales

  • Mide qué tan concentrados están los datos de usuarios en las plataformas Fediverse y Atmosphere usando el Herfindahl–Hirschman Index (HHI)
  • El HHI es un indicador ampliamente usado en economía para evaluar el nivel de competencia y se calcula sumando los cuadrados de la proporción de usuarios que corresponde a cada servidor (o PDS)
  • Mientras más cerca de 0 esté el valor del HHI, significa que los usuarios están distribuidos de manera uniforme entre varios servidores; mientras más cerca de 10,000, sugiere un estado monopólico en el que la mayoría de los usuarios se concentra en un solo servidor
  • Normalmente, un HHI menor a 100 se considera "muy competitivo", menor a 1,500 "no concentrado" y mayor o igual a 2,500 "altamente concentrado"

Método de medición y definición de los datos

  • Los objetos de medición son los servidores (instancias) del Fediverse y los PDS (Personal Data Servers) de Atmosphere
  • En plataformas como Mastodon, donde los usuarios están distribuidos entre varias instancias, las instancias que pertenecen al mismo operador se suman como una sola
    • Ejemplo: mastodon.social y mastodon.online son operadas por la misma empresa, por lo que se agrupan en las estadísticas
    • Todos los PDS administrados por Bluesky Social PBC también se contabilizan como uno solo
  • Así se refleja con mayor precisión el volumen de usuarios controlado por una misma entidad

Distintas perspectivas para medir la centralización

  • Además de la distribución física de los datos de usuarios, la descentralización puede analizarse desde varios ángulos
    • Aspectos estructurales de la red (por ejemplo, P2P, relays, etc.)
    • Métodos de gestión de identidad
    • Propiedad y ubicación de la infraestructura real (región, jurisdicción, etc.)
    • Concentración del poder social y organizacional (por ejemplo, concentración de influencia dentro de la plataforma)
  • No solo importa la distribución de los datos dentro de la plataforma, sino también si el poder y la influencia están distribuidos

Participación en el proyecto y open source

  • Todo el código y los conjuntos de datos usados para la medición están publicados en el repositorio de GitHub
  • Se agradecen contribuciones, comentarios, propuestas de nuevas métricas y la incorporación de métricas de resiliency (resiliencia)

2 comentarios

 
codject 2025-08-31

Decir "¿Seguimos sin estar descentralizados?" tampoco sería estrictamente incorrecto, pero suena poco natural y algo forzado.
"Todavía" suele usarse principalmente con oraciones negativas, así que...

Creo que una traducción como "¿La descentralización aún no llega?" podría sonar más natural como título.

 
GN⁺ 2025-08-31
Opinión de Hacker News
  • Hoy me enteré por primera vez del índice Herfindahl–Hirschman, así que quise probarlo con un caso raro y memorable.
    A finales de los 80, en cierto momento Microsoft registró más del 100% de participación en el mercado de hojas de cálculo para Macintosh.
    ¿Cómo fue posible? La participación de mercado se calcula dividiendo las ventas de cada participante durante un período determinado entre las ventas totales del mercado, pero en ese entonces la hoja de cálculo Lotus Jazz de Lotus fracasó tanto que las devoluciones superaron a las ventas.
    Como resultado, Lotus terminó con una participación negativa, y las ventas de Microsoft Excel fueron mayores que las ventas totales del mercado, dando una cuota superior al 100%.
    No recuerdo las cifras exactas, pero era algo así como Microsoft 102% y Lotus -2%.
    En un caso así, el índice Herfindahl–Hirschman sería 1022 + (-2)2 = 10404 + 4 = 10408.
    En casos extremos como este, el HHI puede superar los 10,000.
    (Agregué la condición de “durante un período determinado” para explicarlo.)

    • Busqué con muchísimas ganas algún artículo sobre esto en línea, pero no pude encontrarlo (quizá esté en algún microfilm...).
      En cambio, sí encontré una anécdota divertida.
      Se dice que un ejecutivo de Lotus bromeó: “El primer mes enviamos 62,000 unidades y al mes siguiente nos devolvieron 64,000. Hasta regresaron copias piratas”.
      Artículo relacionado en Forbes

    • El HHI es una métrica realmente útil.
      La idea de la suma de cuadrados de participaciones normalizadas se aplica muy bien no solo a la cuota de mercado, sino también a muchos otros contextos.
      También hay buenos ejemplos de uso en votaciones.

  • No me sorprende que el resultado sea interesante.
    BlueSky es un servicio que, desde la perspectiva de un usuario común, prácticamente puede reemplazar a Twitter.
    Mastodon tiene menos usuarios en total, pero da gusto ver que su ecosistema evita la centralización como lo hace el ecosistema de AT-Proto.
    Personalmente, imagino que el costo de operar servidores/relays de AT proto sería bastante pesado para operadores pequeños, aunque esto es solo una suposición sin conocer a fondo la estructura interna de ambos ecosistemas.

    • Operar un servidor PDS para uno mismo y algunos amigos no sale tan caro.
      Pero tampoco hay una gran ventaja en hacerlo así; el propósito del PDS es separar limpiamente tus datos de los datos de toda la red.
      Lo costoso en ATProto es el Relay (que recopila/transmite todos los datos) y el AppView (que guarda en una base de datos todas las publicaciones, likes, etc., y responde a las solicitudes de los usuarios).
      Claro, para una red pequeña, por ejemplo como WhiteWind para publicar textos largos, eso es viable porque el volumen de eventos es bajo.
      En su mayor parte, está diseñado para que no haga falta autohospedarse.
      Puedes crear tu propio feed algorítmico o frontend usando datos del Relay o AppView operado por Bluesky.

    • Creo que una de las razones por las que BlueSky ha tenido éxito es que, a diferencia de Mastodon, no le vende la “descentralización” al usuario.
      La mayoría de la gente ni sabe qué es la descentralización ni quiere saberlo.
      Me parece que hace falta dedicar más esfuerzo a una buena operación y a funciones de administración que a la descentralización.

    • ATProto cuenta con respaldo de empresas e inversionistas de orígenes muy diversos.
      Algún día ellos también querrán obtener beneficios, y es difícil prever de qué forma ocurrirá eso.

    • Sobre la discusión de los costos operativos, ATProto es estructuralmente muy distinto.
      Mastodon consiste en varios servidores individuales tipo Twitter que intercambian información como el correo electrónico, así que un servidor pequeño para conocidos sale barato.
      Pero en esa estructura la conectividad con la red global es débil, y tu servidor es tu identidad.
      Si sigues a usuarios de otros servidores, tu servidor le pide la información a esos servidores, pero en esencia la vista de toda la red queda fragmentada.
      ATProto, en cambio, fue dividido desde el principio de una forma distinta para poder competir con servicios centralizados, separando el origen de los datos de la agregación de la aplicación.
      Es algo parecido a que cada usuario publique JSON en su propio sitio web (url) y luego una app agregue esos datos.
      El resultado es que todos terminan teniendo la misma vista (con todos los comentarios, likes y respuestas reflejados).
      Mientras que en Mastodon una “instancia” es una webapp de Twitter independiente, en ATProto hay varios primitivos distribuidos.

      • PDS: un almacén de datos independiente de la app; el costo de operarlo uno mismo es extremadamente bajo (menos de 1 dólar al mes por usuario), hay implementaciones open source y se parece al hosting de Git.
      • AppView: hace el papel del backend real de la aplicación; operar un Bluesky AppView que ingiera todos los datos de la red cuesta unos $300 al mes.
        Un AppView que solo vea una parte de la red, como en el modelo de Mastodon, es mucho más barato, pero casi no se usa porque resulta poco atractivo.
      • Relay: optimizado para transmitir datos entre múltiples PDS y AppView; desde Sync 1.1 el precio bajó mucho y ronda los $30 al mes.
        En resumen, operar PDS y Relay es barato; lo caro es operar un AppView completo, y Mastodon ni siquiera tiene un concepto equivalente.
        No tiene mucho sentido comparar simplemente los costos entre la experiencia fragmentada de Mastodon y la experiencia consistente de ATProto.
        Montar un AppView parcial al estilo Mastodon es barato, pero en la práctica tiene poco atractivo.
        Además, Mastodon intenta aliviar algo con on-demand fetching, pero un sistema distribuido basado en pull tiene limitaciones.
        Pregunta relacionada
  • Al final, incluso en los sistemas distribuidos aparece naturalmente la centralización.
    Git también fue un intento de distribución, pero en la práctica se concentra en plataformas como GitHub o GitLab.
    BitTorrent también es distribuido, pero los sitios de trackers funcionan como centros naturales.
    Bitcoin igualmente termina teniendo algunos servicios, como Coinbase, en el centro.
    Incluso el correo electrónico (SMTP) presenta centralización de facto por el problema del spam.

    • En el caso del correo electrónico (SMTP), no es cierto que “solo los grandes pueden filtrar spam”.
      Existen listas distribuidas de filtrado de spam desde hace mucho tiempo, y tampoco es que las grandes empresas tengan una ventaja especial en esto.
      Más bien, los grandes proveedores tienden a considerar spam a los servidores de correo pequeños, e incluso puede haber intención de aplastar competidores.
      Pero tampoco es verdad que si configuras bien el DNS inverso y DKIM en tu servidor de correo igual te marcarán como spam sin remedio; ni siquiera los servicios grandes son absolutos, porque también pueden clasificarse entre sí como spam.

    • Existen muchos sitios de trackers, y si desaparece uno, otro aparece rápido.
      Por eso sigue pudiendo considerarse descentralizado, ya que no hay un único actor controlando el ecosistema.

    • Servicios como Coinbase los puede crear cualquiera.
      De hecho existen varios sitios similares, y ahora hasta PayPal puede usarse.
      Tampoco hace falta depender de un solo servicio; por ejemplo, puedes comprar bitcoin en PayPal y venderlo en Coinbase.
      Me parece raro definir esa situación como centralización.

    • Git en sí no fue una herramienta creada con el objetivo de descentralizar, también está ese punto.

    • Todos los ejemplos mencionados terminan teniendo algún elemento de centralización.

  • En el fedi está más descentralizado, pero le falta consistencia.
    Esa es justamente una de las quejas más comunes entre quienes entran al fedi.
    Personalmente me parece un gran avance y me parece bien, pero es más importante tener expectativas realistas.

    • Me pregunto qué significa exactamente consistencia en este contexto (nunca he usado el fediverso, así que me falta contexto).
  • Me pregunto cómo podría medirse algo como IRC o NNTP con un método tipo HHI.
    Da curiosidad ver qué resultados arrojarían esos sistemas antiguos con este tipo de métrica.

    • Hubo un caso en que freenode cambió de dueño y casi todos migraron en el lapso de una semana.
      Es interesante lo fácil y posible que fue esa movilidad.

    • En entornos pequeños y semiprivados, IRC sigue siendo excelente, especialmente cuando ofrece scroll-back a través de un frontend web.
      Pero cuando crece demasiado, empieza a desmoronarse por diferencias políticas y culturales.
      Funciona muy bien cuando se reúne gente con afinidades similares, pero si se vuelve totalmente público aparecen diferencias de opinión, trolls, bots de IA y demás.
      Si mantienes la interfaz web semiprivada y usas autenticación simple, bloqueo de referrer y medidas similares, puedes evitar amenazas de seguridad, conflictos y bots de terceros.
      NNTP tampoco está mal, pero no es fácil espejar por separado todos los grupos binarios, y como los ISP ya no lo soportan, la mayoría usa feeds comerciales de noticias o proveedores gratuitos de Usenet.
      Conviene hacer peering con algunos proveedores gratuitos para reducir el riesgo de censura.
      Tanto en IRC como en NNTP, las personas pueden crear sus propios servidores enlazados privados o semiprivados.
      Información relacionada

    • Matemáticamente es fácil de calcular, y las estadísticas de red relevantes pueden verse en netsplit.de.

  • Sería interesante agregar Nostr a esta distribución HHI.
    En Nostr, la concentración de la base de usuarios se considera una debilidad importante del modelo fedi, pero como la identidad del usuario no está en un solo relay, aquí el resultado saldría algo raro.

    • Porque la mayoría de los clientes de Nostr envían datos a varios relays, y la cuenta en sí es el par de claves públicas del dispositivo del usuario.
  • Me pregunto si este problema de centralización/descentralización no será siempre, al final, un problema de marketing y UX.

  • Sería interesante ver qué cambia si Threads entra al Fediverse.

    • Threads también ofrece por su cuenta controles de privacidad más fuertes en modalidad opt-in, pero aun así creo que al final puede verse como uno de los “servidores que poseen los datos de los usuarios” dentro del Fediverse.
  • Lo importante es mantener bien el equilibrio.
    Si todo está demasiado descentralizado, nadie encuentra nada; si está demasiado centralizado, la censura termina borrando la libertad.

    • Personalmente me pregunto si en un entorno distribuido la encontrabilidad realmente es algo imposible.
      Si se invierten suficientes recursos en indexación (dinero, personal, etc.), quizá ese punto medio podría mantenerse, aunque de forma inestable, como equilibrar un péndulo al revés.
      En la época dorada de los blogs sí hubo cierta armonía entre motores de búsqueda (centro) y blogs/foros (individuales), aunque con el tiempo eso se fue debilitando por el spam y la integración en grandes plataformas.

    • Quiero señalar que eso parte del supuesto de que la función de “descubrimiento” necesariamente requiere un elemento centralizado.

    • En economía, un HHI menor a 100 se considera “muy competitivo”, menor a 1500 “no concentrado” y mayor a 2500 “altamente concentrado”.
      El Fediverse está casi en el extremo izquierdo y aun así ya marca 690.
      Una centralización completa (arriba del todo) sería 5000.
      En realidad se está mostrando una escala no lineal de forma lineal.

    • Quiero poder elegir artificialmente.
      Me gustaría que el usuario pudiera escoger directamente entre centralización, descentralización, híbrido y otras opciones.

    • Si existe la crítica de que “está demasiado descentralizado”, una organización sin fines de lucro podría crear un índice donde hosts públicos se registren voluntariamente para que todo el contenido distribuido pueda encontrarse.
      De esa forma también podría resolverse el problema de la búsqueda.
      Al final, quizá Facebook intente llevarse esos datos con Threads.

  • La métrica HHI en sí me parece nueva y fácil de entender.
    Si se redujera a una escala de 0 a 100 (dividiéndola entre 100), tal vez el número sería más intuitivo.
    También podría valer la pena invertirla para que 0 sea centralización y 100 sea distribución total.
    Como el título de la página da la impresión de medir el “progreso” hacia la descentralización, eso quizá sería más intuitivo.

    • Sin embargo, puede que no se haya normalizado a 0–100 precisamente para evitar que la gente interprete la cifra de forma lineal.
      Ver una puntuación de 2500 hace que te preguntes qué significa, pero si apareciera como 25/100, transmitiría mucho menos la sensación de “alta concentración”.