1 puntos por GN⁺ 13 일 전 | 2 comentarios | Compartir por WhatsApp
  • Darkbloom es una red de inferencia de IA distribuida que conecta Macs con Apple Silicon inactivas para ejecutar cargas de IA en dispositivos personales sin depender de una nube central
  • Elimina la estructura de triple margen entre fabricantes de GPU, nube y proveedores de API, logrando hasta 70% de ahorro de costos
  • Todas las solicitudes están cifradas de extremo a extremo, por lo que los operadores no pueden ver los datos de los usuarios, y la confianza se garantiza con una cadena de atestación basada en hardware de seguridad de Apple
  • Ofrece una API compatible con OpenAI que soporta las mismas funciones que los SDK existentes, como chat, generación de imágenes y reconocimiento de voz
  • Los operadores conservan entre 95% y 100% de los ingresos y pueden obtener ingresos en USD con Macs inactivas sin costos adicionales más allá de la electricidad

Red personal de inferencia de IA con Macs inactivas

  • Darkbloom es una red de inferencia de IA distribuida desarrollada por Eigen Labs que conecta Macs con Apple Silicon inactivas para ejecutar cargas de IA
  • Hoy, el cómputo de IA pasa por una estructura de margen en 3 etapas: fabricante de GPU → hiperescalador → proveedor de API → usuario final; Darkbloom elimina esa cadena y logra hasta 70% de ahorro de costos
  • Los operadores de la red no pueden ver los datos de los usuarios, y todas las solicitudes se procesan con cifrado de extremo a extremo
  • La API es compatible con OpenAI y soporta chat, generación de imágenes y reconocimiento de voz igual que los SDK existentes
  • Los operadores conservan entre 95% y 100% de los ingresos, con casi ningún costo adicional aparte de la electricidad

Funciones para usuarios

  • Como el costo marginal del hardware inactivo es casi 0, el ahorro se refleja directamente en el precio para el usuario
  • Mediante una API compatible con OpenAI, ofrece chat, generación de imágenes y conversión de voz a texto
  • Todas las solicitudes se transmiten con cifrado de extremo a extremo

Funciones para dueños de hardware

  • Quienes tienen una Mac con Apple Silicon pueden ejecutar inferencia de IA durante el tiempo ocioso para obtener ingresos en USD
  • Los operadores conservan 100% de los ingresos por inferencia, y el costo eléctrico ronda entre $0.01 y $0.03 por hora
  • El resto se convierte en ganancia neta

Problema estructural del mercado de cómputo de IA

  • El mercado actual de cómputo de IA sigue una estructura de triple margen: fabricante de GPU → proveedor de nube → empresa de IA → usuario final
  • Como resultado, el usuario final paga más de 3 veces el costo real del silicio
  • Mientras tanto, más de 100 millones de dispositivos con Apple Silicon permanecen inactivos más de 18 horas al día en promedio
  • Si se conectan estos recursos de cómputo ociosos, se puede aprovechar un modelo de activos distribuidos como Airbnb o Uber
  • Darkbloom convierte estas Macs inactivas en nodos de inferencia de IA para reemplazar infraestructura centralizada

Problema de confianza y desafío de solución

  • El problema central en una red de cómputo distribuido es la confiabilidad
  • Los usuarios deben procesar sus datos en dispositivos de terceros desconocidos, por lo que una seguridad basada solo en términos de servicio no es suficiente
  • Sin Privacidad Verificable (Verifiable Privacy), la inferencia distribuida no es posible

Enfoque técnico de Darkbloom

  • Eliminación de rutas de acceso

    • Elimina todas las rutas de software por las que el operador podría acceder a los datos
    • Está compuesto por cuatro capas independientes, cada una verificable
  • Capa de cifrado

    • Las solicitudes se cifran en el dispositivo del usuario antes de la transmisión
    • El Coordinator solo enruta texto cifrado, y solo la clave de hardware del nodo de destino puede descifrarlo
  • Capa de hardware

    • Cada nodo posee una clave generada dentro del hardware de seguridad de Apple
    • Se verifica mediante una cadena de atestación (attestation chain) que parte de la Apple Root CA
  • Capa de runtime

    • El proceso de inferencia se bloquea a nivel de sistema operativo
    • Se bloquean la conexión de depuradores y la inspección de memoria
    • El operador no puede extraer datos de un proceso en ejecución
  • Capa de salida

    • Todas las respuestas pueden verificarse con la firma de ese hardware
    • La cadena completa de atestación se publica para que cualquiera pueda verificarla de forma independiente
  • Como resultado, el operador ejecuta la inferencia pero no puede ver los datos

    • El prompt se cifra antes de enviarse
    • El Coordinator enruta sin poder leer el contenido
    • El Provider descifra y ejecuta dentro de un entorno aislado y verificado
    • La cadena de atestación se publica para garantizar transparencia

Detalles de implementación

  • API compatible con OpenAI

    • Totalmente compatible con los SDK existentes de OpenAI
    • Puede usarse con el mismo código solo cambiando la Base URL
    • Soporta Streaming, Function Calling, Image Generation y Speech-to-Text
    • Funciones compatibles
    • Streaming: basado en SSE, formato OpenAI
    • Image Generation: FLUX.2 on Metal
    • Speech-to-Text: Cohere Transcribe
    • Large MoE: soporte para modelos de hasta 239B parámetros

Resultado de comparación de costos

  • Como el costo marginal del hardware inactivo es casi nulo, se genera un efecto de reducción de precio
  • Sin suscripción ni consumo mínimo
  • Aproximadamente 50% más barato que OpenRouter
Modelo Entrada Salida OpenRouter Ahorro
Gemma 4 26B4B $0.03 $0.20 $0.40 50%
Qwen3.5 27B $0.10 $0.78 $1.56 50%
Qwen3.5 122B MoE $0.13 $1.04 $2.08 50%
MiniMax M2.5 239B $0.06 $0.50 $1.00 50%
  • Generación de imágenes: $0.0015/imagen (50% frente a Together.ai)
  • Reconocimiento de voz: $0.001/minuto (50% frente a AssemblyAI)
  • Comisión de plataforma 0%, el operador conserva 100% de los ingresos

Economía para operadores

  • Al aportar un dispositivo con Apple Silicon, es posible obtener ingresos en USD
  • Sin costos adicionales aparte de la electricidad, con 100% de retención de ingresos
  • Soporta instalación por CLI, y una app de barra de menú para macOS está en desarrollo
  • Método de instalación

    • Descarga el binario del provider mediante un comando de terminal y registra un servicio launchd
    • Sin dependencias**,** actualizaciones automáticas**,** ejecución en segundo plano

      • macOS 14 o superior, solo para Apple Silicon
  • Ingresos estimados

    • Se pueden proyectar ingresos con una base de 18 horas de operación diaria
    • Los ingresos reales varían según la demanda de la red y la popularidad de los modelos

Investigación y catálogo de modelos

  • El paper de investigación explica en detalle la arquitectura, el modelo de amenazas, el análisis de seguridad y el modelo económico
  • Trata una arquitectura de inferencia privada basada en verificación de hardware
  • Enlace para descargar el PDF
  • Modelos disponibles

    • Gemma 4 26B: último MoE multimodal de Google, 4B de parámetros activos
    • Qwen3.5 27B: modelo de razonamiento de alta calidad (destilación de Claude Opus)
    • Qwen3.5 122B MoE: 10B de parámetros activos, máxima calidad por token
    • MiniMax M2.5 239B: modelo SOTA para código, 100 tok/s en Mac Studio
    • Cohere Transcribe: conformer 2B, conversión de voz a texto de primer nivel

2 comentarios

 
shw00 9 일 전

Conceptualmente es interesante, pero sí queda la duda de si en la práctica va a funcionar bien. Como también salió en algunas opiniones de HN, un mercado de dos lados (two-sided market) tiene el gran problema de que hay que lograr atraer clientes iniciales en ambos frentes.

 
GN⁺ 13 일 전
Comentarios de Hacker News
  • Siento que sus cálculos de ingresos no son creíbles
    Si una Mac mini se paga sola en 2~4 meses y luego genera entre 1 y 2 mil dólares al mes, entonces me pregunto por qué ellos no simplemente compran Mac mini y las ponen a trabajar

    • El cálculo en sí se basa en supuestos optimistas. Asume que siempre hay demanda para todas las máquinas
      Ahora mismo no es así, pero esperan que algún día lo sea. Por eso no recomiendan comprar equipos nuevos. Si lo corres con un equipo que ya tienes, el costo es casi nulo
      La electricidad solo se consume cuando llegan solicitudes, y cada una de ellas lo compensa
      Si tienes preguntas, puedes mandarle un DM a @gajesh
    • Si empiezan a comprar Mac mini directamente, terminan construyendo un pequeño centro de datos por temas de energía, refrigeración y almacenamiento
      Empiezan a jugar las economías de escala y cada vez querrán centros más grandes, pero eso cuesta mucho y a los vecinos tampoco les gusta
      Al final parece una guerra asimétrica contra los hiperescaladores
    • Ningún proveedor de GPU mantiene una utilización del 100%. La demanda sube y baja
      Por ejemplo, durante el horario del mercado bursátil hay movimiento, pero fuera de eso está tranquilo
      Si no sobreaprovisionas, los clientes se van; si lo haces demasiado, baja la rentabilidad
      Siendo realistas, parece que la utilización sería de 1/8. Haciendo cuentas con mi M4 Pro mini, con el modelo Gemma 4 serían unos 24 dólares al mes
    • La clave es que no tienen suficiente capital inicial. La mayoría de la gente ya tiene una computadora ociosa, y solo hay que convencerla de instalar el software
      Comprar y mantener el hardware por cuenta propia sale mucho más caro. La inversión inicial es la mayor barrera de entrada
    • Hay muchas Mac ociosas en el mundo, así que reunir una base de usuarios es fácil
      Se puede empezar sin financiamiento de VC y la diferenciación es clara
      Eso sí, alguien podría implementar lo mismo con una comisión más alta, así que es importante ganar mercado primero
  • Yo mismo lo instalé, pero no estaba muy pulido
    Hubo muchos errores, como fallos al descargar modelos de imagen y al cargar modelos de audio/TTS
    Serví Gemma durante 15 minutos, pero hubo 0 solicitudes reales de inferencia; solo entraron varios health checks
    En este momento falta demanda, así que la proyección de ingresos no cuadra

    • Lleva apenas un día desde el lanzamiento, así que es normal que todavía no haya demanda. Hace falta algo de tiempo
    • Me pregunto si alguien del otro lado realmente hizo una prueba enviando prompts y recibiendo respuestas
    • Si ves la página de estadísticas, hay muchos proveedores pero casi nada de demanda real
      Parece que ahorita están enfocados en conseguir proveedores, y urge atraer clientes de pago
    • Pensé que al menos al principio generarían solicitudes por su cuenta para dar motivación para hospedar, pero no existe esa función
    • Yo también vi el mismo error, y en los logs aparecía la advertencia “STT backend healthcheck failed”. Incluso si hubiera demanda real, eso podría ser la causa
  • Para usar este servicio tienes que instalar MDM (software de administración de dispositivos)
    En la práctica, desde ese momento esa computadora queda bajo su control
    Jamás lo recomendaría en una computadora donde haces tareas sensibles, como banca en línea

    • En macOS, el MDM tiene permisos limitados por AccessRights, así que no puede hacer cosas como reemplazar certificados SSL
      Pero su política de privacidad es floja, así que cuesta confiar
    • MDM es una condición totalmente inaceptable. No voy a convertir mi MacBook en un posible ladrillo
      Además, no vale la pena asumir ese riesgo por ganar unos pocos dólares al mes
  • Dicen que usan TEE (Trusted Execution Environment) para verificar la integridad del modelo y del código
    En AWS hice algo parecido, pero me pregunto si realmente se puede proteger la memoria cuando usas GPU
    El artículo relacionado se puede ver aquí

    • Todo el paper tiene olor a LLM. El uso excesivo de fórmulas le quita credibilidad
    • En la práctica, si envías datos a un servidor externo, cierto nivel de retención de datos es inevitable
      Es más seguro usarlo para cosas no comerciales como clasificación o generación de imágenes, en lugar de datos sensibles
    • Apple Silicon usa memoria unificada para CPU y GPU
      El paper afirma que la técnica de tablas de páginas del hipervisor protege la memoria de la GPU frente a RDMA
    • Las Mac no tienen un TEE de hardware como SGX; solo existe el Secure Enclave
  • Hoy en día, en una MacBook la privacidad verificable es físicamente imposible
    Existe Secure Enclave, pero no es un enclave abierto como SGX/TDX/SEV
    Al final solo es seguridad al nivel del endurecimiento del sistema operativo, no un verdadero entorno de ejecución confidencial

    • Tengo experiencia construyendo directamente con el SDK de SGX. En la plataforma de Apple se puede implementar hasta cierto punto un nivel de seguridad parecido
      macOS tiene una estructura bastante confiable si se puede hacer atestación remota de la secuencia de arranque y de la configuración de TCC
      No es perfecto como SGX, pero en usabilidad es mejor
    • Siento que unos nodos distribuidos aleatorios inspiran más confianza que un proveedor centralizado (OpenAI, etc.)
    • Si el incentivo es suficientemente alto, cualquier clave de hardware termina siendo vulnerada. Sus afirmaciones rozan el exceso de confianza
  • Haciendo cuentas simples, mi M5 Pro genera 130 tokens por segundo (4 streams) con Gemma 4 26B
    El precio de Darkbloom es de $0.20 por Mtok, así que funcionando 24 horas daría unos $67 al mes
    Restando el costo de energía, serían como $9 mensuales en gastos, así que es un ingreso extra de unos $700 al año

    • En realidad consume bastante más que 50W. La electricidad es cara y el desgaste del hardware también se acelera
      Personalmente, la idea me parece más interesante que la rentabilidad
    • Sus cálculos toman 414 tok/s para Gemma 4 26B
      Y al calcular la energía usan el truco de restar 12W de consumo en reposo, pero la mayoría de la gente no deja la computadora encendida 24/7
    • 130 tok/s suena alto. Me da curiosidad bajo qué cuantización (quantization)
    • No consideran las fallas de hardware. Yo minaba con GPU hace tiempo y un ventilador se me murió en un mes, así que perdí dinero
    • Incluso OpenAI solo tiene 5% de clientes de pago, así que dudo que este modelo sea sostenible
      Antes hubo intentos como almacenamiento distribuido tipo Cubbit, pero fracasaron
  • Algo que quisiera decirle a @eigengajesh es que la Mac Mini M4 Pro también tiene opción de 64GB
    Y hay varios bugs: fallo al cargar metallib, descarga 404 del modelo, inconsistencia en la documentación sobre el reparto de ingresos (100% vs 95%), etc.
    En general hay mucha documentación que parece escrita por un LLM, y sería mejor pulirla un poco más antes de publicarla

  • Este proyecto me recuerda a DataseamGrid, que antes se desplegó en computadoras escolares
    Era una red de cómputo distribuido con una idea parecida

  • Es un concepto interesante. Un mercado de dos lados (two-sided marketplace) es difícil de arrancar al principio, pero la curiosidad podría darle impulso
    Si no solo atraen proveedores sino que también logran que la gente use el servicio por sí misma, podrían equilibrar oferta y demanda
    Me gustaría que hubiera una versión self-hosted para empresas. Muchas compañías tienen inventario de Mac, así que podrían usarlo como red interna de inferencia

  • La privacidad basada en hardware también es interesante, pero económicamente el gran riesgo es el costo de carga
    Por ejemplo, en el modelo MiniMax M2.5 239B, aunque solo se activen 11B de los 239B, igual hay que cargar 120GB
    Cargar eso desde SSD toma varias decenas de segundos
    Si una solicitud se enruta a otra Mac, cada vez aparece una latencia por carga en frío
    Si mantienes siempre el modelo en memoria, sube el costo de energía; si no, aumenta la latencia
    En especial, las Mac de 16GB~32GB ni siquiera pueden hospedar modelos grandes, así que en la práctica los proveedores viables serían muy pocos