Darkbloom – red personal de inferencia de IA con Macs inactivas
(darkbloom.dev)- Darkbloom es una red de inferencia de IA distribuida que conecta Macs con Apple Silicon inactivas para ejecutar cargas de IA en dispositivos personales sin depender de una nube central
- Elimina la estructura de triple margen entre fabricantes de GPU, nube y proveedores de API, logrando hasta 70% de ahorro de costos
- Todas las solicitudes están cifradas de extremo a extremo, por lo que los operadores no pueden ver los datos de los usuarios, y la confianza se garantiza con una cadena de atestación basada en hardware de seguridad de Apple
- Ofrece una API compatible con OpenAI que soporta las mismas funciones que los SDK existentes, como chat, generación de imágenes y reconocimiento de voz
- Los operadores conservan entre 95% y 100% de los ingresos y pueden obtener ingresos en USD con Macs inactivas sin costos adicionales más allá de la electricidad
Red personal de inferencia de IA con Macs inactivas
- Darkbloom es una red de inferencia de IA distribuida desarrollada por Eigen Labs que conecta Macs con Apple Silicon inactivas para ejecutar cargas de IA
- Hoy, el cómputo de IA pasa por una estructura de margen en 3 etapas: fabricante de GPU → hiperescalador → proveedor de API → usuario final; Darkbloom elimina esa cadena y logra hasta 70% de ahorro de costos
- Los operadores de la red no pueden ver los datos de los usuarios, y todas las solicitudes se procesan con cifrado de extremo a extremo
- La API es compatible con OpenAI y soporta chat, generación de imágenes y reconocimiento de voz igual que los SDK existentes
- Los operadores conservan entre 95% y 100% de los ingresos, con casi ningún costo adicional aparte de la electricidad
Funciones para usuarios
- Como el costo marginal del hardware inactivo es casi 0, el ahorro se refleja directamente en el precio para el usuario
- Mediante una API compatible con OpenAI, ofrece chat, generación de imágenes y conversión de voz a texto
- Todas las solicitudes se transmiten con cifrado de extremo a extremo
Funciones para dueños de hardware
- Quienes tienen una Mac con Apple Silicon pueden ejecutar inferencia de IA durante el tiempo ocioso para obtener ingresos en USD
- Los operadores conservan 100% de los ingresos por inferencia, y el costo eléctrico ronda entre $0.01 y $0.03 por hora
- El resto se convierte en ganancia neta
Problema estructural del mercado de cómputo de IA
- El mercado actual de cómputo de IA sigue una estructura de triple margen: fabricante de GPU → proveedor de nube → empresa de IA → usuario final
- Como resultado, el usuario final paga más de 3 veces el costo real del silicio
- Mientras tanto, más de 100 millones de dispositivos con Apple Silicon permanecen inactivos más de 18 horas al día en promedio
- Si se conectan estos recursos de cómputo ociosos, se puede aprovechar un modelo de activos distribuidos como Airbnb o Uber
- Darkbloom convierte estas Macs inactivas en nodos de inferencia de IA para reemplazar infraestructura centralizada
Problema de confianza y desafío de solución
- El problema central en una red de cómputo distribuido es la confiabilidad
- Los usuarios deben procesar sus datos en dispositivos de terceros desconocidos, por lo que una seguridad basada solo en términos de servicio no es suficiente
- Sin Privacidad Verificable (Verifiable Privacy), la inferencia distribuida no es posible
Enfoque técnico de Darkbloom
-
Eliminación de rutas de acceso
- Elimina todas las rutas de software por las que el operador podría acceder a los datos
- Está compuesto por cuatro capas independientes, cada una verificable
-
Capa de cifrado
- Las solicitudes se cifran en el dispositivo del usuario antes de la transmisión
- El Coordinator solo enruta texto cifrado, y solo la clave de hardware del nodo de destino puede descifrarlo
-
Capa de hardware
- Cada nodo posee una clave generada dentro del hardware de seguridad de Apple
- Se verifica mediante una cadena de atestación (attestation chain) que parte de la Apple Root CA
-
Capa de runtime
- El proceso de inferencia se bloquea a nivel de sistema operativo
- Se bloquean la conexión de depuradores y la inspección de memoria
- El operador no puede extraer datos de un proceso en ejecución
-
Capa de salida
- Todas las respuestas pueden verificarse con la firma de ese hardware
- La cadena completa de atestación se publica para que cualquiera pueda verificarla de forma independiente
-
Como resultado, el operador ejecuta la inferencia pero no puede ver los datos
- El prompt se cifra antes de enviarse
- El Coordinator enruta sin poder leer el contenido
- El Provider descifra y ejecuta dentro de un entorno aislado y verificado
- La cadena de atestación se publica para garantizar transparencia
Detalles de implementación
-
API compatible con OpenAI
- Totalmente compatible con los SDK existentes de OpenAI
- Puede usarse con el mismo código solo cambiando la Base URL
- Soporta Streaming, Function Calling, Image Generation y Speech-to-Text
- Funciones compatibles
- Streaming: basado en SSE, formato OpenAI
- Image Generation: FLUX.2 on Metal
- Speech-to-Text: Cohere Transcribe
- Large MoE: soporte para modelos de hasta 239B parámetros
Resultado de comparación de costos
- Como el costo marginal del hardware inactivo es casi nulo, se genera un efecto de reducción de precio
- Sin suscripción ni consumo mínimo
- Aproximadamente 50% más barato que OpenRouter
| Modelo | Entrada | Salida | OpenRouter | Ahorro |
|---|---|---|---|---|
| Gemma 4 26B4B | $0.03 | $0.20 | $0.40 | 50% |
| Qwen3.5 27B | $0.10 | $0.78 | $1.56 | 50% |
| Qwen3.5 122B MoE | $0.13 | $1.04 | $2.08 | 50% |
| MiniMax M2.5 239B | $0.06 | $0.50 | $1.00 | 50% |
- Generación de imágenes: $0.0015/imagen (50% frente a Together.ai)
- Reconocimiento de voz: $0.001/minuto (50% frente a AssemblyAI)
- Comisión de plataforma 0%, el operador conserva 100% de los ingresos
Economía para operadores
- Al aportar un dispositivo con Apple Silicon, es posible obtener ingresos en USD
- Sin costos adicionales aparte de la electricidad, con 100% de retención de ingresos
- Soporta instalación por CLI, y una app de barra de menú para macOS está en desarrollo
-
Método de instalación
- Descarga el binario del provider mediante un comando de terminal y registra un servicio launchd
-
Sin dependencias**,** actualizaciones automáticas**,** ejecución en segundo plano
- macOS 14 o superior, solo para Apple Silicon
-
Ingresos estimados
- Se pueden proyectar ingresos con una base de 18 horas de operación diaria
- Los ingresos reales varían según la demanda de la red y la popularidad de los modelos
Investigación y catálogo de modelos
- El paper de investigación explica en detalle la arquitectura, el modelo de amenazas, el análisis de seguridad y el modelo económico
- Trata una arquitectura de inferencia privada basada en verificación de hardware
- Enlace para descargar el PDF
-
Modelos disponibles
- Gemma 4 26B: último MoE multimodal de Google, 4B de parámetros activos
- Qwen3.5 27B: modelo de razonamiento de alta calidad (destilación de Claude Opus)
- Qwen3.5 122B MoE: 10B de parámetros activos, máxima calidad por token
- MiniMax M2.5 239B: modelo SOTA para código, 100 tok/s en Mac Studio
- Cohere Transcribe: conformer 2B, conversión de voz a texto de primer nivel
2 comentarios
Conceptualmente es interesante, pero sí queda la duda de si en la práctica va a funcionar bien. Como también salió en algunas opiniones de HN, un mercado de dos lados (
two-sided market) tiene el gran problema de que hay que lograr atraer clientes iniciales en ambos frentes.Comentarios de Hacker News
Siento que sus cálculos de ingresos no son creíbles
Si una Mac mini se paga sola en 2~4 meses y luego genera entre 1 y 2 mil dólares al mes, entonces me pregunto por qué ellos no simplemente compran Mac mini y las ponen a trabajar
Ahora mismo no es así, pero esperan que algún día lo sea. Por eso no recomiendan comprar equipos nuevos. Si lo corres con un equipo que ya tienes, el costo es casi nulo
La electricidad solo se consume cuando llegan solicitudes, y cada una de ellas lo compensa
Si tienes preguntas, puedes mandarle un DM a @gajesh
Empiezan a jugar las economías de escala y cada vez querrán centros más grandes, pero eso cuesta mucho y a los vecinos tampoco les gusta
Al final parece una guerra asimétrica contra los hiperescaladores
Por ejemplo, durante el horario del mercado bursátil hay movimiento, pero fuera de eso está tranquilo
Si no sobreaprovisionas, los clientes se van; si lo haces demasiado, baja la rentabilidad
Siendo realistas, parece que la utilización sería de 1/8. Haciendo cuentas con mi M4 Pro mini, con el modelo Gemma 4 serían unos 24 dólares al mes
Comprar y mantener el hardware por cuenta propia sale mucho más caro. La inversión inicial es la mayor barrera de entrada
Se puede empezar sin financiamiento de VC y la diferenciación es clara
Eso sí, alguien podría implementar lo mismo con una comisión más alta, así que es importante ganar mercado primero
Yo mismo lo instalé, pero no estaba muy pulido
Hubo muchos errores, como fallos al descargar modelos de imagen y al cargar modelos de audio/TTS
Serví Gemma durante 15 minutos, pero hubo 0 solicitudes reales de inferencia; solo entraron varios health checks
En este momento falta demanda, así que la proyección de ingresos no cuadra
Parece que ahorita están enfocados en conseguir proveedores, y urge atraer clientes de pago
Para usar este servicio tienes que instalar MDM (software de administración de dispositivos)
En la práctica, desde ese momento esa computadora queda bajo su control
Jamás lo recomendaría en una computadora donde haces tareas sensibles, como banca en línea
Pero su política de privacidad es floja, así que cuesta confiar
Además, no vale la pena asumir ese riesgo por ganar unos pocos dólares al mes
Dicen que usan TEE (Trusted Execution Environment) para verificar la integridad del modelo y del código
En AWS hice algo parecido, pero me pregunto si realmente se puede proteger la memoria cuando usas GPU
El artículo relacionado se puede ver aquí
Es más seguro usarlo para cosas no comerciales como clasificación o generación de imágenes, en lugar de datos sensibles
El paper afirma que la técnica de tablas de páginas del hipervisor protege la memoria de la GPU frente a RDMA
Hoy en día, en una MacBook la privacidad verificable es físicamente imposible
Existe Secure Enclave, pero no es un enclave abierto como SGX/TDX/SEV
Al final solo es seguridad al nivel del endurecimiento del sistema operativo, no un verdadero entorno de ejecución confidencial
macOS tiene una estructura bastante confiable si se puede hacer atestación remota de la secuencia de arranque y de la configuración de TCC
No es perfecto como SGX, pero en usabilidad es mejor
Haciendo cuentas simples, mi M5 Pro genera 130 tokens por segundo (4 streams) con Gemma 4 26B
El precio de Darkbloom es de $0.20 por Mtok, así que funcionando 24 horas daría unos $67 al mes
Restando el costo de energía, serían como $9 mensuales en gastos, así que es un ingreso extra de unos $700 al año
Personalmente, la idea me parece más interesante que la rentabilidad
Y al calcular la energía usan el truco de restar 12W de consumo en reposo, pero la mayoría de la gente no deja la computadora encendida 24/7
Antes hubo intentos como almacenamiento distribuido tipo Cubbit, pero fracasaron
Algo que quisiera decirle a @eigengajesh es que la Mac Mini M4 Pro también tiene opción de 64GB
Y hay varios bugs: fallo al cargar metallib, descarga 404 del modelo, inconsistencia en la documentación sobre el reparto de ingresos (100% vs 95%), etc.
En general hay mucha documentación que parece escrita por un LLM, y sería mejor pulirla un poco más antes de publicarla
Este proyecto me recuerda a DataseamGrid, que antes se desplegó en computadoras escolares
Era una red de cómputo distribuido con una idea parecida
Es un concepto interesante. Un mercado de dos lados (two-sided marketplace) es difícil de arrancar al principio, pero la curiosidad podría darle impulso
Si no solo atraen proveedores sino que también logran que la gente use el servicio por sí misma, podrían equilibrar oferta y demanda
Me gustaría que hubiera una versión self-hosted para empresas. Muchas compañías tienen inventario de Mac, así que podrían usarlo como red interna de inferencia
La privacidad basada en hardware también es interesante, pero económicamente el gran riesgo es el costo de carga
Por ejemplo, en el modelo MiniMax M2.5 239B, aunque solo se activen 11B de los 239B, igual hay que cargar 120GB
Cargar eso desde SSD toma varias decenas de segundos
Si una solicitud se enruta a otra Mac, cada vez aparece una latencia por carga en frío
Si mantienes siempre el modelo en memoria, sube el costo de energía; si no, aumenta la latencia
En especial, las Mac de 16GB~32GB ni siquiera pueden hospedar modelos grandes, así que en la práctica los proveedores viables serían muy pocos