Darkbloom – red personal de inferencia de IA con Macs inactivas

(darkbloom.dev)

1 puntos por GN⁺ 13 일 전 | 2 comentarios | Compartir por WhatsApp

Darkbloom es una red de inferencia de IA distribuida que conecta Macs con Apple Silicon inactivas para ejecutar cargas de IA en dispositivos personales sin depender de una nube central
Elimina la estructura de triple margen entre fabricantes de GPU, nube y proveedores de API, logrando hasta 70% de ahorro de costos
Todas las solicitudes están cifradas de extremo a extremo, por lo que los operadores no pueden ver los datos de los usuarios, y la confianza se garantiza con una cadena de atestación basada en hardware de seguridad de Apple
Ofrece una API compatible con OpenAI que soporta las mismas funciones que los SDK existentes, como chat, generación de imágenes y reconocimiento de voz
Los operadores conservan entre 95% y 100% de los ingresos y pueden obtener ingresos en USD con Macs inactivas sin costos adicionales más allá de la electricidad

Red personal de inferencia de IA con Macs inactivas

Darkbloom es una red de inferencia de IA distribuida desarrollada por Eigen Labs que conecta Macs con Apple Silicon inactivas para ejecutar cargas de IA
Hoy, el cómputo de IA pasa por una estructura de margen en 3 etapas: fabricante de GPU → hiperescalador → proveedor de API → usuario final; Darkbloom elimina esa cadena y logra hasta 70% de ahorro de costos
Los operadores de la red no pueden ver los datos de los usuarios, y todas las solicitudes se procesan con cifrado de extremo a extremo
La API es compatible con OpenAI y soporta chat, generación de imágenes y reconocimiento de voz igual que los SDK existentes
Los operadores conservan entre 95% y 100% de los ingresos, con casi ningún costo adicional aparte de la electricidad

Funciones para usuarios

Como el costo marginal del hardware inactivo es casi 0, el ahorro se refleja directamente en el precio para el usuario
Mediante una API compatible con OpenAI, ofrece chat, generación de imágenes y conversión de voz a texto
Todas las solicitudes se transmiten con cifrado de extremo a extremo

Funciones para dueños de hardware

Quienes tienen una Mac con Apple Silicon pueden ejecutar inferencia de IA durante el tiempo ocioso para obtener ingresos en USD
Los operadores conservan 100% de los ingresos por inferencia, y el costo eléctrico ronda entre $0.01 y $0.03 por hora
El resto se convierte en ganancia neta

Problema estructural del mercado de cómputo de IA

El mercado actual de cómputo de IA sigue una estructura de triple margen: fabricante de GPU → proveedor de nube → empresa de IA → usuario final
Como resultado, el usuario final paga más de 3 veces el costo real del silicio
Mientras tanto, más de 100 millones de dispositivos con Apple Silicon permanecen inactivos más de 18 horas al día en promedio
Si se conectan estos recursos de cómputo ociosos, se puede aprovechar un modelo de activos distribuidos como Airbnb o Uber
Darkbloom convierte estas Macs inactivas en nodos de inferencia de IA para reemplazar infraestructura centralizada

Problema de confianza y desafío de solución

El problema central en una red de cómputo distribuido es la confiabilidad
Los usuarios deben procesar sus datos en dispositivos de terceros desconocidos, por lo que una seguridad basada solo en términos de servicio no es suficiente
Sin Privacidad Verificable (Verifiable Privacy), la inferencia distribuida no es posible

Enfoque técnico de Darkbloom

Eliminación de rutas de acceso
- Elimina todas las rutas de software por las que el operador podría acceder a los datos
- Está compuesto por cuatro capas independientes, cada una verificable
Capa de cifrado
- Las solicitudes se cifran en el dispositivo del usuario antes de la transmisión
- El Coordinator solo enruta texto cifrado, y solo la clave de hardware del nodo de destino puede descifrarlo
Capa de hardware
- Cada nodo posee una clave generada dentro del hardware de seguridad de Apple
- Se verifica mediante una cadena de atestación (attestation chain) que parte de la Apple Root CA
Capa de runtime
- El proceso de inferencia se bloquea a nivel de sistema operativo
- Se bloquean la conexión de depuradores y la inspección de memoria
- El operador no puede extraer datos de un proceso en ejecución
Capa de salida
- Todas las respuestas pueden verificarse con la firma de ese hardware
- La cadena completa de atestación se publica para que cualquiera pueda verificarla de forma independiente
Como resultado, el operador ejecuta la inferencia pero no puede ver los datos
- El prompt se cifra antes de enviarse
- El Coordinator enruta sin poder leer el contenido
- El Provider descifra y ejecuta dentro de un entorno aislado y verificado
- La cadena de atestación se publica para garantizar transparencia

Detalles de implementación

API compatible con OpenAI
- Totalmente compatible con los SDK existentes de OpenAI
- Puede usarse con el mismo código solo cambiando la Base URL
- Soporta Streaming, Function Calling, Image Generation y Speech-to-Text
- Funciones compatibles
- Streaming: basado en SSE, formato OpenAI
- Image Generation: FLUX.2 on Metal
- Speech-to-Text: Cohere Transcribe
- Large MoE: soporte para modelos de hasta 239B parámetros

Resultado de comparación de costos

Como el costo marginal del hardware inactivo es casi nulo, se genera un efecto de reducción de precio
Sin suscripción ni consumo mínimo
Aproximadamente 50% más barato que OpenRouter

Modelo	Entrada	Salida	OpenRouter	Ahorro
Gemma 4 26B4B	$0.03	$0.20	$0.40	50%
Qwen3.5 27B	$0.10	$0.78	$1.56	50%
Qwen3.5 122B MoE	$0.13	$1.04	$2.08	50%
MiniMax M2.5 239B	$0.06	$0.50	$1.00	50%

Generación de imágenes: $0.0015/imagen (50% frente a Together.ai)
Reconocimiento de voz: $0.001/minuto (50% frente a AssemblyAI)
Comisión de plataforma 0%, el operador conserva 100% de los ingresos

Economía para operadores

Al aportar un dispositivo con Apple Silicon, es posible obtener ingresos en USD
Sin costos adicionales aparte de la electricidad, con 100% de retención de ingresos
Soporta instalación por CLI, y una app de barra de menú para macOS está en desarrollo
Método de instalación
- Descarga el binario del provider mediante un comando de terminal y registra un servicio launchd
- Sin dependencias**,** actualizaciones automáticas**,** ejecución en segundo plano
  - macOS 14 o superior, solo para Apple Silicon
Ingresos estimados
- Se pueden proyectar ingresos con una base de 18 horas de operación diaria
- Los ingresos reales varían según la demanda de la red y la popularidad de los modelos

Investigación y catálogo de modelos

El paper de investigación explica en detalle la arquitectura, el modelo de amenazas, el análisis de seguridad y el modelo económico
Trata una arquitectura de inferencia privada basada en verificación de hardware
Enlace para descargar el PDF
Modelos disponibles
- Gemma 4 26B: último MoE multimodal de Google, 4B de parámetros activos
- Qwen3.5 27B: modelo de razonamiento de alta calidad (destilación de Claude Opus)
- Qwen3.5 122B MoE: 10B de parámetros activos, máxima calidad por token
- MiniMax M2.5 239B: modelo SOTA para código, 100 tok/s en Mac Studio
- Cohere Transcribe: conformer 2B, conversión de voz a texto de primer nivel

2 comentarios

shw00 9 일 전

Conceptualmente es interesante, pero sí queda la duda de si en la práctica va a funcionar bien. Como también salió en algunas opiniones de HN, un mercado de dos lados (two-sided market) tiene el gran problema de que hay que lograr atraer clientes iniciales en ambos frentes.

GN⁺ 13 일 전

Comentarios de Hacker News

Siento que sus cálculos de ingresos no son creíbles
Si una Mac mini se paga sola en 2~4 meses y luego genera entre 1 y 2 mil dólares al mes, entonces me pregunto por qué ellos no simplemente compran Mac mini y las ponen a trabajar
- El cálculo en sí se basa en supuestos optimistas. Asume que siempre hay demanda para todas las máquinas
  Ahora mismo no es así, pero esperan que algún día lo sea. Por eso no recomiendan comprar equipos nuevos. Si lo corres con un equipo que ya tienes, el costo es casi nulo
  La electricidad solo se consume cuando llegan solicitudes, y cada una de ellas lo compensa
  Si tienes preguntas, puedes mandarle un DM a @gajesh
- Si empiezan a comprar Mac mini directamente, terminan construyendo un pequeño centro de datos por temas de energía, refrigeración y almacenamiento
  Empiezan a jugar las economías de escala y cada vez querrán centros más grandes, pero eso cuesta mucho y a los vecinos tampoco les gusta
  Al final parece una guerra asimétrica contra los hiperescaladores
- Ningún proveedor de GPU mantiene una utilización del 100%. La demanda sube y baja
  Por ejemplo, durante el horario del mercado bursátil hay movimiento, pero fuera de eso está tranquilo
  Si no sobreaprovisionas, los clientes se van; si lo haces demasiado, baja la rentabilidad
  Siendo realistas, parece que la utilización sería de 1/8. Haciendo cuentas con mi M4 Pro mini, con el modelo Gemma 4 serían unos 24 dólares al mes
- La clave es que no tienen suficiente capital inicial. La mayoría de la gente ya tiene una computadora ociosa, y solo hay que convencerla de instalar el software
  Comprar y mantener el hardware por cuenta propia sale mucho más caro. La inversión inicial es la mayor barrera de entrada
- Hay muchas Mac ociosas en el mundo, así que reunir una base de usuarios es fácil
  Se puede empezar sin financiamiento de VC y la diferenciación es clara
  Eso sí, alguien podría implementar lo mismo con una comisión más alta, así que es importante ganar mercado primero
Yo mismo lo instalé, pero no estaba muy pulido
Hubo muchos errores, como fallos al descargar modelos de imagen y al cargar modelos de audio/TTS
Serví Gemma durante 15 minutos, pero hubo 0 solicitudes reales de inferencia; solo entraron varios health checks
En este momento falta demanda, así que la proyección de ingresos no cuadra
- Lleva apenas un día desde el lanzamiento, así que es normal que todavía no haya demanda. Hace falta algo de tiempo
- Me pregunto si alguien del otro lado realmente hizo una prueba enviando prompts y recibiendo respuestas
- Si ves la página de estadísticas, hay muchos proveedores pero casi nada de demanda real
  Parece que ahorita están enfocados en conseguir proveedores, y urge atraer clientes de pago
- Pensé que al menos al principio generarían solicitudes por su cuenta para dar motivación para hospedar, pero no existe esa función
- Yo también vi el mismo error, y en los logs aparecía la advertencia “STT backend healthcheck failed”. Incluso si hubiera demanda real, eso podría ser la causa
Para usar este servicio tienes que instalar MDM (software de administración de dispositivos)
En la práctica, desde ese momento esa computadora queda bajo su control
Jamás lo recomendaría en una computadora donde haces tareas sensibles, como banca en línea
- En macOS, el MDM tiene permisos limitados por AccessRights, así que no puede hacer cosas como reemplazar certificados SSL
  Pero su política de privacidad es floja, así que cuesta confiar
- MDM es una condición totalmente inaceptable. No voy a convertir mi MacBook en un posible ladrillo
  Además, no vale la pena asumir ese riesgo por ganar unos pocos dólares al mes
Dicen que usan TEE (Trusted Execution Environment) para verificar la integridad del modelo y del código
En AWS hice algo parecido, pero me pregunto si realmente se puede proteger la memoria cuando usas GPU
El artículo relacionado se puede ver aquí
- Todo el paper tiene olor a LLM. El uso excesivo de fórmulas le quita credibilidad
- En la práctica, si envías datos a un servidor externo, cierto nivel de retención de datos es inevitable
  Es más seguro usarlo para cosas no comerciales como clasificación o generación de imágenes, en lugar de datos sensibles
- Apple Silicon usa memoria unificada para CPU y GPU
  El paper afirma que la técnica de tablas de páginas del hipervisor protege la memoria de la GPU frente a RDMA
- Las Mac no tienen un TEE de hardware como SGX; solo existe el Secure Enclave
Hoy en día, en una MacBook la privacidad verificable es físicamente imposible
Existe Secure Enclave, pero no es un enclave abierto como SGX/TDX/SEV
Al final solo es seguridad al nivel del endurecimiento del sistema operativo, no un verdadero entorno de ejecución confidencial
- Tengo experiencia construyendo directamente con el SDK de SGX. En la plataforma de Apple se puede implementar hasta cierto punto un nivel de seguridad parecido
  macOS tiene una estructura bastante confiable si se puede hacer atestación remota de la secuencia de arranque y de la configuración de TCC
  No es perfecto como SGX, pero en usabilidad es mejor
- Siento que unos nodos distribuidos aleatorios inspiran más confianza que un proveedor centralizado (OpenAI, etc.)
- Si el incentivo es suficientemente alto, cualquier clave de hardware termina siendo vulnerada. Sus afirmaciones rozan el exceso de confianza
Haciendo cuentas simples, mi M5 Pro genera 130 tokens por segundo (4 streams) con Gemma 4 26B
El precio de Darkbloom es de $0.20 por Mtok, así que funcionando 24 horas daría unos $67 al mes
Restando el costo de energía, serían como $9 mensuales en gastos, así que es un ingreso extra de unos $700 al año
- En realidad consume bastante más que 50W. La electricidad es cara y el desgaste del hardware también se acelera
  Personalmente, la idea me parece más interesante que la rentabilidad
- Sus cálculos toman 414 tok/s para Gemma 4 26B
  Y al calcular la energía usan el truco de restar 12W de consumo en reposo, pero la mayoría de la gente no deja la computadora encendida 24/7
- 130 tok/s suena alto. Me da curiosidad bajo qué cuantización (quantization)
- No consideran las fallas de hardware. Yo minaba con GPU hace tiempo y un ventilador se me murió en un mes, así que perdí dinero
- Incluso OpenAI solo tiene 5% de clientes de pago, así que dudo que este modelo sea sostenible
  Antes hubo intentos como almacenamiento distribuido tipo Cubbit, pero fracasaron
Algo que quisiera decirle a @eigengajesh es que la Mac Mini M4 Pro también tiene opción de 64GB
Y hay varios bugs: fallo al cargar metallib, descarga 404 del modelo, inconsistencia en la documentación sobre el reparto de ingresos (100% vs 95%), etc.
En general hay mucha documentación que parece escrita por un LLM, y sería mejor pulirla un poco más antes de publicarla
Este proyecto me recuerda a DataseamGrid, que antes se desplegó en computadoras escolares
Era una red de cómputo distribuido con una idea parecida
Es un concepto interesante. Un mercado de dos lados (two-sided marketplace) es difícil de arrancar al principio, pero la curiosidad podría darle impulso
Si no solo atraen proveedores sino que también logran que la gente use el servicio por sí misma, podrían equilibrar oferta y demanda
Me gustaría que hubiera una versión self-hosted para empresas. Muchas compañías tienen inventario de Mac, así que podrían usarlo como red interna de inferencia
La privacidad basada en hardware también es interesante, pero económicamente el gran riesgo es el costo de carga
Por ejemplo, en el modelo MiniMax M2.5 239B, aunque solo se activen 11B de los 239B, igual hay que cargar 120GB
Cargar eso desde SSD toma varias decenas de segundos
Si una solicitud se enruta a otra Mac, cada vez aparece una latencia por carga en frío
Si mantienes siempre el modelo en memoria, sube el costo de energía; si no, aumenta la latencia
En especial, las Mac de 16GB~32GB ni siquiera pueden hospedar modelos grandes, así que en la práctica los proveedores viables serían muy pocos

Darkbloom – red personal de inferencia de IA con Macs inactivas

Red personal de inferencia de IA con Macs inactivas

Funciones para usuarios

Funciones para dueños de hardware

Problema estructural del mercado de cómputo de IA

Problema de confianza y desafío de solución

Enfoque técnico de Darkbloom

Eliminación de rutas de acceso

Capa de cifrado

Capa de hardware

Capa de runtime

Capa de salida

Como resultado, el operador ejecuta la inferencia pero no puede ver los datos

Detalles de implementación

API compatible con OpenAI

Resultado de comparación de costos

Economía para operadores

Método de instalación

Sin dependencias**,** actualizaciones automáticas**,** ejecución en segundo plano

Ingresos estimados

Investigación y catálogo de modelos

Modelos disponibles

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News

Sin dependencias, actualizaciones automáticas, ejecución en segundo plano