- PrismML, una startup de IA nacida de investigación en Caltech, presentó el modelo 1-bit Bonsai 8B, logrando inferencia de IA práctica en smartphones y dispositivos edge con un tamaño de 1.15GB, aproximadamente 14 veces más pequeño que modelos equivalentes de 16 bits
- Con un verdadero diseño end-to-end de 1 bit que abarca toda la red (embeddings, attention, MLP y LM head) sin excepciones, supera los problemas de degradación de calidad en seguimiento de instrucciones, razonamiento de múltiples pasos y uso de herramientas que sufrían los modelos previos de baja precisión
- Según la métrica de Intelligence Density, alcanza 1.06/GB, alrededor de 10.6 veces por delante del competidor más cercano en la misma clase de parámetros (Qwen3 8B, 0.10/GB)
- Funciona a 131 tok/s en una Mac M4 Pro, 368 tok/s en una RTX 4090 y alrededor de 44 tok/s en un iPhone 17 Pro Max, con una eficiencia energética unas 4 a 5 veces mejor que la de modelos de 16 bits
- Si se diseña hardware dedicado para 1 bit, se abre la posibilidad de una mejora adicional de rendimiento y eficiencia de un solo dígito en múltiplos, ampliando nuevas categorías de despliegue como IA on-device, robótica y empresas de seguridad
Contexto de PrismML y del surgimiento de 1-bit Bonsai
- Durante la última década, el avance de la IA se ha orientado a hacer los modelos cada vez más grandes: más parámetros, más GPU, más energía, más memoria y más costo
- Como resultado, surgió una limitación estructural en la que la inteligencia más avanzada queda atrapada dentro de grandes clústeres e infraestructura dedicada
- En la práctica, los espacios donde se necesita IA no se limitan a los centros de datos, sino que incluyen smartphones, laptops, vehículos, robots, empresas de seguridad y dispositivos edge, entre otros
- PrismML nació a partir de un equipo de investigación de Caltech y fue fundada con apoyo de Khosla Ventures, Cerberus y Google
- Estableció como métrica central de optimización la densidad de inteligencia (Intelligence Density): la cantidad de inteligencia que puede ofrecerse por unidad de tamaño del modelo (GB)
Un verdadero diseño de modelo de 1 bit
- 1-bit Bonsai 8B implementa en 1 bit los embeddings, las capas de attention, las capas MLP y todo el LM head, manteniendo una estructura completamente de 1 bit en sus 8.2 mil millones de parámetros sin escape hatch de alta precisión
- Los modelos previos de baja precisión sufrían pérdidas importantes de rendimiento en seguimiento de instrucciones, razonamiento de múltiples pasos y confiabilidad en el uso de herramientas, lo que dificultaba su uso como base de productos reales
- Bonsai demuestra que un modelo de 1 bit también puede ser un sistema completo de nivel de producción, y no solo un punto de compromiso muy limitado
Medición de Intelligence Density
- Intelligence Density se define como el valor negativo del logaritmo de la tasa de error promedio en todos los benchmarks, dividido por el tamaño del modelo
- Esta métrica refleja un nivel de inteligencia más realista que un simple promedio de benchmarks, ya que asigna más valor a mejoras adicionales cuando la precisión ya es alta
- 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — no se trata solo de una ventaja marginal, sino de un resultado de otra dimensión
- Incluso en el promedio bruto de benchmarks, 1-bit Bonsai 8B mantiene un rendimiento competitivo frente a los principales modelos de clase 8B, mientras que su huella de memoria es de 1.15GB, alrededor de 12 a 14 veces menor que la de modelos equivalentes
Tamaño y velocidad
- Con un tamaño de 1.15GB, puede ejecutarse en un iPhone 17 Pro — los modelos 8B de 16 bits existentes no pueden cargarse en ningún iPhone
- Velocidad de inferencia por dispositivo:
- Mac M4 Pro: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: alrededor de 44 tok/s
- En una simulación de resumen y asignación de 50 tickets, 1-bit Bonsai 8B procesó los 50, mientras que un modelo 8B de 16 bits en las mismas condiciones solo procesó 6
- En cargas de trabajo de agentes de larga duración, un mayor throughput y un menor uso de memoria amplían la cantidad de trabajo que un agente puede manejar de forma real
Eficiencia energética
- 1-bit Bonsai 8B logra una eficiencia energética aproximadamente 4 a 5 veces mejor que la de modelos full-precision de 16 bits
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
- Para que la IA se convierta en infraestructura fundamental, es indispensable una mejora radical en eficiencia energética
El potencial del hardware dedicado para 1 bit
- Las mejoras actuales de rendimiento provienen sobre todo de la huella de memoria reducida de los modelos de 1 bit, y todavía no se ha logrado aprovechar por completo la estructura de pesos de 1 bit durante la inferencia
- En capas lineales como MLP, los pesos de 1 bit permiten reemplazar operaciones de multiplicación por sumas
- Si se diseña hardware dedicado para inferencia de 1 bit, sería posible mejorar aún más el rendimiento y la eficiencia energética en múltiplos de un solo dígito
Modelos Bonsai 4B y 1.7B
- También se lanzaron dos modelos más pequeños: 1-bit Bonsai 4B y 1-bit Bonsai 1.7B
- En un diagrama de dispersión de inteligencia vs. tamaño comparado con 20 modelos instruct principales (rango de 1.2GB a 16.4GB), toda la familia Bonsai desplaza con fuerza hacia la izquierda la frontera de Pareto existente
- La frontera de Pareto anterior estaba compuesta por Qwen3 0.6B, 1.7B, 4B, 8B y Ministral3 3B, pero la familia Bonsai define ahora una nueva frontera
Lo que hace posible la inteligencia compacta
- Cuando un modelo se vuelve lo suficientemente pequeño, rápido y eficiente como para correr on-device, el espacio de diseño de productos de IA cambia de inmediato:
- Mayor capacidad de respuesta: la inferencia on-device funciona sin latencia de red
- Más privacidad: los datos sensibles no salen del dispositivo
- Mayor confiabilidad: reduce la dependencia de una conexión continua a la nube
- Viabilidad económica: permite usar IA en entornos donde el despliegue del lado del servidor era inviable por costos
- Nuevas categorías que se abren: agentes persistentes on-device, robótica en tiempo real, copilotos para empresas de seguridad, inteligencia offline y productos AI-native para entornos con restricciones de ancho de banda, energía o regulación
Soporte de plataformas y forma de publicación
- 1-bit Bonsai 8B ofrece ejecución nativa en dispositivos Apple (Mac, iPhone, iPad) vía MLX y en GPU NVIDIA vía llama.cpp CUDA
- Los pesos del modelo están publicados actualmente bajo licencia Apache 2.0
- Los detalles técnicos completos del proceso de entrenamiento, evaluación y benchmarking están disponibles en el whitepaper oficial
2 comentarios
Buena información.
Opiniones en Hacker News
Se enfatiza que el encuadre de 1.125 bits (pesos de 1 bit + una escala compartida de 16 bits por cada grupo de 128) es una cifra técnicamente honesta
Hay que distinguir si “comercialmente viable” se refiere al costo de inferencia o a si es posible mediante fine-tuning
Si es un modelo entrenado desde el inicio con el objetivo de 1 bit, como en el paper BitNet de Microsoft, entonces es algo completamente distinto de un modelo simplemente cuantizado
En particular, la eficiencia de inferencia en hardware de propósito general se siente mucho más atractiva que la cuantización INT4
Aun así, los benchmarks están comparados con modelos grandes cuantizados, así que la esencia de la afirmación real queda algo difuminada
Quisiera ver si mantiene el rendimiento en tareas que requieren razonamiento en múltiples pasos
Resulta interesante que una estructura de 1 bit + escalas FP16 (1 por cada 128 bits) funcione tan bien
Probé generar tests para una página web con Cursor y la capacidad de uso de herramientas fue bastante impresionante
En una simulación Monte Carlo de π, la lógica era correcta, pero falló al generar la interfaz y se necesitaron algunos ajustes manuales
El resultado del dibujo del pelícano fue muy abstracto
Como no había demo oficial, dejaron abierta una instancia local de llama.cpp
Intenté varias solicitudes, como scripts en R y generación de fórmulas LaTeX, y en particular la fórmula de Euler salió perfecta
A pesar de ser un modelo pequeño de 1 bit, tiene alta densidad de conocimiento y responde rápido
Si se le agregaran “pasos de pensamiento” o refuerzo basado en búsqueda, probablemente sería mucho más útil
Ejecutaron un benchmark de depuración SQL hecho por ellos mismos y quedó bastante impresionante
Pasó 8 de 25, con 0 fallos y 17 errores, quedando entre Qwen3.5-4B y Nanbeige4.1-3B
Toda la prueba terminó en 200 segundos y, en velocidad, fue mucho más eficiente que Granite 7B 4bit
Los resultados pueden verse en el sitio del benchmark SQL
Personalmente hice una prueba de crear una app Pomodoro y, aunque el acabado fue bajo, en ciertas áreas resultó bastante útil
Su capacidad de redacción también fue inesperadamente buena, y llama la atención que use pocos guiones largos
Es débil escribiendo HTML, pero combinar un modelo de 1 bit con Ngram-embedding parece abrir muchas posibilidades nuevas
También compartieron el código de un prototipo propio
Ya puede ejecutarse en iPhone con la versión más reciente de la app Locally AI
Para pesar 1.2GB, muestra un rendimiento sorprendente
El resultado SVG del pelícano tenía buenos comentarios, pero el dibujo no estuvo muy bien
Preguntaron “9:30am hora estándar de Taiwán, ¿qué hora es en la hora del Pacífico de EE. UU.?” y ningún modelo respondió bien
Ejecutaron públicamente el modelo de 8GiB durante 5 horas en una RTX 3090
Compartieron el enlace del servidor y el comando de ejecución
5 solicitudes en paralelo, límite de unos 13K tokens y uso de 4GiB de VRAM
Mostró un rendimiento muy rápido, con salida a 190t/s
En este ejemplo de conversación respondió creativamente a la pregunta de si ir caminando o manejando hasta el autolavado
Como no tenían GPU, lo ejecutaron en CPU y, aun en una laptop vieja, pasó de 0.6t/s a 12t/s al agregar AVX2
Les pareció un rendimiento bastante bueno
La causa fue que habían omitido el paso
git checkout prism, y tras corregirlo funcionó con normalidadCreen que el futuro de los modelos grandes irá a nivel de bits más que de floats
La mayoría de los valores float se concentran en un rango estrecho y por eso son ineficientes; al final todo se implementa con operaciones de bits
Sin embargo, el problema es que las GPU y la base teórica están alineadas con operaciones de punto flotante
El motivo por el que se mantienen los formatos float es simplemente que son más compatibles con el stack de GPU
Introduce el concepto de “Boolean variation”, definiendo la derivada en forma binaria y realizando backpropagation directa
Resulta interesante la similitud con las redes neuronales de picos
Se comunican con 1 bit según haya o no un spike, mientras usan potencial de membrana analógico
Se controló una locomoción cuadrúpeda con 5 mil neuronas de Izhikevich y fue más eficiente que PPO
La eficiencia de 1 bit es un concepto que va más allá de los LLM
Se preguntan si una proporción de “-log error / model size” cercana a 1 significa que la tasa de error ronda el 40%
Añaden el cálculo matemático de que error/model size = 1/e
Bonsai ofrece un modelo 8B en 1.15GB, así que se preguntan cuánto ocuparían los modelos de 27B o 35B
Si el escalado se mantiene, parece que incluso un modelo de 100B podría caber en 64GB de RAM
Probablemente sea tan caro como un modelo de precisión completa; de no ser así, ya lo habrían mencionado