1-bit Bonsai - el primer LLM de 1 bit comercialmente viable

(prismml.com)

14 puntos por GN⁺ 29 일 전 | 2 comentarios | Compartir por WhatsApp

PrismML, una startup de IA nacida de investigación en Caltech, presentó el modelo 1-bit Bonsai 8B, logrando inferencia de IA práctica en smartphones y dispositivos edge con un tamaño de 1.15GB, aproximadamente 14 veces más pequeño que modelos equivalentes de 16 bits
Con un verdadero diseño end-to-end de 1 bit que abarca toda la red (embeddings, attention, MLP y LM head) sin excepciones, supera los problemas de degradación de calidad en seguimiento de instrucciones, razonamiento de múltiples pasos y uso de herramientas que sufrían los modelos previos de baja precisión
Según la métrica de Intelligence Density, alcanza 1.06/GB, alrededor de 10.6 veces por delante del competidor más cercano en la misma clase de parámetros (Qwen3 8B, 0.10/GB)
Funciona a 131 tok/s en una Mac M4 Pro, 368 tok/s en una RTX 4090 y alrededor de 44 tok/s en un iPhone 17 Pro Max, con una eficiencia energética unas 4 a 5 veces mejor que la de modelos de 16 bits
Si se diseña hardware dedicado para 1 bit, se abre la posibilidad de una mejora adicional de rendimiento y eficiencia de un solo dígito en múltiplos, ampliando nuevas categorías de despliegue como IA on-device, robótica y empresas de seguridad

Contexto de PrismML y del surgimiento de 1-bit Bonsai

Durante la última década, el avance de la IA se ha orientado a hacer los modelos cada vez más grandes: más parámetros, más GPU, más energía, más memoria y más costo
Como resultado, surgió una limitación estructural en la que la inteligencia más avanzada queda atrapada dentro de grandes clústeres e infraestructura dedicada
En la práctica, los espacios donde se necesita IA no se limitan a los centros de datos, sino que incluyen smartphones, laptops, vehículos, robots, empresas de seguridad y dispositivos edge, entre otros
PrismML nació a partir de un equipo de investigación de Caltech y fue fundada con apoyo de Khosla Ventures, Cerberus y Google
Estableció como métrica central de optimización la densidad de inteligencia (Intelligence Density): la cantidad de inteligencia que puede ofrecerse por unidad de tamaño del modelo (GB)

Un verdadero diseño de modelo de 1 bit

1-bit Bonsai 8B implementa en 1 bit los embeddings, las capas de attention, las capas MLP y todo el LM head, manteniendo una estructura completamente de 1 bit en sus 8.2 mil millones de parámetros sin escape hatch de alta precisión
Los modelos previos de baja precisión sufrían pérdidas importantes de rendimiento en seguimiento de instrucciones, razonamiento de múltiples pasos y confiabilidad en el uso de herramientas, lo que dificultaba su uso como base de productos reales
Bonsai demuestra que un modelo de 1 bit también puede ser un sistema completo de nivel de producción, y no solo un punto de compromiso muy limitado

Medición de Intelligence Density

Intelligence Density se define como el valor negativo del logaritmo de la tasa de error promedio en todos los benchmarks, dividido por el tamaño del modelo
Esta métrica refleja un nivel de inteligencia más realista que un simple promedio de benchmarks, ya que asigna más valor a mejoras adicionales cuando la precisión ya es alta
1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — no se trata solo de una ventaja marginal, sino de un resultado de otra dimensión
Incluso en el promedio bruto de benchmarks, 1-bit Bonsai 8B mantiene un rendimiento competitivo frente a los principales modelos de clase 8B, mientras que su huella de memoria es de 1.15GB, alrededor de 12 a 14 veces menor que la de modelos equivalentes

Tamaño y velocidad

Con un tamaño de 1.15GB, puede ejecutarse en un iPhone 17 Pro — los modelos 8B de 16 bits existentes no pueden cargarse en ningún iPhone
Velocidad de inferencia por dispositivo:
- Mac M4 Pro: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: alrededor de 44 tok/s
En una simulación de resumen y asignación de 50 tickets, 1-bit Bonsai 8B procesó los 50, mientras que un modelo 8B de 16 bits en las mismas condiciones solo procesó 6
En cargas de trabajo de agentes de larga duración, un mayor throughput y un menor uso de memoria amplían la cantidad de trabajo que un agente puede manejar de forma real

Eficiencia energética

1-bit Bonsai 8B logra una eficiencia energética aproximadamente 4 a 5 veces mejor que la de modelos full-precision de 16 bits
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
Para que la IA se convierta en infraestructura fundamental, es indispensable una mejora radical en eficiencia energética

El potencial del hardware dedicado para 1 bit

Las mejoras actuales de rendimiento provienen sobre todo de la huella de memoria reducida de los modelos de 1 bit, y todavía no se ha logrado aprovechar por completo la estructura de pesos de 1 bit durante la inferencia
En capas lineales como MLP, los pesos de 1 bit permiten reemplazar operaciones de multiplicación por sumas
Si se diseña hardware dedicado para inferencia de 1 bit, sería posible mejorar aún más el rendimiento y la eficiencia energética en múltiplos de un solo dígito

Modelos Bonsai 4B y 1.7B

También se lanzaron dos modelos más pequeños: 1-bit Bonsai 4B y 1-bit Bonsai 1.7B
En un diagrama de dispersión de inteligencia vs. tamaño comparado con 20 modelos instruct principales (rango de 1.2GB a 16.4GB), toda la familia Bonsai desplaza con fuerza hacia la izquierda la frontera de Pareto existente
La frontera de Pareto anterior estaba compuesta por Qwen3 0.6B, 1.7B, 4B, 8B y Ministral3 3B, pero la familia Bonsai define ahora una nueva frontera

Lo que hace posible la inteligencia compacta

Cuando un modelo se vuelve lo suficientemente pequeño, rápido y eficiente como para correr on-device, el espacio de diseño de productos de IA cambia de inmediato:
- Mayor capacidad de respuesta: la inferencia on-device funciona sin latencia de red
- Más privacidad: los datos sensibles no salen del dispositivo
- Mayor confiabilidad: reduce la dependencia de una conexión continua a la nube
- Viabilidad económica: permite usar IA en entornos donde el despliegue del lado del servidor era inviable por costos
Nuevas categorías que se abren: agentes persistentes on-device, robótica en tiempo real, copilotos para empresas de seguridad, inteligencia offline y productos AI-native para entornos con restricciones de ancho de banda, energía o regulación

Soporte de plataformas y forma de publicación

1-bit Bonsai 8B ofrece ejecución nativa en dispositivos Apple (Mac, iPhone, iPad) vía MLX y en GPU NVIDIA vía llama.cpp CUDA
Los pesos del modelo están publicados actualmente bajo licencia Apache 2.0
Los detalles técnicos completos del proceso de entrenamiento, evaluación y benchmarking están disponibles en el whitepaper oficial

2 comentarios

runableapp 29 일 전

Buena información.

GN⁺ 29 일 전

Opiniones en Hacker News

Se enfatiza que el encuadre de 1.125 bits (pesos de 1 bit + una escala compartida de 16 bits por cada grupo de 128) es una cifra técnicamente honesta
Hay que distinguir si “comercialmente viable” se refiere al costo de inferencia o a si es posible mediante fine-tuning
Si es un modelo entrenado desde el inicio con el objetivo de 1 bit, como en el paper BitNet de Microsoft, entonces es algo completamente distinto de un modelo simplemente cuantizado
En particular, la eficiencia de inferencia en hardware de propósito general se siente mucho más atractiva que la cuantización INT4
Aun así, los benchmarks están comparados con modelos grandes cuantizados, así que la esencia de la afirmación real queda algo difuminada
Quisiera ver si mantiene el rendimiento en tareas que requieren razonamiento en múltiples pasos
Resulta interesante que una estructura de 1 bit + escalas FP16 (1 por cada 128 bits) funcione tan bien
Probé generar tests para una página web con Cursor y la capacidad de uso de herramientas fue bastante impresionante
En una simulación Monte Carlo de π, la lógica era correcta, pero falló al generar la interfaz y se necesitaron algunos ajustes manuales
El resultado del dibujo del pelícano fue muy abstracto
Como no había demo oficial, dejaron abierta una instancia local de llama.cpp
- Gracias al enlace, lo probé directamente y la velocidad de respuesta es muy rápida
  Intenté varias solicitudes, como scripts en R y generación de fórmulas LaTeX, y en particular la fórmula de Euler salió perfecta
  A pesar de ser un modelo pequeño de 1 bit, tiene alta densidad de conocimiento y responde rápido
- Como licenciado en historia del arte, apoyo por completo la idea del “pelícano en bicicleta”
- El enlace de ngrok se saturó y bloqueó, así que compartieron una versión en Google Colab
- Se preguntan si hace falta el fork de llama.cpp de Prism
- Da la impresión de ser como el ChatGPT inicial: acierta la mayoría de las veces, pero a veces dice disparates
  Si se le agregaran “pasos de pensamiento” o refuerzo basado en búsqueda, probablemente sería mucho más útil
Ejecutaron un benchmark de depuración SQL hecho por ellos mismos y quedó bastante impresionante
Pasó 8 de 25, con 0 fallos y 17 errores, quedando entre Qwen3.5-4B y Nanbeige4.1-3B
Toda la prueba terminó en 200 segundos y, en velocidad, fue mucho más eficiente que Granite 7B 4bit
Los resultados pueden verse en el sitio del benchmark SQL
- Yo también usé el runpod de @freakynit
  Personalmente hice una prueba de crear una app Pomodoro y, aunque el acabado fue bajo, en ciertas áreas resultó bastante útil
  Su capacidad de redacción también fue inesperadamente buena, y llama la atención que use pocos guiones largos
  Es débil escribiendo HTML, pero combinar un modelo de 1 bit con Ngram-embedding parece abrir muchas posibilidades nuevas
  También compartieron el código de un prototipo propio
Ya puede ejecutarse en iPhone con la versión más reciente de la app Locally AI
Para pesar 1.2GB, muestra un rendimiento sorprendente
El resultado SVG del pelícano tenía buenos comentarios, pero el dibujo no estuvo muy bien
- Descubrieron que los modelos pequeños son muy débiles para la conversión de zonas horarias
  Preguntaron “9:30am hora estándar de Taiwán, ¿qué hora es en la hora del Pacífico de EE. UU.?” y ningún modelo respondió bien
- Queda la duda de si se pidió una bicicleta para el pelícano o si el modelo la agregó creativamente
Ejecutaron públicamente el modelo de 8GiB durante 5 horas en una RTX 3090
Compartieron el enlace del servidor y el comando de ejecución
5 solicitudes en paralelo, límite de unos 13K tokens y uso de 4GiB de VRAM
Mostró un rendimiento muy rápido, con salida a 190t/s
- Recomiendan mantener la caché KV sin pérdida de precisión
- Conversar con el modelo es realmente divertido
  En este ejemplo de conversación respondió creativamente a la pregunta de si ir caminando o manejando hasta el autolavado
- Actualizaron que el servidor se apagó porque terminó la instancia spot
- Expresan asombro por la velocidad
- También compartieron el resultado en Pastebin, mencionando que los modelos débiles no producen algo así
Como no tenían GPU, lo ejecutaron en CPU y, aun en una laptop vieja, pasó de 0.6t/s a 12t/s al agregar AVX2
Les pareció un rendimiento bastante bueno
- Hubo comentarios diciendo que incluso con compilación AVX2 seguía lento o solo generaba salida sin sentido
  La causa fue que habían omitido el paso git checkout prism, y tras corregirlo funcionó con normalidad
- Bromearon con que la expresión “not shabby” se queda corta
Creen que el futuro de los modelos grandes irá a nivel de bits más que de floats
La mayoría de los valores float se concentran en un rango estrecho y por eso son ineficientes; al final todo se implementa con operaciones de bits
Sin embargo, el problema es que las GPU y la base teórica están alineadas con operaciones de punto flotante
- La inferencia con anchos de bit bajos es fácil, pero el entrenamiento es difícil e inestable
  El motivo por el que se mantienen los formatos float es simplemente que son más compatibles con el stack de GPU
- Este paper realiza incluso el entrenamiento en base binaria
  Introduce el concepto de “Boolean variation”, definiendo la derivada en forma binaria y realizando backpropagation directa
Resulta interesante la similitud con las redes neuronales de picos
Se comunican con 1 bit según haya o no un spike, mientras usan potencial de membrana analógico
Se controló una locomoción cuadrúpeda con 5 mil neuronas de Izhikevich y fue más eficiente que PPO
La eficiencia de 1 bit es un concepto que va más allá de los LLM
Se preguntan si una proporción de “-log error / model size” cercana a 1 significa que la tasa de error ronda el 40%
Añaden el cálculo matemático de que error/model size = 1/e
Bonsai ofrece un modelo 8B en 1.15GB, así que se preguntan cuánto ocuparían los modelos de 27B o 35B
Si el escalado se mantiene, parece que incluso un modelo de 100B podría caber en 64GB de RAM
- Pero el problema sería el costo de entrenamiento
  Probablemente sea tan caro como un modelo de precisión completa; de no ser así, ya lo habrían mencionado

1-bit Bonsai - el primer LLM de 1 bit comercialmente viable

Contexto de PrismML y del surgimiento de 1-bit Bonsai

Un verdadero diseño de modelo de 1 bit

Medición de Intelligence Density

Tamaño y velocidad

Eficiencia energética

El potencial del hardware dedicado para 1 bit

Modelos Bonsai 4B y 1.7B

Lo que hace posible la inteligencia compacta

Soporte de plataformas y forma de publicación

Lecturas relacionadas

2 comentarios

Opiniones en Hacker News