14 puntos por GN⁺ 29 일 전 | 2 comentarios | Compartir por WhatsApp
  • PrismML, una startup de IA nacida de investigación en Caltech, presentó el modelo 1-bit Bonsai 8B, logrando inferencia de IA práctica en smartphones y dispositivos edge con un tamaño de 1.15GB, aproximadamente 14 veces más pequeño que modelos equivalentes de 16 bits
  • Con un verdadero diseño end-to-end de 1 bit que abarca toda la red (embeddings, attention, MLP y LM head) sin excepciones, supera los problemas de degradación de calidad en seguimiento de instrucciones, razonamiento de múltiples pasos y uso de herramientas que sufrían los modelos previos de baja precisión
  • Según la métrica de Intelligence Density, alcanza 1.06/GB, alrededor de 10.6 veces por delante del competidor más cercano en la misma clase de parámetros (Qwen3 8B, 0.10/GB)
  • Funciona a 131 tok/s en una Mac M4 Pro, 368 tok/s en una RTX 4090 y alrededor de 44 tok/s en un iPhone 17 Pro Max, con una eficiencia energética unas 4 a 5 veces mejor que la de modelos de 16 bits
  • Si se diseña hardware dedicado para 1 bit, se abre la posibilidad de una mejora adicional de rendimiento y eficiencia de un solo dígito en múltiplos, ampliando nuevas categorías de despliegue como IA on-device, robótica y empresas de seguridad

Contexto de PrismML y del surgimiento de 1-bit Bonsai

  • Durante la última década, el avance de la IA se ha orientado a hacer los modelos cada vez más grandes: más parámetros, más GPU, más energía, más memoria y más costo
  • Como resultado, surgió una limitación estructural en la que la inteligencia más avanzada queda atrapada dentro de grandes clústeres e infraestructura dedicada
  • En la práctica, los espacios donde se necesita IA no se limitan a los centros de datos, sino que incluyen smartphones, laptops, vehículos, robots, empresas de seguridad y dispositivos edge, entre otros
  • PrismML nació a partir de un equipo de investigación de Caltech y fue fundada con apoyo de Khosla Ventures, Cerberus y Google
  • Estableció como métrica central de optimización la densidad de inteligencia (Intelligence Density): la cantidad de inteligencia que puede ofrecerse por unidad de tamaño del modelo (GB)

Un verdadero diseño de modelo de 1 bit

  • 1-bit Bonsai 8B implementa en 1 bit los embeddings, las capas de attention, las capas MLP y todo el LM head, manteniendo una estructura completamente de 1 bit en sus 8.2 mil millones de parámetros sin escape hatch de alta precisión
  • Los modelos previos de baja precisión sufrían pérdidas importantes de rendimiento en seguimiento de instrucciones, razonamiento de múltiples pasos y confiabilidad en el uso de herramientas, lo que dificultaba su uso como base de productos reales
  • Bonsai demuestra que un modelo de 1 bit también puede ser un sistema completo de nivel de producción, y no solo un punto de compromiso muy limitado

Medición de Intelligence Density

  • Intelligence Density se define como el valor negativo del logaritmo de la tasa de error promedio en todos los benchmarks, dividido por el tamaño del modelo
  • Esta métrica refleja un nivel de inteligencia más realista que un simple promedio de benchmarks, ya que asigna más valor a mejoras adicionales cuando la precisión ya es alta
  • 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — no se trata solo de una ventaja marginal, sino de un resultado de otra dimensión
  • Incluso en el promedio bruto de benchmarks, 1-bit Bonsai 8B mantiene un rendimiento competitivo frente a los principales modelos de clase 8B, mientras que su huella de memoria es de 1.15GB, alrededor de 12 a 14 veces menor que la de modelos equivalentes

Tamaño y velocidad

  • Con un tamaño de 1.15GB, puede ejecutarse en un iPhone 17 Pro — los modelos 8B de 16 bits existentes no pueden cargarse en ningún iPhone
  • Velocidad de inferencia por dispositivo:
    • Mac M4 Pro: 131 tok/s
    • RTX 4090: 368 tok/s
    • iPhone 17 Pro Max: alrededor de 44 tok/s
  • En una simulación de resumen y asignación de 50 tickets, 1-bit Bonsai 8B procesó los 50, mientras que un modelo 8B de 16 bits en las mismas condiciones solo procesó 6
  • En cargas de trabajo de agentes de larga duración, un mayor throughput y un menor uso de memoria amplían la cantidad de trabajo que un agente puede manejar de forma real

Eficiencia energética

  • 1-bit Bonsai 8B logra una eficiencia energética aproximadamente 4 a 5 veces mejor que la de modelos full-precision de 16 bits
    • M4 Pro: 0.074 mWh/tok
    • iPhone 17 Pro Max: 0.068 mWh/tok
  • Para que la IA se convierta en infraestructura fundamental, es indispensable una mejora radical en eficiencia energética

El potencial del hardware dedicado para 1 bit

  • Las mejoras actuales de rendimiento provienen sobre todo de la huella de memoria reducida de los modelos de 1 bit, y todavía no se ha logrado aprovechar por completo la estructura de pesos de 1 bit durante la inferencia
  • En capas lineales como MLP, los pesos de 1 bit permiten reemplazar operaciones de multiplicación por sumas
  • Si se diseña hardware dedicado para inferencia de 1 bit, sería posible mejorar aún más el rendimiento y la eficiencia energética en múltiplos de un solo dígito

Modelos Bonsai 4B y 1.7B

  • También se lanzaron dos modelos más pequeños: 1-bit Bonsai 4B y 1-bit Bonsai 1.7B
  • En un diagrama de dispersión de inteligencia vs. tamaño comparado con 20 modelos instruct principales (rango de 1.2GB a 16.4GB), toda la familia Bonsai desplaza con fuerza hacia la izquierda la frontera de Pareto existente
  • La frontera de Pareto anterior estaba compuesta por Qwen3 0.6B, 1.7B, 4B, 8B y Ministral3 3B, pero la familia Bonsai define ahora una nueva frontera

Lo que hace posible la inteligencia compacta

  • Cuando un modelo se vuelve lo suficientemente pequeño, rápido y eficiente como para correr on-device, el espacio de diseño de productos de IA cambia de inmediato:
    • Mayor capacidad de respuesta: la inferencia on-device funciona sin latencia de red
    • Más privacidad: los datos sensibles no salen del dispositivo
    • Mayor confiabilidad: reduce la dependencia de una conexión continua a la nube
    • Viabilidad económica: permite usar IA en entornos donde el despliegue del lado del servidor era inviable por costos
  • Nuevas categorías que se abren: agentes persistentes on-device, robótica en tiempo real, copilotos para empresas de seguridad, inteligencia offline y productos AI-native para entornos con restricciones de ancho de banda, energía o regulación

Soporte de plataformas y forma de publicación

  • 1-bit Bonsai 8B ofrece ejecución nativa en dispositivos Apple (Mac, iPhone, iPad) vía MLX y en GPU NVIDIA vía llama.cpp CUDA
  • Los pesos del modelo están publicados actualmente bajo licencia Apache 2.0
  • Los detalles técnicos completos del proceso de entrenamiento, evaluación y benchmarking están disponibles en el whitepaper oficial

2 comentarios

 
runableapp 29 일 전

Buena información.

 
GN⁺ 29 일 전
Opiniones en Hacker News
  • Se enfatiza que el encuadre de 1.125 bits (pesos de 1 bit + una escala compartida de 16 bits por cada grupo de 128) es una cifra técnicamente honesta
    Hay que distinguir si “comercialmente viable” se refiere al costo de inferencia o a si es posible mediante fine-tuning
    Si es un modelo entrenado desde el inicio con el objetivo de 1 bit, como en el paper BitNet de Microsoft, entonces es algo completamente distinto de un modelo simplemente cuantizado
    En particular, la eficiencia de inferencia en hardware de propósito general se siente mucho más atractiva que la cuantización INT4
    Aun así, los benchmarks están comparados con modelos grandes cuantizados, así que la esencia de la afirmación real queda algo difuminada
    Quisiera ver si mantiene el rendimiento en tareas que requieren razonamiento en múltiples pasos

  • Resulta interesante que una estructura de 1 bit + escalas FP16 (1 por cada 128 bits) funcione tan bien
    Probé generar tests para una página web con Cursor y la capacidad de uso de herramientas fue bastante impresionante
    En una simulación Monte Carlo de π, la lógica era correcta, pero falló al generar la interfaz y se necesitaron algunos ajustes manuales
    El resultado del dibujo del pelícano fue muy abstracto
    Como no había demo oficial, dejaron abierta una instancia local de llama.cpp

    • Gracias al enlace, lo probé directamente y la velocidad de respuesta es muy rápida
      Intenté varias solicitudes, como scripts en R y generación de fórmulas LaTeX, y en particular la fórmula de Euler salió perfecta
      A pesar de ser un modelo pequeño de 1 bit, tiene alta densidad de conocimiento y responde rápido
    • Como licenciado en historia del arte, apoyo por completo la idea del “pelícano en bicicleta”
    • El enlace de ngrok se saturó y bloqueó, así que compartieron una versión en Google Colab
    • Se preguntan si hace falta el fork de llama.cpp de Prism
    • Da la impresión de ser como el ChatGPT inicial: acierta la mayoría de las veces, pero a veces dice disparates
      Si se le agregaran “pasos de pensamiento” o refuerzo basado en búsqueda, probablemente sería mucho más útil
  • Ejecutaron un benchmark de depuración SQL hecho por ellos mismos y quedó bastante impresionante
    Pasó 8 de 25, con 0 fallos y 17 errores, quedando entre Qwen3.5-4B y Nanbeige4.1-3B
    Toda la prueba terminó en 200 segundos y, en velocidad, fue mucho más eficiente que Granite 7B 4bit
    Los resultados pueden verse en el sitio del benchmark SQL

    • Yo también usé el runpod de @freakynit
      Personalmente hice una prueba de crear una app Pomodoro y, aunque el acabado fue bajo, en ciertas áreas resultó bastante útil
      Su capacidad de redacción también fue inesperadamente buena, y llama la atención que use pocos guiones largos
      Es débil escribiendo HTML, pero combinar un modelo de 1 bit con Ngram-embedding parece abrir muchas posibilidades nuevas
      También compartieron el código de un prototipo propio
  • Ya puede ejecutarse en iPhone con la versión más reciente de la app Locally AI
    Para pesar 1.2GB, muestra un rendimiento sorprendente
    El resultado SVG del pelícano tenía buenos comentarios, pero el dibujo no estuvo muy bien

    • Descubrieron que los modelos pequeños son muy débiles para la conversión de zonas horarias
      Preguntaron “9:30am hora estándar de Taiwán, ¿qué hora es en la hora del Pacífico de EE. UU.?” y ningún modelo respondió bien
    • Queda la duda de si se pidió una bicicleta para el pelícano o si el modelo la agregó creativamente
  • Ejecutaron públicamente el modelo de 8GiB durante 5 horas en una RTX 3090
    Compartieron el enlace del servidor y el comando de ejecución
    5 solicitudes en paralelo, límite de unos 13K tokens y uso de 4GiB de VRAM
    Mostró un rendimiento muy rápido, con salida a 190t/s

    • Recomiendan mantener la caché KV sin pérdida de precisión
    • Conversar con el modelo es realmente divertido
      En este ejemplo de conversación respondió creativamente a la pregunta de si ir caminando o manejando hasta el autolavado
    • Actualizaron que el servidor se apagó porque terminó la instancia spot
    • Expresan asombro por la velocidad
    • También compartieron el resultado en Pastebin, mencionando que los modelos débiles no producen algo así
  • Como no tenían GPU, lo ejecutaron en CPU y, aun en una laptop vieja, pasó de 0.6t/s a 12t/s al agregar AVX2
    Les pareció un rendimiento bastante bueno

    • Hubo comentarios diciendo que incluso con compilación AVX2 seguía lento o solo generaba salida sin sentido
      La causa fue que habían omitido el paso git checkout prism, y tras corregirlo funcionó con normalidad
    • Bromearon con que la expresión “not shabby” se queda corta
  • Creen que el futuro de los modelos grandes irá a nivel de bits más que de floats
    La mayoría de los valores float se concentran en un rango estrecho y por eso son ineficientes; al final todo se implementa con operaciones de bits
    Sin embargo, el problema es que las GPU y la base teórica están alineadas con operaciones de punto flotante

    • La inferencia con anchos de bit bajos es fácil, pero el entrenamiento es difícil e inestable
      El motivo por el que se mantienen los formatos float es simplemente que son más compatibles con el stack de GPU
    • Este paper realiza incluso el entrenamiento en base binaria
      Introduce el concepto de “Boolean variation”, definiendo la derivada en forma binaria y realizando backpropagation directa
  • Resulta interesante la similitud con las redes neuronales de picos
    Se comunican con 1 bit según haya o no un spike, mientras usan potencial de membrana analógico
    Se controló una locomoción cuadrúpeda con 5 mil neuronas de Izhikevich y fue más eficiente que PPO
    La eficiencia de 1 bit es un concepto que va más allá de los LLM

  • Se preguntan si una proporción de “-log error / model size” cercana a 1 significa que la tasa de error ronda el 40%
    Añaden el cálculo matemático de que error/model size = 1/e

  • Bonsai ofrece un modelo 8B en 1.15GB, así que se preguntan cuánto ocuparían los modelos de 27B o 35B
    Si el escalado se mantiene, parece que incluso un modelo de 100B podría caber en 64GB de RAM

    • Pero el problema sería el costo de entrenamiento
      Probablemente sea tan caro como un modelo de precisión completa; de no ser así, ya lo habrían mencionado