13 puntos por GN⁺ 2025-04-18 | 4 comentarios | Compartir por WhatsApp
  • Investigadores de Microsoft desarrollaron BitNet b1.58 2B4T, un modelo de IA ultraeficiente
  • Mediante cuantización de 1 bit, logra alta velocidad y bajo uso de memoria, por lo que puede ejecutarse incluso en CPU, y fue publicado bajo licencia MIT
  • Puede funcionar en CPU como el Apple M2 y operar sin GPU
  • BitNet b1.58 2B4T, con 2 mil millones de parámetros, supera en rendimiento a modelos de Meta, Google y Alibaba
  • Sin embargo, requiere usar el framework bitnet.cpp de Microsoft, y los problemas de compatibilidad con GPU siguen existiendo

El modelo de IA liviano de 1 bit de Microsoft, BitNet b1.58 2B4T

El concepto de BitNet como modelo ultraligero

  • BitNet es un modelo de IA que aplica cuantización de 1 bit y representa sus parámetros usando solo tres valores: -1, 0, 1
  • Los modelos cuantizados tradicionales suelen representarse con 8 bits o 4 bits, pero BitNet usa solo 1 bit, lo que le da una eficiencia de memoria abrumadora
  • Este enfoque ofrece grandes ventajas en hardware de bajos recursos, especialmente en entornos de CPU sin GPU

Características de BitNet b1.58 2B4T

  • Cantidad de parámetros: 2 mil millones
  • Datos de entrenamiento: 4 billones de tokens (aproximadamente el equivalente a 33 millones de libros)
  • Publicado como código abierto bajo licencia MIT
  • Puede funcionar incluso en CPU de propósito general como el Apple M2

Comparación de rendimiento y resultados de benchmarks

  • BitNet b1.58 2B4T muestra un rendimiento superior en algunos benchmarks frente a los siguientes modelos:
    • Meta Llama 3.2 1B
    • Google Gemma 3 1B
    • Alibaba Qwen 2.5 1.5B
  • Principales benchmarks utilizados:
    • GSM8K: evaluación de problemas matemáticos de nivel primaria
    • PIQA: evaluación de capacidad de razonamiento físico de sentido común
  • En algunas pruebas fue hasta 2 veces más rápido y el uso de memoria fue notablemente menor

Limitaciones y problemas de compatibilidad

  • El rendimiento de BitNet depende del framework propietario de Microsoft, bitnet.cpp
  • Actualmente, bitnet.cpp solo es compatible con ciertas CPU y no es compatible con GPU
  • Por ello, se señala como desventaja su falta de compatibilidad con entornos GPU, el estándar de la infraestructura de IA

4 comentarios

 
cartwheel8815 2025-04-21

BitNet es un modelo de IA que aplica cuantización de 1 bit y representa los parámetros usando solo tres valores: -1, 0 y 1

Como hay 3 valores, ¿1 bit? Me pareció raro, así que fui a ver algunos comentarios en HN,

https://compilade.net/blog/ternary-packing

En vez de usar 8 bits para representar 2 valores por byte, se maneja con 5 dígitos ternarios que representan 3 valores, así que estrictamente no es un modelo de 1 bit, sino un modelo de log(3) / log(2) = 1.5849... bits. Viendo que el nombre del modelo incluye b1.58, parece que eso es lo correcto.

 
cartwheel8815 2025-04-21

Parece que hay que corregir la cuarta línea de 200 millones de parámetros a 2 mil millones de parámetros.

 
GN⁺ 2025-04-18
Opiniones de Hacker News
  • BitNet de Microsoft es rentable en términos de latencia, memoria, rendimiento y consumo de energía, aun usando el mismo tamaño de modelo y los mismos tokens de entrenamiento que un Transformer LLM con precisiones como FP16 o BF16
    • Se puede obtener más información mediante el enlace de GitHub y el artículo en arXiv
  • La "cantidad de parámetros" de un modelo de IA es como los "GHz" de un modelo de IA
    • Todos los modelos comparados tienen entre 1 y 2 mil millones de parámetros, pero su tamaño real puede diferir por más de 10 veces
  • La mayoría de los LLM gratuitos pueden ejecutarse en CPU
    • La afirmación es que este modelo corre en CPU a una velocidad útil
    • No se conoce la velocidad de ejecución en GPU, así que no se puede tener certeza sobre la precisión de esta afirmación
  • El modelo BitNet b1.58 2B4T es más rápido que otros modelos del mismo tamaño y usa menos memoria
    • El tamaño del modelo es de más de 1 GB, y hay muchos modelos de 1 a 2 GB que también funcionan bien incluso en CPUs modernas
  • NVidia está apresurando un bloqueo a nivel de software mediante CUDA
    • De lo contrario, sus acciones podrían terminar siguiendo el mismo camino que Zoom
  • Lo llaman "1-bit", pero en realidad usa {-1, 0, 1}
    • Esto puede resultar confuso
  • Hay curiosidad por saber si existe una biblioteca para destilar modelos más grandes a BitNet
  • Está disponible públicamente bajo licencia MIT y puede ejecutarse en CPUs, incluido el M2 de Apple
    • El M2 ya ejecuta con facilidad modelos LLama y Mistral de 7 GB o 13 GB
  • La amplia adopción de la serie M y las MacBook puede hacer que se olvide lo débil que puede ser una CPU promedio (i3 o i5)
  • La guerra de precios seguirá hundiéndose hasta el fondo
  • Es una tecnología de hace más de un año, y no todo el mundo se ha cambiado a ella
    • Si se revisan las razones, esta tecnología realmente afecta las métricas, y algunas se ven más impactadas que otras
    • No es una solución universal
 
cartwheel8815 2025-04-21

En la cuarta línea, 비교된 모든 모델은 1-2억 개의 -> 비교된 모든 모델은 10-20억 개의
La traducción de billion en IA se ve extraña.