- Investigadores de Microsoft desarrollaron BitNet b1.58 2B4T, un modelo de IA ultraeficiente
- Mediante cuantización de 1 bit, logra alta velocidad y bajo uso de memoria, por lo que puede ejecutarse incluso en CPU, y fue publicado bajo licencia MIT
- Puede funcionar en CPU como el Apple M2 y operar sin GPU
- BitNet b1.58 2B4T, con 2 mil millones de parámetros, supera en rendimiento a modelos de Meta, Google y Alibaba
- Sin embargo, requiere usar el framework bitnet.cpp de Microsoft, y los problemas de compatibilidad con GPU siguen existiendo
El modelo de IA liviano de 1 bit de Microsoft, BitNet b1.58 2B4T
El concepto de BitNet como modelo ultraligero
- BitNet es un modelo de IA que aplica cuantización de 1 bit y representa sus parámetros usando solo tres valores: -1, 0, 1
- Los modelos cuantizados tradicionales suelen representarse con 8 bits o 4 bits, pero BitNet usa solo 1 bit, lo que le da una eficiencia de memoria abrumadora
- Este enfoque ofrece grandes ventajas en hardware de bajos recursos, especialmente en entornos de CPU sin GPU
Características de BitNet b1.58 2B4T
- Cantidad de parámetros: 2 mil millones
- Datos de entrenamiento: 4 billones de tokens (aproximadamente el equivalente a 33 millones de libros)
- Publicado como código abierto bajo licencia MIT
- Puede funcionar incluso en CPU de propósito general como el Apple M2
Comparación de rendimiento y resultados de benchmarks
- BitNet b1.58 2B4T muestra un rendimiento superior en algunos benchmarks frente a los siguientes modelos:
- Meta Llama 3.2 1B
- Google Gemma 3 1B
- Alibaba Qwen 2.5 1.5B
- Principales benchmarks utilizados:
- GSM8K: evaluación de problemas matemáticos de nivel primaria
- PIQA: evaluación de capacidad de razonamiento físico de sentido común
- En algunas pruebas fue hasta 2 veces más rápido y el uso de memoria fue notablemente menor
Limitaciones y problemas de compatibilidad
- El rendimiento de BitNet depende del framework propietario de Microsoft,
bitnet.cpp
- Actualmente,
bitnet.cpp solo es compatible con ciertas CPU y no es compatible con GPU
- Por ello, se señala como desventaja su falta de compatibilidad con entornos GPU, el estándar de la infraestructura de IA
4 comentarios
Como hay 3 valores, ¿1 bit? Me pareció raro, así que fui a ver algunos comentarios en HN,
En vez de usar 8 bits para representar 2 valores por byte, se maneja con 5 dígitos ternarios que representan 3 valores, así que estrictamente no es un modelo de 1 bit, sino un modelo de log(3) / log(2) = 1.5849... bits. Viendo que el nombre del modelo incluye b1.58, parece que eso es lo correcto.
Parece que hay que corregir la cuarta línea de
200 millones de parámetrosa2 mil millones de parámetros.Opiniones de Hacker News
En la cuarta línea,
비교된 모든 모델은 1-2억 개의->비교된 모든 모델은 10-20억 개의La traducción de billion en IA se ve extraña.