La era de los LLM de 1 bit: parámetros ternarios para una computación rentable

(arxiv.org)

17 puntos por GN⁺ 2024-02-29 | 2 comentarios | Compartir por WhatsApp

La era de los modelos de lenguaje grandes de 1 bit: todos los modelos de lenguaje grandes están en 1.58 bits

Una investigación reciente, BitNet, está abriendo una nueva era de modelos de lenguaje grandes (LLMs) de 1 bit.
Este estudio presenta BitNet b1.58, una variante de LLM de 1 bit en la que cada parámetro individual (o peso) es ternario {-1, 0, 1}.
BitNet b1.58 iguala a los Transformer LLM de precisión completa (por ejemplo, FP16 o BF16) con el mismo tamaño de modelo y los mismos tokens de entrenamiento en términos de complejidad y rendimiento final en tareas, mientras que resulta mucho más rentable en latencia, memoria, rendimiento y consumo de energía.
Más a fondo, el LLM de 1.58 bits define nuevas leyes de escalado y recetas para entrenar una nueva generación de LLMs de alto rendimiento y rentables.
Además, abre la puerta a un nuevo paradigma de computación y al diseño de hardware específico optimizado para LLMs de 1 bit.

La opinión de GN⁺

Los LLMs de 1 bit tienen el potencial de permitir un cómputo mucho más eficiente que los modelos de lenguaje grandes existentes, lo que podría reducir significativamente el consumo de energía y los costos en la investigación y las aplicaciones de inteligencia artificial.
Para que esta tecnología sea adoptada ampliamente en la práctica, la compatibilidad y la integración con la infraestructura existente de hardware y software serán consideraciones importantes.
Los beneficios que pueden obtenerse con los LLMs de 1 bit serán aún más relevantes a medida que aumenten el tamaño y la complejidad de los modelos, lo que los hará especialmente atractivos para desarrolladores que buscan usar tecnología de IA en entornos con recursos limitados.
Actualmente ya existe hardware dedicado a IA, como los TPU de Google, pero el diseño de hardware especializado para LLMs de 1 bit podría crear nuevas oportunidades de mercado.
El beneficio práctico que podría traer la adopción de esta tecnología es reducir el consumo eléctrico y los costos manteniendo la precisión y la velocidad de respuesta del modelo, aunque en su aplicación real habrá que considerar diferencias de rendimiento frente a los modelos existentes, problemas de compatibilidad y nuevos requisitos de hardware.

2 comentarios

kuroneko 2024-02-29

Esto me parece súper fascinante. No puedo creer que haya sido posible usando solo {-1, 0, 1} en lugar de punto flotante...
Tengo muchas ganas de ver cómo evoluciona esto.

xguru 2024-02-29

Opiniones de Hacker News

Dos hallazgos sorprendentes sobre los resultados de la investigación:
- Es posible reemplazar los valores de los parámetros de los modelos de lenguaje grandes (LLM) existentes con ternario (-1, 0, 1) en lugar de números reales.
- En la multiplicación de matrices, se puede reemplazar la multiplicación elemento por elemento de cada producto punto por suma elemento por elemento, con el signo variando según el valor.
- Usar este método en el hardware actual mejora mucho la eficiencia de cómputo y memoria, sin pérdida de rendimiento.
- Implementar este método en hardware podría dar mejoras de eficiencia aún mayores.
Rendimiento y eficiencia de BitNet b1.58:
- BitNet b1.58 muestra un rendimiento equivalente al de modelos base de precisión completa a partir del tamaño 3B.
- Hace posible una nueva ley de escalado para el rendimiento del modelo y el costo de inferencia.
- BitNet b1.58 de 13B es más eficiente que un LLM FP16 de 3B en latencia, uso de memoria y consumo de energía.
- BitNet b1.58 de 30B es más eficiente que un LLM FP16 de 7B, y BitNet b1.58 de 70B es más eficiente que un LLM FP16 de 13B.
- Este paper representa un avance importante en la eficiencia de los LLM, ya que las mejoras se logran sin degradar el rendimiento.
Dudas sobre la posibilidad de convertir modelos existentes al nuevo método y una broma sobre el precio de la acción de NVIDIA.
Reflexión sobre la necesidad de replantear el papel de los transistores en aplicaciones de IA:
- En IA, la reducción de entropía no es un problema tan grande, así que habría que aprovechar mejor el rango de voltaje disponible.
- Se propone reconsiderar el papel de los transistores y que quizá la compuerta NAND no sea el bloque fundamental.
Conexión con el contenido de un blog sobre la representación de punto flotante y reflexión sobre nuevas formas de representación:
- Explica que la distinción entre +0.0 y -0.0 en el estándar de punto flotante es útil.
- Lo conecta con los valores {-1, 0, -1} usados en el paper de LLM y plantea si una representación de 2 bits {-1, -0, 0, 1} podría ofrecer ventajas adicionales.
- Curiosidad por los valores de cuantización de 2 bits propuestos en otros papers sobre cuantización de LLM.
Escepticismo sobre lo realista de los resultados y reconocimiento de su importancia tras verificar que los autores son de Microsoft Research y UCAS:
- Los resultados parecían demasiado buenos para ser reales, pero al revisar a los autores quedó claro que sí lo son.
- Se espera que reduzca el costo de ofrecer LLM de alto rendimiento no solo en edge computing, sino también en la nube.
- Reflexión sobre el impacto económico de largo plazo y especulación sobre la posible aparición de nuevos competidores.
Explicación de “bit” y “trit” y discusión sobre la posibilidad teórica de la computación ternaria:
- Se usa el término “trit” en lugar de “bit”, junto con una explicación teórica de la promesa de la computación ternaria.
- Mención de investigaciones soviéticas sobre computación ternaria y de la base e como ideal teórico.
Plan de GigaML para entrenar un nuevo modelo y propuesta de colaboración:
- GigaML anunció planes para entrenar un nuevo modelo compatible con llama.cpp.
- Planea entrenar un modelo pequeño (3-4B, 1 bit, open source) con el dataset stack-v2 más reciente y está buscando colaboradores.
Visión escéptica sobre los resultados y énfasis en la necesidad de reproducirlos:
- Se menciona una postura crítica frente a estas mejoras y experiencias previas con intentos de cuantización extrema.
Asombro ante un gran avance en el campo de los LLM y la posibilidad de correr un modelo de 120B en una sola tarjeta:
- Asombro por el potencial de correr un modelo de 120B en una sola tarjeta con 24GB de VRAM, logrando el mismo rendimiento y complejidad que un modelo FP16.