La era de los modelos de lenguaje grandes de 1 bit: todos los modelos de lenguaje grandes están en 1.58 bits
- Una investigación reciente, BitNet, está abriendo una nueva era de modelos de lenguaje grandes (LLMs) de 1 bit.
- Este estudio presenta BitNet b1.58, una variante de LLM de 1 bit en la que cada parámetro individual (o peso) es ternario {-1, 0, 1}.
- BitNet b1.58 iguala a los Transformer LLM de precisión completa (por ejemplo, FP16 o BF16) con el mismo tamaño de modelo y los mismos tokens de entrenamiento en términos de complejidad y rendimiento final en tareas, mientras que resulta mucho más rentable en latencia, memoria, rendimiento y consumo de energía.
- Más a fondo, el LLM de 1.58 bits define nuevas leyes de escalado y recetas para entrenar una nueva generación de LLMs de alto rendimiento y rentables.
- Además, abre la puerta a un nuevo paradigma de computación y al diseño de hardware específico optimizado para LLMs de 1 bit.
La opinión de GN⁺
- Los LLMs de 1 bit tienen el potencial de permitir un cómputo mucho más eficiente que los modelos de lenguaje grandes existentes, lo que podría reducir significativamente el consumo de energía y los costos en la investigación y las aplicaciones de inteligencia artificial.
- Para que esta tecnología sea adoptada ampliamente en la práctica, la compatibilidad y la integración con la infraestructura existente de hardware y software serán consideraciones importantes.
- Los beneficios que pueden obtenerse con los LLMs de 1 bit serán aún más relevantes a medida que aumenten el tamaño y la complejidad de los modelos, lo que los hará especialmente atractivos para desarrolladores que buscan usar tecnología de IA en entornos con recursos limitados.
- Actualmente ya existe hardware dedicado a IA, como los TPU de Google, pero el diseño de hardware especializado para LLMs de 1 bit podría crear nuevas oportunidades de mercado.
- El beneficio práctico que podría traer la adopción de esta tecnología es reducir el consumo eléctrico y los costos manteniendo la precisión y la velocidad de respuesta del modelo, aunque en su aplicación real habrá que considerar diferencias de rendimiento frente a los modelos existentes, problemas de compatibilidad y nuevos requisitos de hardware.
2 comentarios
Esto me parece súper fascinante. No puedo creer que haya sido posible usando solo {-1, 0, 1} en lugar de punto flotante...
Tengo muchas ganas de ver cómo evoluciona esto.
Opiniones de Hacker News
Dos hallazgos sorprendentes sobre los resultados de la investigación:
Rendimiento y eficiencia de BitNet b1.58:
Dudas sobre la posibilidad de convertir modelos existentes al nuevo método y una broma sobre el precio de la acción de NVIDIA.
Reflexión sobre la necesidad de replantear el papel de los transistores en aplicaciones de IA:
Conexión con el contenido de un blog sobre la representación de punto flotante y reflexión sobre nuevas formas de representación:
Escepticismo sobre lo realista de los resultados y reconocimiento de su importancia tras verificar que los autores son de Microsoft Research y UCAS:
Explicación de “bit” y “trit” y discusión sobre la posibilidad teórica de la computación ternaria:
Plan de GigaML para entrenar un nuevo modelo y propuesta de colaboración:
Visión escéptica sobre los resultados y énfasis en la necesidad de reproducirlos:
Asombro ante un gran avance en el campo de los LLM y la posibilidad de correr un modelo de 120B en una sola tarjeta: