17 puntos por GN⁺ 2024-02-29 | 2 comentarios | Compartir por WhatsApp

La era de los modelos de lenguaje grandes de 1 bit: todos los modelos de lenguaje grandes están en 1.58 bits

  • Una investigación reciente, BitNet, está abriendo una nueva era de modelos de lenguaje grandes (LLMs) de 1 bit.
  • Este estudio presenta BitNet b1.58, una variante de LLM de 1 bit en la que cada parámetro individual (o peso) es ternario {-1, 0, 1}.
  • BitNet b1.58 iguala a los Transformer LLM de precisión completa (por ejemplo, FP16 o BF16) con el mismo tamaño de modelo y los mismos tokens de entrenamiento en términos de complejidad y rendimiento final en tareas, mientras que resulta mucho más rentable en latencia, memoria, rendimiento y consumo de energía.
  • Más a fondo, el LLM de 1.58 bits define nuevas leyes de escalado y recetas para entrenar una nueva generación de LLMs de alto rendimiento y rentables.
  • Además, abre la puerta a un nuevo paradigma de computación y al diseño de hardware específico optimizado para LLMs de 1 bit.

La opinión de GN⁺

  • Los LLMs de 1 bit tienen el potencial de permitir un cómputo mucho más eficiente que los modelos de lenguaje grandes existentes, lo que podría reducir significativamente el consumo de energía y los costos en la investigación y las aplicaciones de inteligencia artificial.
  • Para que esta tecnología sea adoptada ampliamente en la práctica, la compatibilidad y la integración con la infraestructura existente de hardware y software serán consideraciones importantes.
  • Los beneficios que pueden obtenerse con los LLMs de 1 bit serán aún más relevantes a medida que aumenten el tamaño y la complejidad de los modelos, lo que los hará especialmente atractivos para desarrolladores que buscan usar tecnología de IA en entornos con recursos limitados.
  • Actualmente ya existe hardware dedicado a IA, como los TPU de Google, pero el diseño de hardware especializado para LLMs de 1 bit podría crear nuevas oportunidades de mercado.
  • El beneficio práctico que podría traer la adopción de esta tecnología es reducir el consumo eléctrico y los costos manteniendo la precisión y la velocidad de respuesta del modelo, aunque en su aplicación real habrá que considerar diferencias de rendimiento frente a los modelos existentes, problemas de compatibilidad y nuevos requisitos de hardware.

2 comentarios

 
kuroneko 2024-02-29

Esto me parece súper fascinante. No puedo creer que haya sido posible usando solo {-1, 0, 1} en lugar de punto flotante...
Tengo muchas ganas de ver cómo evoluciona esto.

 
xguru 2024-02-29

Opiniones de Hacker News

  • Dos hallazgos sorprendentes sobre los resultados de la investigación:

    • Es posible reemplazar los valores de los parámetros de los modelos de lenguaje grandes (LLM) existentes con ternario (-1, 0, 1) en lugar de números reales.
    • En la multiplicación de matrices, se puede reemplazar la multiplicación elemento por elemento de cada producto punto por suma elemento por elemento, con el signo variando según el valor.
    • Usar este método en el hardware actual mejora mucho la eficiencia de cómputo y memoria, sin pérdida de rendimiento.
    • Implementar este método en hardware podría dar mejoras de eficiencia aún mayores.
  • Rendimiento y eficiencia de BitNet b1.58:

    • BitNet b1.58 muestra un rendimiento equivalente al de modelos base de precisión completa a partir del tamaño 3B.
    • Hace posible una nueva ley de escalado para el rendimiento del modelo y el costo de inferencia.
    • BitNet b1.58 de 13B es más eficiente que un LLM FP16 de 3B en latencia, uso de memoria y consumo de energía.
    • BitNet b1.58 de 30B es más eficiente que un LLM FP16 de 7B, y BitNet b1.58 de 70B es más eficiente que un LLM FP16 de 13B.
    • Este paper representa un avance importante en la eficiencia de los LLM, ya que las mejoras se logran sin degradar el rendimiento.
  • Dudas sobre la posibilidad de convertir modelos existentes al nuevo método y una broma sobre el precio de la acción de NVIDIA.

  • Reflexión sobre la necesidad de replantear el papel de los transistores en aplicaciones de IA:

    • En IA, la reducción de entropía no es un problema tan grande, así que habría que aprovechar mejor el rango de voltaje disponible.
    • Se propone reconsiderar el papel de los transistores y que quizá la compuerta NAND no sea el bloque fundamental.
  • Conexión con el contenido de un blog sobre la representación de punto flotante y reflexión sobre nuevas formas de representación:

    • Explica que la distinción entre +0.0 y -0.0 en el estándar de punto flotante es útil.
    • Lo conecta con los valores {-1, 0, -1} usados en el paper de LLM y plantea si una representación de 2 bits {-1, -0, 0, 1} podría ofrecer ventajas adicionales.
    • Curiosidad por los valores de cuantización de 2 bits propuestos en otros papers sobre cuantización de LLM.
  • Escepticismo sobre lo realista de los resultados y reconocimiento de su importancia tras verificar que los autores son de Microsoft Research y UCAS:

    • Los resultados parecían demasiado buenos para ser reales, pero al revisar a los autores quedó claro que sí lo son.
    • Se espera que reduzca el costo de ofrecer LLM de alto rendimiento no solo en edge computing, sino también en la nube.
    • Reflexión sobre el impacto económico de largo plazo y especulación sobre la posible aparición de nuevos competidores.
  • Explicación de “bit” y “trit” y discusión sobre la posibilidad teórica de la computación ternaria:

    • Se usa el término “trit” en lugar de “bit”, junto con una explicación teórica de la promesa de la computación ternaria.
    • Mención de investigaciones soviéticas sobre computación ternaria y de la base e como ideal teórico.
  • Plan de GigaML para entrenar un nuevo modelo y propuesta de colaboración:

    • GigaML anunció planes para entrenar un nuevo modelo compatible con llama.cpp.
    • Planea entrenar un modelo pequeño (3-4B, 1 bit, open source) con el dataset stack-v2 más reciente y está buscando colaboradores.
  • Visión escéptica sobre los resultados y énfasis en la necesidad de reproducirlos:

    • Se menciona una postura crítica frente a estas mejoras y experiencias previas con intentos de cuantización extrema.
  • Asombro ante un gran avance en el campo de los LLM y la posibilidad de correr un modelo de 120B en una sola tarjeta:

    • Asombro por el potencial de correr un modelo de 120B en una sola tarjeta con 24GB de VRAM, logrando el mismo rendimiento y complejidad que un modelo FP16.