11 puntos por xguru 2024-03-30 | 1 comentarios | Compartir por WhatsApp
  • AI21 Labs lanzó Jamba, el primer modelo de IA de nivel de producción del mundo basado en la arquitectura Mamba
  • Jamba combina las fortalezas de Mamba SSM (modelo de espacio de estado estructurado) y la arquitectura Transformer tradicional para ofrecer un rendimiento impresionante y mejoras en eficiencia
  • Amplia ventana de contexto de 256K tokens. Puede procesar hasta 140K tokens en una sola GPU de 80GB

Arquitectura híbrida y rendimiento de Jamba

  • Jamba utiliza una arquitectura híbrida SSM-Transformer con capas de mezcla de expertos (MoE) que emplean solo 12B de sus 52B parámetros durante la inferencia
  • Puede manejar contextos mucho más largos que modelos competidores como Llama 2 de Meta, manteniendo un alto rendimiento y eficiencia
  • Ofrece un rendimiento 3 veces mayor en contextos largos y es más eficiente que modelos basados en Transformer de tamaño similar
  • Se caracteriza por un enfoque de bloques y capas; cada bloque de Jamba incluye una capa de atención o una capa Mamba, seguida por un perceptrón multicapa (MLP)
  • En esta estructura, una capa Transformer se usa en proporción de una por cada 8 capas totales
  • Muestra resultados sobresalientes en diversos benchmarks y supera o iguala el rendimiento de modelos recientes del mismo tamaño en una amplia variedad de tareas

Licencia

  • Jamba se lanza con pesos abiertos bajo la licencia Apache 2.0 y está disponible en Hugging Face
  • Actualmente, Jamba se lanzó como un modelo de investigación sin las salvaguardas necesarias para uso comercial, pero AI21 Labs planea lanzar una versión más segura en las próximas semanas

1 comentarios

 
xguru 2024-03-30

Opiniones en Hacker News

  • Comparten un enlace a un hilo reciente con una explicación sobre Mamba
  • Recomiendan un video de Sasha Rush para quienes sienten curiosidad por las compensaciones entre las capas transformer y las de modelos de espacio de estados
    • El video de Sasha Rush ayuda a entender las diferencias entre las capas transformer y las de modelos de espacio de estados.
  • Comparten problemas relacionados con el intento de hacerlo funcionar usando una o dos GPU 4090 en Linux
    • Ocurren problemas al cargar checkpoints usando GPU 4090 en Linux; parece haber suficiente VRAM, pero aun así falla. Expresan interés por el intento.
  • Celebran la aparición de un modelo completo de nivel de producción que usa Mamba y expresan interés tanto en el rendimiento como en el throughput en benchmarks de ventanas de contexto largas
    • Tienen la impresión de que, cuando Mamba usa contextos largos, el throughput aumenta mucho, pero la precisión se pierde un poco.
  • Señalan la ineficiencia de los LLM (Large Language Models)
    • Mencionan la ineficiencia de los LLM que requieren 80 GB de memoria GPU y esperan que todavía haya mucho margen para mejorar los algoritmos.
  • Ponen en duda la necesidad de las capas de self-attention
    • Preguntan por qué se incluyen capas de self-attention, en lugar de alternar solo capas SSM y MLP.
  • Explican la mejora de rendimiento del modelo Jamba-v0.1-hybrid-MoE
    • Opinan que Jamba-v0.1-hybrid-MoE ofrece contextos más largos, mayor velocidad y menor costo que los modelos anteriores, y que pondrá fin a la idea de que “un solo modelo domina todo”.
  • Señalan el problema de la duplicación del nombre Mamba
    • Destacan la importancia de elegir nombres, ya que Mamba ya se usa para un paquete popular de Python.
  • Mencionan el nombre Sparabo y comentan lo curioso que es que nombres antiguos se asocien con cosas nuevas
    • Preguntan si existe el nombre Sparabo y expresan interés por el uso de nombres antiguos para cosas nuevas.
  • Mencionan que el trabajo con contextos largos está relacionado con MemGPT y sugieren que un concepto similar podría aplicarse también a modelos con arquitectura Mamba
    • Hacen referencia al trabajo de contextos largos relacionado con MemGPT y plantean que podría aplicarse también a modelos con arquitectura Mamba.