Jamba - modelo de IA de nivel de producción basado en Mamba

xguru · 2024-03-30T09:46:02+09:00

AI21 Labs lanzó Jamba, el primer modelo de IA de nivel de producción del mundo basado en la arquitectura Mamba Jamba combina las fortalezas de Mamba SSM (modelo de espacio de estado estructurado) y la arquitectura Transformer tradicional para ofrecer un rendimiento impresionante y mejoras en eficiencia Amplia ventana de contexto de 256K tokens. Puede procesar hasta 140K tokens en una sola GPU de 80GB Arquitectura híbrida y rendimiento de Jamba Jamba utiliza una arquitectura híbrida SSM-Transformer con capas de mezcla de expertos (MoE) que emplean solo 12B de sus 52B parámetros durante la inferencia Puede manejar contextos mucho más largos que modelos competidores como Llama 2 de Meta, manteniendo un alto rendimiento y eficiencia Ofrece un rendimiento 3 veces mayor en contextos largos y es más eficiente que modelos basados en Transformer de tamaño similar Se caracteriza por un enfoque de bloques y capas; cada bloque de Jamba incluye una capa de atención o una capa Mamba, seguida por un perceptrón multicapa (MLP) En esta estructura, una capa Transformer se usa en proporción de una por cada 8 capas totales Muestra resultados sobresalientes en diversos benchmarks y supera o iguala el rendimiento de modelos recientes del mismo tamaño en una amplia variedad de tareas Licencia Jamba se lanza con pesos abiertos bajo la licencia Apache 2.0 y está disponible en Hugging Face Actualmente, Jamba se lanzó como un modelo de investigación sin las salvaguardas necesarias para uso comercial, pero AI21 Labs planea lanzar una versión más segura en las próximas semanas

(maginative.com)

11 puntos por xguru 2024-03-30 | 1 comentarios | Compartir por WhatsApp

AI21 Labs lanzó Jamba, el primer modelo de IA de nivel de producción del mundo basado en la arquitectura Mamba
Jamba combina las fortalezas de Mamba SSM (modelo de espacio de estado estructurado) y la arquitectura Transformer tradicional para ofrecer un rendimiento impresionante y mejoras en eficiencia
Amplia ventana de contexto de 256K tokens. Puede procesar hasta 140K tokens en una sola GPU de 80GB

Arquitectura híbrida y rendimiento de Jamba

Jamba utiliza una arquitectura híbrida SSM-Transformer con capas de mezcla de expertos (MoE) que emplean solo 12B de sus 52B parámetros durante la inferencia
Puede manejar contextos mucho más largos que modelos competidores como Llama 2 de Meta, manteniendo un alto rendimiento y eficiencia
Ofrece un rendimiento 3 veces mayor en contextos largos y es más eficiente que modelos basados en Transformer de tamaño similar
Se caracteriza por un enfoque de bloques y capas; cada bloque de Jamba incluye una capa de atención o una capa Mamba, seguida por un perceptrón multicapa (MLP)
En esta estructura, una capa Transformer se usa en proporción de una por cada 8 capas totales
Muestra resultados sobresalientes en diversos benchmarks y supera o iguala el rendimiento de modelos recientes del mismo tamaño en una amplia variedad de tareas

Licencia

Jamba se lanza con pesos abiertos bajo la licencia Apache 2.0 y está disponible en Hugging Face
Actualmente, Jamba se lanzó como un modelo de investigación sin las salvaguardas necesarias para uso comercial, pero AI21 Labs planea lanzar una versión más segura en las próximas semanas

1 comentarios

xguru 2024-03-30

Opiniones en Hacker News

Comparten un enlace a un hilo reciente con una explicación sobre Mamba
- Proporcionan dos enlaces: el hilo explicativo de Mamba y un hilo mejor.
Recomiendan un video de Sasha Rush para quienes sienten curiosidad por las compensaciones entre las capas transformer y las de modelos de espacio de estados
- El video de Sasha Rush ayuda a entender las diferencias entre las capas transformer y las de modelos de espacio de estados.
Comparten problemas relacionados con el intento de hacerlo funcionar usando una o dos GPU 4090 en Linux
- Ocurren problemas al cargar checkpoints usando GPU 4090 en Linux; parece haber suficiente VRAM, pero aun así falla. Expresan interés por el intento.
Celebran la aparición de un modelo completo de nivel de producción que usa Mamba y expresan interés tanto en el rendimiento como en el throughput en benchmarks de ventanas de contexto largas
- Tienen la impresión de que, cuando Mamba usa contextos largos, el throughput aumenta mucho, pero la precisión se pierde un poco.
Señalan la ineficiencia de los LLM (Large Language Models)
- Mencionan la ineficiencia de los LLM que requieren 80 GB de memoria GPU y esperan que todavía haya mucho margen para mejorar los algoritmos.
Ponen en duda la necesidad de las capas de self-attention
- Preguntan por qué se incluyen capas de self-attention, en lugar de alternar solo capas SSM y MLP.
Explican la mejora de rendimiento del modelo Jamba-v0.1-hybrid-MoE
- Opinan que Jamba-v0.1-hybrid-MoE ofrece contextos más largos, mayor velocidad y menor costo que los modelos anteriores, y que pondrá fin a la idea de que “un solo modelo domina todo”.
Señalan el problema de la duplicación del nombre Mamba
- Destacan la importancia de elegir nombres, ya que Mamba ya se usa para un paquete popular de Python.
Mencionan el nombre Sparabo y comentan lo curioso que es que nombres antiguos se asocien con cosas nuevas
- Preguntan si existe el nombre Sparabo y expresan interés por el uso de nombres antiguos para cosas nuevas.
Mencionan que el trabajo con contextos largos está relacionado con MemGPT y sugieren que un concepto similar podría aplicarse también a modelos con arquitectura Mamba
- Hacen referencia al trabajo de contextos largos relacionado con MemGPT y plantean que podría aplicarse también a modelos con arquitectura Mamba.