- AI21 Labs lanzó Jamba, el primer modelo de IA de nivel de producción del mundo basado en la arquitectura Mamba
- Jamba combina las fortalezas de Mamba SSM (modelo de espacio de estado estructurado) y la arquitectura Transformer tradicional para ofrecer un rendimiento impresionante y mejoras en eficiencia
- Amplia ventana de contexto de 256K tokens. Puede procesar hasta 140K tokens en una sola GPU de 80GB
Arquitectura híbrida y rendimiento de Jamba
- Jamba utiliza una arquitectura híbrida SSM-Transformer con capas de mezcla de expertos (MoE) que emplean solo 12B de sus 52B parámetros durante la inferencia
- Puede manejar contextos mucho más largos que modelos competidores como Llama 2 de Meta, manteniendo un alto rendimiento y eficiencia
- Ofrece un rendimiento 3 veces mayor en contextos largos y es más eficiente que modelos basados en Transformer de tamaño similar
- Se caracteriza por un enfoque de bloques y capas; cada bloque de Jamba incluye una capa de atención o una capa Mamba, seguida por un perceptrón multicapa (MLP)
- En esta estructura, una capa Transformer se usa en proporción de una por cada 8 capas totales
- Muestra resultados sobresalientes en diversos benchmarks y supera o iguala el rendimiento de modelos recientes del mismo tamaño en una amplia variedad de tareas
Licencia
- Jamba se lanza con pesos abiertos bajo la licencia Apache 2.0 y está disponible en Hugging Face
- Actualmente, Jamba se lanzó como un modelo de investigación sin las salvaguardas necesarias para uso comercial, pero AI21 Labs planea lanzar una versión más segura en las próximas semanas
1 comentarios
Opiniones en Hacker News