11 puntos por GN⁺ 2024-02-27 | Aún no hay comentarios. | Compartir por WhatsApp

Mamba es un modelo de espacio de estados (State Space Model) que desafía a Transformer

  • La IA domina hoy el mundo, y en el centro de todo están los Transformers
  • Mamba pertenece a una clase alternativa de modelos llamada modelos de espacio de estados (SSM)
  • Mamba ofrece un rendimiento y una escalabilidad similares a los de Transformer, pero puede ejecutarse con longitudes de secuencia largas
  • Lo más destacable es que Mamba elimina el “cuello de botella cuadrático” del “mecanismo de atención”, lo que habilita contextos largos
  • Mamba se ejecuta hasta 5 veces más rápido que Transformer

Problemas de Transformer: la atención por sí sola podría no ser suficiente

  • En Transformer, todos los tokens pueden referenciar tokens anteriores, por lo que el modelo se vuelve más lento a medida que crece el contexto
  • Almacenar este KV cache también requiere una complejidad espacial de O(n)
  • Existen técnicas para aliviar los cuellos de botella de los Transformers actuales, pero para resolver el problema de raíz se necesita un enfoque distinto

Backbone de modelos fundacionales

  • Dos componentes importantes de un buen backbone de arquitectura de ML
    • Comunicación (Communication) entre tokens
    • Cómputo (Computation) dentro de cada token
  • Los bloques Transformer están compuestos por atención (Attention) y MLPs
  • Mamba usa SSM, inspirados en la teoría de control, para la comunicación, y mantiene proyecciones estilo MLP para el cómputo

Motivación de Mamba: volver a Temple Run

  • El estado (state) se refiere a las variables necesarias para determinar el comportamiento futuro de un sistema
  • El estado comprime todo lo que se necesita saber del pasado y se transforma en un proceso de decisión de Markov

Discretización: vivir en un mundo cuantizado

  • Al proceso de convertir ecuaciones diferenciales en tiempo continuo en ecuaciones en diferencias de tiempo discreto se le llama discretización (discretisation)
  • Mamba usa discretización Zero-Order Hold (ZOH)

Entender las matrices de SSM

  • Las matrices A, B, C y D cumplen las funciones de transición de estado, mapeo de nuevas entradas al estado, mapeo del estado a la salida del SSM y paso de nuevas entradas a la salida

Eficiencia vs efectividad: Attention is Focus, Selectivity is Prioritisation (la atención es enfoque y la selectividad es priorización)

  • Los Transformers son muy efectivos, pero no necesariamente eficientes
  • La arquitectura Mamba ofrece una solución que empuja la frontera de Pareto entre eficiencia y efectividad

Mecanismo de selección

  • La selectividad (Selectivity) permite convertir cada token en estado según sus necesidades
  • Mamba hace que las matrices A, B y C sean funciones de x, volviéndolas dependientes del contexto en lugar de estáticas

Problemas de la selectividad

  • Aplicar el mecanismo de selección puede hacer que el cálculo sea más lento que en un SSM no selectivo
  • Gracias a la optimización de hardware, Mamba puede ejecutarse más rápido que Transformers de tamaño similar

Aprendizaje automático y economía política: ¿qué tan grande debe ser el estado?

  • El trade-off entre eficiencia y efectividad en modelos de secuencia se caracteriza por qué tan bien se comprime el estado
  • La representación del estado es importante, y la clave está en comprimirlo de forma selectiva y dinámica

Flujo de información en Transformer vs Mamba

  • Transformer aprende a través de los datos de entrenamiento y de contexto
  • En Mamba, los datos de entrenamiento y de contexto se comprimen/filtran para poder acceder a ellos

Reemplazo de estado como nuevo paradigma de prompting

  • Con modelos como Mamba, se pueden compartir bibliotecas de estados generadas a partir de datos especializados
  • Los estados permiten aplicar aprendizaje de contexto infinito en tiempo de inferencia sin backprop

Mamba y la interpretabilidad mecanística

  • La interpretabilidad de Mamba se enfoca en entender cómo se mueve la información entre tokens

Lo siguiente para Mamba y los SSM

  • Modelos como Mamba podrían destacar en escenarios que requieren contextos muy largos y memoria de largo plazo

Agentes y seguridad en IA

  • Los modelos de lenguaje son inherentemente seguros, pero la posibilidad de razonamiento secuencial de largo plazo vuelve a poner sobre la mesa la importancia de la seguridad en IA basada en agentes

La mejor colaboración entre Transformer y Mamba

  • Vale la pena combinar el contexto largo de Mamba con la alta resolución de Transformer para secuencias cortas

Opinión de GN⁺

  • Mamba resuelve los cuellos de botella de Transformer y presenta una alternativa eficaz para procesar secuencias largas
  • Esta tecnología puede ser especialmente útil en áreas donde importan las secuencias largas de datos, como medicina, genética y procesamiento de lenguaje natural
  • Se necesita más investigación para confirmar si el mecanismo de selección de Mamba realmente es eficaz
  • La selectividad de Mamba podría ayudar a encontrar un equilibrio entre la alta precisión y la eficiencia que ofrecen los Transformers

Aún no hay comentarios.

Aún no hay comentarios.