- La arquitectura Titans y el marco MIRAS están diseñados para que los modelos de IA actualicen su memoria esencial durante la ejecución y procesen rápidamente grandes contextos.
- Titans combina la velocidad de las RNN con la precisión de los Transformers para almacenar de forma selectiva en la memoria a largo plazo la información con mayor ‘sorpresa’.
- MIRAS es un plano teórico de interpretación integral de diversos modelos de secuencia, que sistematiza la estructura de memoria, el sesgo, el olvido y el proceso de optimización.
- En los resultados experimentales, modelos derivados de Titans y MIRAS (YAAD, MONETA, MEMORA) superan a modelos modernos como Transformer++ y Mamba-2 en rendimiento de manejo de contextos largos y eficiencia.
- Esta investigación demuestra la transición hacia una nueva generación de modelos de IA de contexto largo que combina la eficiencia de las RNN y la capacidad expresiva de los Transformers.
Resumen de Titans y MIRAS
- La arquitectura Titans y el marco MIRAS están diseñados para que la IA actualice su memoria en tiempo real durante la ejecución y procese contextos a gran escala.
- El mecanismo de atención de los Transformers convencionales incrementa fuertemente el costo computacional en función de la longitud de la secuencia.
- Titans y MIRAS superan estas limitaciones, permitiendo comprensión de contexto largo y adaptación en tiempo real.
- Titans ofrece una estructura de modelo concreta, y MIRAS cumple el rol de un plano teórico generalizador.
- Los dos sistemas desarrollan el concepto de memorización en tiempo de prueba (test-time memorization), integrando nueva información durante la ejecución sin reentrenamiento.
Titans: aprendizaje de contexto en tiempo real
- Titans separa la memoria a corto plazo (mecanismo de atención) y la memoria a largo plazo (módulos basados en redes neuronales) para imitar la estructura de memoria humana.
- El módulo de memoria a largo plazo tiene forma de perceptrón multicapa (MLP) y permite un resumen de información más rico al usar una red neuronal profunda en lugar de vectores fijos.
- El concepto central es la métrica de sorpresa (surprise metric).
- Mientras más se desvíe una entrada de la memoria existente, mayor es su sorpresa y por eso se guarda en la memoria a largo plazo.
- Ejemplo: la palabra esperada (‘cat’) tiene baja sorpresa; una entrada inesperada (‘banana peel’) se procesa con alta sorpresa.
- Titans combina mecanismos de momentum y weight decay.
- El momentum refleja la continuidad del contexto reciente y también guarda información relacionada.
- El olvido elimina la información innecesaria para mantener de forma eficiente la capacidad de memoria.
MIRAS: una visión integrada de los modelos de secuencia
- MIRAS interpreta todos los modelos de secuencia como sistemas de memoria asociativa (associative memory).
- Define que distintos modelos resuelven esencialmente el mismo problema: combinar de forma eficiente nueva información con memoria existente.
- MIRAS define los modelos mediante cuatro elementos de diseño:
- Estructura de memoria: forma de almacenamiento de información (vector, matriz, MLP, etc.)
- Sesgo de atención: lo que determina qué información prioriza el modelo.
- Puerta de retención (retention gate): un método de regularización que controla el olvido.
- Algoritmo de memoria: método de optimización para actualizar la memoria.
- Va más allá de la limitación de modelos tradicionales que dependen de error cuadrático medio (MSE) o similitud por producto interno, explorando funciones objetivo y regularizaciones no euclidianas (non-Euclidean).
Modelos basados en MIRAS
- YAAD: usa Huber loss para una estructura menos sensible a errores o atípicos de entrada.
- MONETA: aplica normas generalizadas (generalized norms) para mantener una memoria a largo plazo estable.
- MEMORA: restringe la memoria como un mapa probabilístico para asegurar una integración de información balanceada.
- Los tres modelos logran un rendimiento sólido de memoria a largo plazo incluso sin atención.
Resultados y rendimiento de los experimentos
- Los modelos derivados de Titans y MIRAS se evaluaron frente a arquitecturas recientes como Transformer++, Mamba-2 y Gated DeltaNet.
- En modelado de lenguaje (C4, WikiText) y razonamiento zero-shot (HellaSwag, PIQA), alcanzaron mayor precisión y menor perplexity.
- También demostraron rendimiento de generalización en modelado de ADN y predicción de series temporales.
- La profundidad de memoria (Depth) influye de forma decisiva en el rendimiento.
- Con igual tamaño de memoria, las estructuras más profundas consiguen menor perplexity y mejor escalabilidad.
- En términos de eficiencia, Titans mantiene el entrenamiento paralelo y la inferencia lineal, permitiendo un procesamiento más rápido que modelos anteriores.
- En el benchmark BABILong, mostró un rendimiento superior en razonamiento de contexto largo que GPT-4 con menos parámetros.
- Procesa eficazmente ventanas de contexto de más de 2 millones de tokens.
Conclusión
- Titans y MIRAS superan las limitaciones de los estados recurrentes de tamaño fijo y proponen una nueva estructura de memoria que aprende en tiempo real durante la ingesta de datos.
- MIRAS ofrece un marco teórico poderoso que integra optimización en línea, memoria asociativa y diseño arquitectónico.
- Al abrir un espacio de diseño no euclidiano, sientan las bases para una era de modelos de IA de contexto largo que combinen la eficiencia de las RNN y la capacidad de expresión de los Transformers
1 comentarios
Comentarios en Hacker News
Presentan el paper Titans: Learning to Memorize at Test Time
El original está en este enlace de arXiv
Los papers relacionados pueden verse en el primer y segundo enlace. Cree que Google merece mucha confianza por este nivel de transparencia
Los papers de los grandes laboratorios de EE. UU. muchas veces están alejados del rendimiento práctico. Como ejemplo de DeepSeek, menciona este paper y este otro
Meta con Llama, Qwen y DeepSeek están mucho más adelantados. Lo único disponible ahora es una implementación no oficial
Lo que más le impresionó recientemente fue el proyecto lumine, y comparte el enlace al paper y la página oficial de investigación
No cree que Google tenga por qué recibir un reconocimiento especialmente mayor
Lanza la broma de “por fin creamos el ‘Torment Nexus’”
Menciona que en el universo de Eclipse Phase, TITAN era la red de IA que destruyó a la humanidad
La clave de la arquitectura Titans es que determina la sorpresa y la importancia mediante señales internas de error (gradient), y con base en eso actualiza la memoria de largo plazo
Se pregunta si con una estructura así no sería posible perturbar el modelo con entradas de ruido aleatorio
El modelo aprende incluso durante la inferencia, y en la etapa de entrenamiento aprende ‘qué aprender’
A las entradas sin sentido se les asigna un embedding de baja sorpresa, por lo que casi no se reflejan en el aprendizaje
Los humanos recuerdan según la intensidad emocional más que por la novedad. La IA también debería tener un estado interno de ‘qué quiere’
Pero en un entorno donde se mantiene el contexto, como el desarrollo de una base de código, podría recordar decisiones de diseño y discusiones previas para tomar mejores decisiones
Cuando leyó por primera vez el paper de Titans, sintió que “esto va a ser un gran avance”
No trabaja en la industria de la IA, pero lleva mucho tiempo pensando en una IA con pensamiento humanoide
Los LLM estaban muy lejos de ese estándar, pero Titans parece un paso en esa dirección
Le gustaría ordenar estas ideas en un blog, pero como no es una figura conocida, no está seguro de que reciba atención
Aun así, cree que cuando salga una implementación real de Titans, todos se van a sorprender
Un texto que señale el panorama general podría dar insights útiles
Ya había escrito antes una entrada de blog sobre Titans
Fuera de las afirmaciones de Google, no hay una implementación verificada y casi no hay investigaciones de seguimiento
Se pregunta si la estructura de Titans sería más o menos vulnerable al prompt injection
El aprendizaje en tiempo real podría reforzar la defensa, pero por el contrario también podría hacer que entradas maliciosas queden grabadas con más profundidad
Al leer una explicación del mecanismo de attention de los Transformer, se preguntó cómo IDEs como Cursor gestionan la memoria
Parece que cada vez entienden mejor la base de código y el contexto
Simplemente explica cómo funciona la ventana de contexto del Transformer
Pregunta si se puede imaginar Titans como una estructura que sigue adaptándose de forma continua, parecida a LoRA
Si fuera así, ¿habría una etapa para volver a fusionar LoRA con el modelo principal? Dice que eso sería como un proceso de sueño
Titans no tiene una estructura de baja dimensión de ese tipo
En su lugar, la idea es entrenar todo el MLP mientras se procesan bloques de entrada
Se pregunta si un aprendizaje basado en sorpresa tendría el efecto de alinear el modelo con mayor precisión (alignment) a los prompts del usuario