La arquitectura Google Titans y el marco MIRAS para potenciar la memoria a largo plazo de la IA

(research.google)

9 puntos por GN⁺ 2025-12-08 | 1 comentarios | Compartir por WhatsApp

La arquitectura Titans y el marco MIRAS están diseñados para que los modelos de IA actualicen su memoria esencial durante la ejecución y procesen rápidamente grandes contextos.
Titans combina la velocidad de las RNN con la precisión de los Transformers para almacenar de forma selectiva en la memoria a largo plazo la información con mayor ‘sorpresa’.
MIRAS es un plano teórico de interpretación integral de diversos modelos de secuencia, que sistematiza la estructura de memoria, el sesgo, el olvido y el proceso de optimización.
En los resultados experimentales, modelos derivados de Titans y MIRAS (YAAD, MONETA, MEMORA) superan a modelos modernos como Transformer++ y Mamba-2 en rendimiento de manejo de contextos largos y eficiencia.
Esta investigación demuestra la transición hacia una nueva generación de modelos de IA de contexto largo que combina la eficiencia de las RNN y la capacidad expresiva de los Transformers.

Resumen de Titans y MIRAS

La arquitectura Titans y el marco MIRAS están diseñados para que la IA actualice su memoria en tiempo real durante la ejecución y procese contextos a gran escala.
- El mecanismo de atención de los Transformers convencionales incrementa fuertemente el costo computacional en función de la longitud de la secuencia.
- Titans y MIRAS superan estas limitaciones, permitiendo comprensión de contexto largo y adaptación en tiempo real.
Titans ofrece una estructura de modelo concreta, y MIRAS cumple el rol de un plano teórico generalizador.
- Los dos sistemas desarrollan el concepto de memorización en tiempo de prueba (test-time memorization), integrando nueva información durante la ejecución sin reentrenamiento.

Titans: aprendizaje de contexto en tiempo real

Titans separa la memoria a corto plazo (mecanismo de atención) y la memoria a largo plazo (módulos basados en redes neuronales) para imitar la estructura de memoria humana.
- El módulo de memoria a largo plazo tiene forma de perceptrón multicapa (MLP) y permite un resumen de información más rico al usar una red neuronal profunda en lugar de vectores fijos.
El concepto central es la métrica de sorpresa (surprise metric).
- Mientras más se desvíe una entrada de la memoria existente, mayor es su sorpresa y por eso se guarda en la memoria a largo plazo.
- Ejemplo: la palabra esperada (‘cat’) tiene baja sorpresa; una entrada inesperada (‘banana peel’) se procesa con alta sorpresa.
Titans combina mecanismos de momentum y weight decay.
- El momentum refleja la continuidad del contexto reciente y también guarda información relacionada.
- El olvido elimina la información innecesaria para mantener de forma eficiente la capacidad de memoria.

MIRAS: una visión integrada de los modelos de secuencia

MIRAS interpreta todos los modelos de secuencia como sistemas de memoria asociativa (associative memory).
- Define que distintos modelos resuelven esencialmente el mismo problema: combinar de forma eficiente nueva información con memoria existente.
MIRAS define los modelos mediante cuatro elementos de diseño:
- Estructura de memoria: forma de almacenamiento de información (vector, matriz, MLP, etc.)
- Sesgo de atención: lo que determina qué información prioriza el modelo.
- Puerta de retención (retention gate): un método de regularización que controla el olvido.
- Algoritmo de memoria: método de optimización para actualizar la memoria.
Va más allá de la limitación de modelos tradicionales que dependen de error cuadrático medio (MSE) o similitud por producto interno, explorando funciones objetivo y regularizaciones no euclidianas (non-Euclidean).

Modelos basados en MIRAS

YAAD: usa Huber loss para una estructura menos sensible a errores o atípicos de entrada.
MONETA: aplica normas generalizadas (generalized norms) para mantener una memoria a largo plazo estable.
MEMORA: restringe la memoria como un mapa probabilístico para asegurar una integración de información balanceada.
Los tres modelos logran un rendimiento sólido de memoria a largo plazo incluso sin atención.

Resultados y rendimiento de los experimentos

Los modelos derivados de Titans y MIRAS se evaluaron frente a arquitecturas recientes como Transformer++, Mamba-2 y Gated DeltaNet.
- En modelado de lenguaje (C4, WikiText) y razonamiento zero-shot (HellaSwag, PIQA), alcanzaron mayor precisión y menor perplexity.
- También demostraron rendimiento de generalización en modelado de ADN y predicción de series temporales.
La profundidad de memoria (Depth) influye de forma decisiva en el rendimiento.
- Con igual tamaño de memoria, las estructuras más profundas consiguen menor perplexity y mejor escalabilidad.
En términos de eficiencia, Titans mantiene el entrenamiento paralelo y la inferencia lineal, permitiendo un procesamiento más rápido que modelos anteriores.
En el benchmark BABILong, mostró un rendimiento superior en razonamiento de contexto largo que GPT-4 con menos parámetros.
- Procesa eficazmente ventanas de contexto de más de 2 millones de tokens.

Conclusión

Titans y MIRAS superan las limitaciones de los estados recurrentes de tamaño fijo y proponen una nueva estructura de memoria que aprende en tiempo real durante la ingesta de datos.
MIRAS ofrece un marco teórico poderoso que integra optimización en línea, memoria asociativa y diseño arquitectónico.
Al abrir un espacio de diseño no euclidiano, sientan las bases para una era de modelos de IA de contexto largo que combinen la eficiencia de las RNN y la capacidad de expresión de los Transformers

1 comentarios

GN⁺ 2025-12-08

Comentarios en Hacker News

Presentan el paper Titans: Learning to Memorize at Test Time
El original está en este enlace de arXiv
- Se pregunta si habrá otra empresa que publique investigación de IA con este nivel de apertura por parte de Google
  Los papers relacionados pueden verse en el primer y segundo enlace. Cree que Google merece mucha confianza por este nivel de transparencia
  - Empresas chinas como DeepSeek también publican investigación activamente y de hecho la validan mediante modelos abiertos
    Los papers de los grandes laboratorios de EE. UU. muchas veces están alejados del rendimiento práctico. Como ejemplo de DeepSeek, menciona este paper y este otro
  - Está bien publicar papers, pero incluso después de 11 meses todavía no se pueden descargar el código del modelo ni los pesos de la arquitectura Titans
    Meta con Llama, Qwen y DeepSeek están mucho más adelantados. Lo único disponible ahora es una implementación no oficial
  - Bytedance también está publicando papers de forma muy activa
    Lo que más le impresionó recientemente fue el proyecto lumine, y comparte el enlace al paper y la página oficial de investigación
  - Meta también está compartiendo públicamente su investigación, y recientemente las empresas chinas muestran una tendencia similar
  - El 80% del ecosistema ya está construido sobre investigación publicada por varias empresas y personas
    No cree que Google tenga por qué recibir un reconocimiento especialmente mayor
Lanza la broma de “por fin creamos el ‘Torment Nexus’”
Menciona que en el universo de Eclipse Phase, TITAN era la red de IA que destruyó a la humanidad
La clave de la arquitectura Titans es que determina la sorpresa y la importancia mediante señales internas de error (gradient), y con base en eso actualiza la memoria de largo plazo
Se pregunta si con una estructura así no sería posible perturbar el modelo con entradas de ruido aleatorio
- Es una interpretación simplificada de cómo funciona Titans
  El modelo aprende incluso durante la inferencia, y en la etapa de entrenamiento aprende ‘qué aprender’
  A las entradas sin sentido se les asigna un embedding de baja sorpresa, por lo que casi no se reflejan en el aprendizaje
- En realidad, cualquier IA puede romperse con entradas aleatorias
- Probablemente los investigadores ya habían identificado ese problema desde el principio, y parece que el malentendido surge solo de la explicación superficial
- Al igual que el sistema emocional (sistema límbico) de los humanos, cree que la IA también necesita un mecanismo de memoria basado en emociones
  Los humanos recuerdan según la intensidad emocional más que por la novedad. La IA también debería tener un estado interno de ‘qué quiere’
- Así como un humano puede repetir información errónea si queda atrapado en un entorno de lavado de cerebro, en la IA podría ocurrir algo parecido si el flujo de entrada está restringido
  Pero en un entorno donde se mantiene el contexto, como el desarrollo de una base de código, podría recordar decisiones de diseño y discusiones previas para tomar mejores decisiones
Cuando leyó por primera vez el paper de Titans, sintió que “esto va a ser un gran avance”
No trabaja en la industria de la IA, pero lleva mucho tiempo pensando en una IA con pensamiento humanoide
Los LLM estaban muy lejos de ese estándar, pero Titans parece un paso en esa dirección
Le gustaría ordenar estas ideas en un blog, pero como no es una figura conocida, no está seguro de que reciba atención
Aun así, cree que cuando salga una implementación real de Titans, todos se van a sorprender
- Si publica de forma constante en su blog, eventualmente puede convertirse en una figura conocida
- Hoy en día muchos textos sobre IA tienden a obsesionarse solo con los detalles técnicos
  Un texto que señale el panorama general podría dar insights útiles
- Le proponen compartir el texto en HN para recibir feedback
Ya había escrito antes una entrada de blog sobre Titans
- Pero todavía no existe ningún modelo preentrenado
  Fuera de las afirmaciones de Google, no hay una implementación verificada y casi no hay investigaciones de seguimiento
Se pregunta si la estructura de Titans sería más o menos vulnerable al prompt injection
El aprendizaje en tiempo real podría reforzar la defensa, pero por el contrario también podría hacer que entradas maliciosas queden grabadas con más profundidad
Al leer una explicación del mecanismo de attention de los Transformer, se preguntó cómo IDEs como Cursor gestionan la memoria
Parece que cada vez entienden mejor la base de código y el contexto
- Pero este paper no tiene relación con esa gestión de memoria en IDEs
  Simplemente explica cómo funciona la ventana de contexto del Transformer
Pregunta si se puede imaginar Titans como una estructura que sigue adaptándose de forma continua, parecida a LoRA
Si fuera así, ¿habría una etapa para volver a fusionar LoRA con el modelo principal? Dice que eso sería como un proceso de sueño
- LoRA normalmente es un adaptador de baja dimensión añadido desde fuera, así que es distinto de Titans
  Titans no tiene una estructura de baja dimensión de ese tipo
- En teoría podría usarse LoRA, pero por límites de capacidad sería difícil que reemplazara todo por completo
  En su lugar, la idea es entrenar todo el MLP mientras se procesan bloques de entrada
Se pregunta si un aprendizaje basado en sorpresa tendría el efecto de alinear el modelo con mayor precisión (alignment) a los prompts del usuario

La arquitectura Google Titans y el marco MIRAS para potenciar la memoria a largo plazo de la IA

Resumen de Titans y MIRAS

Titans: aprendizaje de contexto en tiempo real

MIRAS: una visión integrada de los modelos de secuencia

Modelos basados en MIRAS

Resultados y rendimiento de los experimentos

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News