9 puntos por GN⁺ 2025-12-08 | 1 comentarios | Compartir por WhatsApp
  • La arquitectura Titans y el marco MIRAS están diseñados para que los modelos de IA actualicen su memoria esencial durante la ejecución y procesen rápidamente grandes contextos.
  • Titans combina la velocidad de las RNN con la precisión de los Transformers para almacenar de forma selectiva en la memoria a largo plazo la información con mayor ‘sorpresa’.
  • MIRAS es un plano teórico de interpretación integral de diversos modelos de secuencia, que sistematiza la estructura de memoria, el sesgo, el olvido y el proceso de optimización.
  • En los resultados experimentales, modelos derivados de Titans y MIRAS (YAAD, MONETA, MEMORA) superan a modelos modernos como Transformer++ y Mamba-2 en rendimiento de manejo de contextos largos y eficiencia.
  • Esta investigación demuestra la transición hacia una nueva generación de modelos de IA de contexto largo que combina la eficiencia de las RNN y la capacidad expresiva de los Transformers.

Resumen de Titans y MIRAS

  • La arquitectura Titans y el marco MIRAS están diseñados para que la IA actualice su memoria en tiempo real durante la ejecución y procese contextos a gran escala.
    • El mecanismo de atención de los Transformers convencionales incrementa fuertemente el costo computacional en función de la longitud de la secuencia.
    • Titans y MIRAS superan estas limitaciones, permitiendo comprensión de contexto largo y adaptación en tiempo real.
  • Titans ofrece una estructura de modelo concreta, y MIRAS cumple el rol de un plano teórico generalizador.
    • Los dos sistemas desarrollan el concepto de memorización en tiempo de prueba (test-time memorization), integrando nueva información durante la ejecución sin reentrenamiento.

Titans: aprendizaje de contexto en tiempo real

  • Titans separa la memoria a corto plazo (mecanismo de atención) y la memoria a largo plazo (módulos basados en redes neuronales) para imitar la estructura de memoria humana.
    • El módulo de memoria a largo plazo tiene forma de perceptrón multicapa (MLP) y permite un resumen de información más rico al usar una red neuronal profunda en lugar de vectores fijos.
  • El concepto central es la métrica de sorpresa (surprise metric).
    • Mientras más se desvíe una entrada de la memoria existente, mayor es su sorpresa y por eso se guarda en la memoria a largo plazo.
    • Ejemplo: la palabra esperada (‘cat’) tiene baja sorpresa; una entrada inesperada (‘banana peel’) se procesa con alta sorpresa.
  • Titans combina mecanismos de momentum y weight decay.
    • El momentum refleja la continuidad del contexto reciente y también guarda información relacionada.
    • El olvido elimina la información innecesaria para mantener de forma eficiente la capacidad de memoria.

MIRAS: una visión integrada de los modelos de secuencia

  • MIRAS interpreta todos los modelos de secuencia como sistemas de memoria asociativa (associative memory).
    • Define que distintos modelos resuelven esencialmente el mismo problema: combinar de forma eficiente nueva información con memoria existente.
  • MIRAS define los modelos mediante cuatro elementos de diseño:
    • Estructura de memoria: forma de almacenamiento de información (vector, matriz, MLP, etc.)
    • Sesgo de atención: lo que determina qué información prioriza el modelo.
    • Puerta de retención (retention gate): un método de regularización que controla el olvido.
    • Algoritmo de memoria: método de optimización para actualizar la memoria.
  • Va más allá de la limitación de modelos tradicionales que dependen de error cuadrático medio (MSE) o similitud por producto interno, explorando funciones objetivo y regularizaciones no euclidianas (non-Euclidean).

Modelos basados en MIRAS

  • YAAD: usa Huber loss para una estructura menos sensible a errores o atípicos de entrada.
  • MONETA: aplica normas generalizadas (generalized norms) para mantener una memoria a largo plazo estable.
  • MEMORA: restringe la memoria como un mapa probabilístico para asegurar una integración de información balanceada.
  • Los tres modelos logran un rendimiento sólido de memoria a largo plazo incluso sin atención.

Resultados y rendimiento de los experimentos

  • Los modelos derivados de Titans y MIRAS se evaluaron frente a arquitecturas recientes como Transformer++, Mamba-2 y Gated DeltaNet.
    • En modelado de lenguaje (C4, WikiText) y razonamiento zero-shot (HellaSwag, PIQA), alcanzaron mayor precisión y menor perplexity.
    • También demostraron rendimiento de generalización en modelado de ADN y predicción de series temporales.
  • La profundidad de memoria (Depth) influye de forma decisiva en el rendimiento.
    • Con igual tamaño de memoria, las estructuras más profundas consiguen menor perplexity y mejor escalabilidad.
  • En términos de eficiencia, Titans mantiene el entrenamiento paralelo y la inferencia lineal, permitiendo un procesamiento más rápido que modelos anteriores.
  • En el benchmark BABILong, mostró un rendimiento superior en razonamiento de contexto largo que GPT-4 con menos parámetros.
    • Procesa eficazmente ventanas de contexto de más de 2 millones de tokens.

Conclusión

  • Titans y MIRAS superan las limitaciones de los estados recurrentes de tamaño fijo y proponen una nueva estructura de memoria que aprende en tiempo real durante la ingesta de datos.
  • MIRAS ofrece un marco teórico poderoso que integra optimización en línea, memoria asociativa y diseño arquitectónico.
  • Al abrir un espacio de diseño no euclidiano, sientan las bases para una era de modelos de IA de contexto largo que combinen la eficiencia de las RNN y la capacidad de expresión de los Transformers

1 comentarios

 
GN⁺ 2025-12-08
Comentarios en Hacker News
  • Presentan el paper Titans: Learning to Memorize at Test Time
    El original está en este enlace de arXiv

    • Se pregunta si habrá otra empresa que publique investigación de IA con este nivel de apertura por parte de Google
      Los papers relacionados pueden verse en el primer y segundo enlace. Cree que Google merece mucha confianza por este nivel de transparencia
      • Empresas chinas como DeepSeek también publican investigación activamente y de hecho la validan mediante modelos abiertos
        Los papers de los grandes laboratorios de EE. UU. muchas veces están alejados del rendimiento práctico. Como ejemplo de DeepSeek, menciona este paper y este otro
      • Está bien publicar papers, pero incluso después de 11 meses todavía no se pueden descargar el código del modelo ni los pesos de la arquitectura Titans
        Meta con Llama, Qwen y DeepSeek están mucho más adelantados. Lo único disponible ahora es una implementación no oficial
      • Bytedance también está publicando papers de forma muy activa
        Lo que más le impresionó recientemente fue el proyecto lumine, y comparte el enlace al paper y la página oficial de investigación
      • Meta también está compartiendo públicamente su investigación, y recientemente las empresas chinas muestran una tendencia similar
      • El 80% del ecosistema ya está construido sobre investigación publicada por varias empresas y personas
        No cree que Google tenga por qué recibir un reconocimiento especialmente mayor
  • Lanza la broma de “por fin creamos el ‘Torment Nexus’”
    Menciona que en el universo de Eclipse Phase, TITAN era la red de IA que destruyó a la humanidad

  • La clave de la arquitectura Titans es que determina la sorpresa y la importancia mediante señales internas de error (gradient), y con base en eso actualiza la memoria de largo plazo
    Se pregunta si con una estructura así no sería posible perturbar el modelo con entradas de ruido aleatorio

    • Es una interpretación simplificada de cómo funciona Titans
      El modelo aprende incluso durante la inferencia, y en la etapa de entrenamiento aprende ‘qué aprender’
      A las entradas sin sentido se les asigna un embedding de baja sorpresa, por lo que casi no se reflejan en el aprendizaje
    • En realidad, cualquier IA puede romperse con entradas aleatorias
    • Probablemente los investigadores ya habían identificado ese problema desde el principio, y parece que el malentendido surge solo de la explicación superficial
    • Al igual que el sistema emocional (sistema límbico) de los humanos, cree que la IA también necesita un mecanismo de memoria basado en emociones
      Los humanos recuerdan según la intensidad emocional más que por la novedad. La IA también debería tener un estado interno de ‘qué quiere’
    • Así como un humano puede repetir información errónea si queda atrapado en un entorno de lavado de cerebro, en la IA podría ocurrir algo parecido si el flujo de entrada está restringido
      Pero en un entorno donde se mantiene el contexto, como el desarrollo de una base de código, podría recordar decisiones de diseño y discusiones previas para tomar mejores decisiones
  • Cuando leyó por primera vez el paper de Titans, sintió que “esto va a ser un gran avance”
    No trabaja en la industria de la IA, pero lleva mucho tiempo pensando en una IA con pensamiento humanoide
    Los LLM estaban muy lejos de ese estándar, pero Titans parece un paso en esa dirección
    Le gustaría ordenar estas ideas en un blog, pero como no es una figura conocida, no está seguro de que reciba atención
    Aun así, cree que cuando salga una implementación real de Titans, todos se van a sorprender

    • Si publica de forma constante en su blog, eventualmente puede convertirse en una figura conocida
    • Hoy en día muchos textos sobre IA tienden a obsesionarse solo con los detalles técnicos
      Un texto que señale el panorama general podría dar insights útiles
    • Le proponen compartir el texto en HN para recibir feedback
  • Ya había escrito antes una entrada de blog sobre Titans

    • Pero todavía no existe ningún modelo preentrenado
      Fuera de las afirmaciones de Google, no hay una implementación verificada y casi no hay investigaciones de seguimiento
  • Se pregunta si la estructura de Titans sería más o menos vulnerable al prompt injection
    El aprendizaje en tiempo real podría reforzar la defensa, pero por el contrario también podría hacer que entradas maliciosas queden grabadas con más profundidad

  • Al leer una explicación del mecanismo de attention de los Transformer, se preguntó cómo IDEs como Cursor gestionan la memoria
    Parece que cada vez entienden mejor la base de código y el contexto

    • Pero este paper no tiene relación con esa gestión de memoria en IDEs
      Simplemente explica cómo funciona la ventana de contexto del Transformer
  • Pregunta si se puede imaginar Titans como una estructura que sigue adaptándose de forma continua, parecida a LoRA
    Si fuera así, ¿habría una etapa para volver a fusionar LoRA con el modelo principal? Dice que eso sería como un proceso de sueño

    • LoRA normalmente es un adaptador de baja dimensión añadido desde fuera, así que es distinto de Titans
      Titans no tiene una estructura de baja dimensión de ese tipo
    • En teoría podría usarse LoRA, pero por límites de capacidad sería difícil que reemplazara todo por completo
      En su lugar, la idea es entrenar todo el MLP mientras se procesan bloques de entrada
  • Se pregunta si un aprendizaje basado en sorpresa tendría el efecto de alinear el modelo con mayor precisión (alignment) a los prompts del usuario