Máquina de pensamiento continuo

(pub.sakana.ai)

2 puntos por GN⁺ 2025-05-13 | Aún no hay comentarios. | Compartir por WhatsApp

Continuous Thought Machine (CTM) es una nueva arquitectura que incorpora explícitamente dinámica neuronal temporal en el cómputo de redes neuronales, con el objetivo de implementar dentro del modelo el “despliegue del pensamiento”, algo difícil de manejar solo con procesamiento feed-forward estático.
En el centro de la estructura están los internal ticks separados del orden de los datos, los neuron-level models donde un MLP por neurona procesa el historial reciente de pre-activación, y una forma de usar la sincronización temporal entre pares de neuronas como representación.
En experimentos con ImageNet, laberintos 2D, parity, Q&A MNIST, CIFAR-10/100, ordenamiento de números reales y aprendizaje por refuerzo, mostró aplicabilidad manteniendo la estructura central y cambiando solo los módulos de entrada y salida.
En los experimentos de laberintos, predijo directamente rutas L/R/U/D/W sin embeddings de posición, y mostró casos donde un modelo entrenado con laberintos de 39×39 y trayectorias de hasta longitud 100 generalizó a laberintos de 99×99 y rutas unas 6 veces más largas.
CTM mostró comportamientos como evocación de memoria, cómputo adaptativo, cambios de atención interpretables y formación de un modelo interno del mundo mediante representaciones de sincronización, pero no es un modelo que imite neuronas reales de forma literal.

El problema al que apunta CTM

Las redes neuronales existentes han simplificado intencionalmente la dinámica neuronal temporal observada en cerebros biológicos, procesando sobre todo con valores de activación estáticos, algo adecuado para deep learning a gran escala.
En el cerebro existen spike-timing-dependent plasticity (STDP), oscilaciones neuronales y codificación temporal basada en spike timing y synchrony, pero las redes modernas priorizan principalmente la simplicidad y la eficiencia computacional.
La IA actual sigue mostrando carencias frente a la flexibilidad y generalidad de la cognición humana, y una parte de eso podría estar relacionada con el procesamiento temporal.
La contribución de CTM se resume en tres elementos:
- Dimensión interna separada: un eje temporal donde el pensamiento puede desplegarse en un sistema neuronal artificial.
- neuron-level models (NLMs): cada neurona se activa procesando el historial de señales de entrada, en lugar de usar una función estática como ReLU fija.
- neural synchronization: una representación latente usada directamente para observación y predicción.

Modelos de razonamiento y recurrence

Escalar modelos existentes ha producido avances importantes, pero sus costos de cómputo y demandas de datos dejan dudas sobre su sostenibilidad a largo plazo.
En datos secuenciales, la familia RNN se usó durante mucho tiempo, pero en gran medida fue reemplazada por enfoques basados en Transformer; recientemente, recurrence volvió a llamar la atención como vía para escalar la complejidad del modelo.
Los reasoning models de generación de texto usan una forma de recurrence que incrementa el cómputo en tiempo de prueba mediante generaciones intermedias.
CTM considera que, más que la recurrence en sí, lo central es la interacción entre timing preciso y actividad neuronal que esta habilita.
Hay tres diferencias frente a enfoques previos:
- Hace posible un pensamiento secuencial en una dimensión interna separada de la modalidad de los datos.
- Un private model por neurona maneja timing neuronal preciso.
- Usa directamente neural synchronization como representación para resolver tareas.

Los tres mecanismos clave de CTM

CTM es una estructura que, mientras procesa datos, despliega internamente la actividad neuronal a lo largo de múltiples ticks.
En un internal tick se recopila el historial reciente de pre-activation, y los NLMs lo procesan para producir post-activation.
El historial temporal de post-activation se usa para calcular la sincronización entre neuronas, y ese resultado se convierte en la Synchronization Representation.
Los detalles técnicos están en el Technical Report, y también está disponible el GitHub repository.
Internal ticks: la dimensión interna donde se despliega el pensamiento
- CTM introduce una dimensión interna continua de la forma t ∈ {1, …, T}.
- En lugar de procesar siguiendo el orden de los propios datos, como hacen RNN o Transformer con palabras, frames, etc., opera siguiendo internal ticks generados por sí mismo.
- Gracias a este despliegue interno, puede construir y refinar representaciones de forma iterativa incluso con datos estáticos o no secuenciales, como imágenes o laberintos.
- La demo interactiva del laberinto en la parte superior de la página usa 75 ticks.
Recurrent weights y neuron-level models
- El synapse model de CTM es un recurrent MLP con forma de U-NET, que genera pre-activation en cada tick.
- Las M pre-activation más recientes se agrupan como historial de entrada de cada neurona.
- Cada neurona d procesa su propio historial de pre-activation con un private MLP con parámetros únicos θd, y genera post-activation.
- La post-activation de todas las neuronas se combina con la attention output y entra en el cálculo recurrente del siguiente tick.
Synchronization representation
- CTM está diseñado para consumir entradas y producir salidas no a partir de un snapshot del estado neuronal en un instante, sino según la dinámica de la actividad neuronal a lo largo del tiempo.
- Calcula una synchronization matrix entre neuronas con el producto interno del historial de post-activation Zt, St = Zt · (Zt)^T.
- Como esa matriz crece a O(D²), en uso práctico se hace submuestreo parcial de pares de neuronas (i, j) para construir las representaciones Sout y Saction.
- Sout se proyecta al espacio de salida para producir predicciones como logits, y Saction se usa para acciones de observación, como una attention query.
- A medida que crece el ancho del modelo D, las representaciones de sincronización posibles crecen a escala de D × (D+1) / 2.
Forma de entrada de datos
- Los datos se observan en cada internal tick mediante attention basada en la sincronización actual.
- En la mayoría de los experimentos se usó cross attention estándar.
- Un FeatureExtractor genera características locales para key y value a partir de los datos, y una query proyectada desde la sincronización las consulta.
- La attention output se usa junto con la post-activation en el siguiente ciclo de recurrence.

Pérdida de entrenamiento: optimizar todos los internal ticks

CTM genera una salida en cada internal tick.
Para la predicción de cada tick se calcula una pérdida estándar como cross-entropy, y la certeza se calcula como 1 - normalized entropy.
La pérdida final promedia dos ticks elegidos dinámicamente:
- el tick con menor pérdida t1 = argmin(L)
- el tick con mayor certeza t2 = argmax(C)
Este método no depende solo del último step, así que hace que ocurra cómputo significativo en múltiples internal ticks.
El diseño de la pérdida genera de forma natural un efecto de curriculum y permite ajustar la cantidad de cómputo según la dificultad del problema.

Experimento con ImageNet

El objetivo del experimento con ImageNet no es alcanzar un nuevo state of the art, sino mostrar cómo CTM interactúa con los datos.
CTM observa la imagen mientras acumula su predicción, y en ese proceso usa directamente neural synchronization como representación.
Puede cortar los internal steps a mitad del proceso, lo que habilita adaptive compute.
- Después de cierto punto, la mejora en precisión es pequeña, pero sigue habiendo ganancia adicional.
En la demo se muestran los attention weights de 16 attention heads, la predicción de clase y la certeza a lo largo del tiempo.
La actividad neuronal se visualiza en 2D mediante una proyección UMAP; cada neurona se muestra como un punto, donde el tamaño representa el valor absoluto y el color indica el signo y la magnitud del valor.

Experimento con laberintos 2D

Resolver laberintos se plantea como una tarea donde el modelo debe construir gradualmente una ruta desde el punto de inicio hasta el destino.
CTM se entrenó para predecir la ruta directamente como una secuencia de pasos L/R/U/D/W, no como imagen.
En la parte superior de la página hay una versión pequeña de la demo interactiva, y también se presenta una demo de un modelo más grande.
La demo muestra cómo se construye la ruta durante 75 internal ticks, y las predicciones que atraviesan paredes se excluyen de la visualización de ruta válida.
También se muestran los pesos de 16 attention heads y la attention promedio para ver dónde se concentra el modelo.
Generalización y modelo del mundo
- Un CTM entrenado para resolver rutas de hasta longitud 100 en laberintos de 39×39 se aplicó a laberintos más grandes de 99×99.
- La ruta completa del laberinto de ejemplo era aproximadamente 6 veces más larga que las condiciones de entrenamiento.
- CTM no usó embeddings de posición y tuvo que predecir directamente la ruta como cadena de clases.
- Como no había embeddings de posición, CTM tuvo que construir un internal world model para consultar los datos y explorar el laberinto.
- El equipo investigador dijo que quiere ver cómo CTM encuentra caminos en entornos más complejos, como juegos o videos, sin codificación posicional explícita.

Experimento de parity

La parity task se define como una tarea donde se debe predecir la parity acumulada de una secuencia binaria en cada una de 64 posiciones.
Todo el vector binario de longitud 64 se entrega de una sola vez, así que es una configuración más difícil que una entrada secuencial simple.
CTM se entrenó variando el número de internal ticks y se comparó con un LSTM de igual número de parámetros.
CTM con más de 75 internal ticks pudo resolver esta tarea de forma estable, y algunas ejecuciones llegaron a 100% de precisión.
LSTM mostró dificultades de entrenamiento por encima de 10 internal ticks, lo que sugiere que no es adecuado para desplegar una dimensión interna de pensamiento.
En la demo aparecen comportamientos interpretables, como attention heads que recorren los datos de atrás hacia adelante, y el primer attention head atendiendo solo a posiciones de parity negativa.
Dos ejemplos de CTM aprendieron estrategias diferentes:
- uno atiende los datos en orden inverso y luego predice la parity acumulada de una sola vez
- otro atiende en orden directo y predice la parity de forma gradual
- ambos alcanzan precisión perfecta

Experimento Q&A MNIST

Q&A MNIST es una tarea para evaluar la capacidad de memoria y evocación de CTM.
El modelo primero ve una secuencia de dígitos MNIST y luego recibe un índice y un operator embedding que indican qué dígito debe recordar y qué operación modular debe aplicar.
Después de presentar todos los dígitos y los index/operator embeddings, una zero-tensor flag indica que debe generarse la respuesta final.
En el experimento, la memory length de CTM se configuró para que los dígitos MNIST quedaran fuera de la ventana del historial de activación de los neuron-level models.
Por eso, si quería recordar más tarde un dígito, CTM tenía que organizar sus activaciones para conservar la información.
Resultados y generalización
- LSTM supera a CTM cuando hay un internal tick por input, pero se vuelve más inestable a medida que aumentan los internal ticks.
- CTM mejora su desempeño conforme aumentan los internal ticks, y alcanzó más de 95% de precisión en la tarea in-distribution más difícil.
- CTM pudo recordar valores de dígitos vistos muchos timesteps antes, lo que se interpreta como resultado de la organización y sincronización de neuronas.
- En los experimentos de generalización se midió la precisión cuando se ingresaban más dígitos o más index-operator embeddings que durante el entrenamiento.
- Tanto CTM como la línea base LSTM pudieron generalizar al aumento del número de operaciones.
- En los resultados empíricos, cada vez que se presentaba un nuevo index embedding, el modelo calculaba y almacenaba el resultado de la operación indicada, por lo que podía seguir procesando sin esperar la final answer flag.
- CTM mejoró cuanto más internal ticks tenía, mientras que LSTM mostró la tendencia opuesta.

Experimentos adicionales

CIFAR-10: comparación con humanos, feed-forward y LSTM
- El experimento con CIFAR-10 está diseñado para comparar CTM con human performance, una línea base feed-forward y una línea base LSTM.
- Para hacer visibles las diferencias, se usó un backbone limitado.
- Se usaron los datasets con etiquetas humanas CIFAR-10D y CIFAR-10H.
- CIFAR-10D está relacionado con el ajuste por nivel de dificultad.
- CIFAR-10H es un dataset usado para cuantificar la incertidumbre humana.
- CIFAR-10D está aquí y CIFAR-10H aquí.
- Para el cálculo de calibration se usaron las probabilidades de CIFAR-10H, y CTM mostró la mejor calibration incluso frente a humanos.
- La actividad neuronal de CTM fue rica, diversa y mostró dinámica compleja; apareció comportamiento periódico incluso sin periodic driving function.
- La diferencia entre la actividad neuronal de CTM y LSTM sirve como evidencia de que los neuron-level models y la synchronization representation permiten dinámica neuronal como mecanismo de cómputo.
Ablation en CIFAR-100
- En los experimentos con CIFAR-100 se varió el número de neuronas, es decir, el ancho del modelo, manteniendo fijas las demás condiciones y el tiempo de entrenamiento.
- Redes más anchas pueden requerir más tiempo de entrenamiento u otros hyper-parameters, por lo que apareció cierta caída de precisión.
- Para ver qué tan únicos se vuelven los neuron-level models, se midió la cosine similarity de la dinámica entre neuronas.
- Se observó que, a medida que crece el ancho del modelo, la diversidad entre neuronas no disminuye, sino que aumenta.
- También se analizó la relación entre el número de internal ticks y las predicciones.
- En configuraciones de 25, 50 y 100 internal ticks se revisó la distribución del step en que CTM se mostraba más seguro.
- En cada configuración aparecieron dos regiones de concentración, lo que se interpretó como señal de que CTM sigue procesos internos distintos según los datos.
Ordenamiento de números reales
- CTM se entrenó para ordenar 30 números reales extraídos de N(0, I30).
- El objetivo era ver, en un entorno controlado, cuándo CTM aplica más o menos cómputo, y comprobar si puede aprender salidas secuenciales con CTC loss.
- Este CTM pudo ordenar una lista de 30 números reales con una probabilidad de alrededor de 80%.
Aprendizaje por refuerzo
- CTM se aplicó no solo al procesamiento de datos no secuenciales mediante una continuous thought dimension, sino también a tareas que interactúan con un entorno externo.
- Con proximal policy optimization se entrenó en una navigation task y en variantes parcialmente observables de CartPole y Acrobot.
- En esta configuración, CTM recibe observaciones, las procesa con un número fijo de internal thought steps y luego emite la siguiente action.
- El activation history se mantiene de forma continua entre pasos del entorno, de modo que activaciones de environment steps previos pueden influir en la decisión actual.
- Como resultado, CTM mostró un desempeño comparable al baseline LSTM y demostró que puede aprender también en entornos continuos.

Conclusión y limitaciones

CTM reemplaza la pointwise activation function por private neuron-level models para crear dinámica neuronal más rica, y usa neural synchronization como nueva representación en lugar del activation vector.
Este enfoque permite construir representaciones a lo largo del tiempo en clasificación de imágenes, hacer attention en laberintos sin embeddings de posición y formar mapas internos, usar adaptive computation y almacenar y recuperar recuerdos más allá del activation history.
La arquitectura central de CTM se mantuvo en general en distintas tareas, y principalmente solo requirió ajustar módulos de entrada y salida.
En escenarios complejos como la exploración de laberintos, CTM funcionó con poco tuning, mientras que LSTM tuvo dificultades incluso tras bastante ajuste.
CTM no es un modelo que busque imitar de manera estricta y literal a las neuronas biológicas.
- Las neuronas reales quizá no accedan al activation history como lo hace CTM.
- Aun así, aparecieron fenómenos emergentes como traveling waves.
CTM toma conceptos de la biología y negocia entre utilidad práctica e inspiración biológica, y podría ser una línea de investigación que abra capacidades hoy ausentes en la IA.

Máquina de pensamiento continuo

El problema al que apunta CTM

Modelos de razonamiento y recurrence

Los tres mecanismos clave de CTM

Internal ticks: la dimensión interna donde se despliega el pensamiento

Recurrent weights y neuron-level models

Synchronization representation

Forma de entrada de datos

Pérdida de entrenamiento: optimizar todos los internal ticks

Experimento con ImageNet

Experimento con laberintos 2D

Generalización y modelo del mundo

Experimento de parity

Experimento Q&A MNIST

Resultados y generalización

Experimentos adicionales

CIFAR-10: comparación con humanos, feed-forward y LSTM

Ablation en CIFAR-100

Ordenamiento de números reales

Aprendizaje por refuerzo

Conclusión y limitaciones

Lecturas relacionadas

Aún no hay comentarios.