2 puntos por GN⁺ 2025-05-13 | 1 comentarios | Compartir por WhatsApp
  • Los investigadores señalan que el uso del tiempo y la sincronización por parte de las neuronas del cerebro en el cómputo es un elemento clave que la IA moderna ha pasado por alto
  • Introducen la arquitectura Continuous Thought Machine (CTM) para incorporar en un modelo real las dinámicas neuronales basadas en el tiempo del cerebro animal
  • CTM procesa información usando una dimensión interna de pensamiento asincrónico, modelos a nivel de neurona individual y representaciones de sincronización entre neuronas
  • En diversos experimentos se confirmó cómputo adaptativo, memoria basada en sincronización neuronal y una fuerte capacidad de generalización
  • Se demuestra la facilidad de interpretación, plausibilidad biológica y adecuación a distintas tareas de la arquitectura CTM

tl;dr

  • Las propiedades de tiempo y sincronización que usan las neuronas del cerebro para computar son clave para la flexibilidad y adaptabilidad de la inteligencia biológica
  • La IA moderna está descartando estas propiedades basadas en el tiempo en favor de la eficiencia y la simplicidad
  • El equipo de investigación encontró una forma de cerrar la brecha entre la plausibilidad biológica, donde el timing de las neuronas es importante, y una implementación eficiente en la IA moderna
  • El resultado muestra algo muy inesperado y prometedor

Introduction

  • Las Neural Network (NN) se inspiraron originalmente en el cerebro biológico, pero las NN actuales tienen estructuras y dinámicas muy distintas del cerebro real
  • Las NN modernas hicieron posible el deep learning a gran escala al omitir las dinámicas temporales, pero eso implica alejarse de la base biológica
  • El cerebro aprovecha dinámicas neuronales complejas como la plasticidad dependiente del tiempo de disparo (STDP) y la sincronización entre neuronas
  • Estos principios de procesamiento temporal faltan en la IA moderna, lo que actúa como un obstáculo para avanzar hacia una inteligencia flexible al nivel humano
  • Por lo tanto, la capacidad de procesar el tiempo debe ser un elemento central de la inteligencia artificial

Why do this research?

  • A pesar del alto rendimiento de la IA moderna, existe una diferencia esencial frente a la cognición humana flexible y la generalidad
  • Para que la inteligencia artificial logre capacidades superiores a las del cerebro humano, debe imitar activamente la actividad neuronal y el timing
  • En este estudio, se introduce el timing neuronal como elemento central a través de Continuous Thought Machine (CTM)
  • Las contribuciones principales son la separación de una dimensión interna de pensamiento, modelos neuronales a nivel de neurona individual y una estructura de representación basada en sincronización

Reasoning models and recurrence

  • La IA está evolucionando cada vez más desde un simple mapeo de entrada-salida hacia modelos de razonamiento activos
  • Las arquitecturas recurrentes de tipo RNN fueron reemplazadas recientemente por Transformers, pero la recurrencia en sí sigue siendo útil para escalar la complejidad del modelo
  • Los modelos modernos de generación de texto, entre otros, usan generación intermedia (recurrence) en tiempo de prueba, lo que aporta cómputo adicional y flexibilidad
  • CTM, a diferencia de los enfoques previos, usa una dimensión interna de pensamiento progresivo y separada, timing a nivel de neurona individual y la propia sincronización como representación para resolver tareas

Method

Descripción general de la arquitectura

  • CTM es una arquitectura en la que la actividad neuronal se despliega internamente sobre los datos
  • En cada etapa recolecta el historial de pre-activation y lo entrega al Neuron Level Model (NLM)
  • Con base en los historiales de post-activation de múltiples neuronas, calcula una matriz de sincronización neuronal para generar una potente representación de sincronización
  • La representación de sincronización se usa como vector latente central para la observación y la predicción del modelo

Estructura detallada

1. Internal recurrence (recurrencia interna)

  • Usa una dimensión de recurrencia interna para disponer un eje separado donde se desarrolla el progreso del pensamiento
  • Cada tick interno opera como una unidad de pensamiento propia, independientemente de los datos de series temporales externas

2. Neuron-level models (modelos a nivel de neurona)

  • Cada neurona tiene una estructura MLP personalizada y recibe un historial corto de pre-activation para producir post-activation

3. Synchronization as representation (sincronización como representación)

  • A partir de todos los post-activation dentro de un periodo, se calcula una matriz de sincronización neuronal, que se usa como representación latente central/vector de acción

Relación con los datos de entrada

  • Los datos complementan un método de procesamiento centrado en la recurrencia interna y la sincronización
  • La observación y predicción de los datos de entrada se realizan según el estado de sincronización

Internal ticks: dimensión de pensamiento

  • CTM tiene su propia línea temporal de pensamiento y actualiza y refina información repetidamente de forma interna, sin depender del orden de los datos
  • En esta dimensión ocurre el despliegue de la actividad inteligente

Recurrent weights: Synapses

  • Mediante una MLP estilo U-NET se calcula pre-activation y se conservan los M valores más recientes
  • Cada neurona recibe el vector histórico (serie temporal de pre-activation) con una MLP individual y produce post-activation

Synchronization as a representation

  • La matriz de sincronización entre neuronas es la forma en que el modelo interactúa con el exterior
  • Los valores de sincronización se usan directamente como indicadores de comportamiento real (salida, observación, attention query, etc.)
  • A medida que crece el ancho del modelo D, la capacidad de representación y la cantidad de información aumentan cuadráticamente
  • En combinación con módulos de datos de entrada como attention, muestra una capacidad de procesamiento de información aún más fuerte

Loss function

  • En cada tick interno se genera una salida y se calcula la loss y la confianza (1-entropía normalizada) correspondiente
  • La loss total agrega dinámicamente el punto de mínima pérdida y el punto de máxima confianza, induciendo aprendizaje adaptativo según la dificultad del problema

Experiment: ImageNet

Demonstrations

  • CTM hace predicciones sobre datos de imagen usando múltiples attention heads y sincronización neuronal
  • Se visualizan diversas métricas según exactitud, calibration y umbrales de confianza

Results

  • CTM ajusta sus etapas de pensamiento mediante adaptive compute, y se observa que después de cierto punto el beneficio adicional es limitado
  • Se visualizan conjuntamente 16 attention heads, las predicciones/clasificación por etapa, la exactitud y la actividad neuronal

Discussion

  • CTM enfatiza una interacción intuitiva y flexible con los datos
  • A través de una representación basada en sincronización neuronal, se diferencia con claridad de los enfoques previos incluso en visión
  • Sugiere que el elemento tiempo (TIME) está conectado de manera fundamental con la forma en que las personas procesan información

Experiment: Solving 2D Mazes

The why and the how

  • Resolver laberintos 2D es una tarea muy difícil para modelos neuronales si no cuentan con herramientas
  • CTM se entrena con un enfoque de predicción directa de ruta (L/R/U/D/W), y sus patrones de attention coinciden intencionalmente con la ruta real
  • En pruebas de generalización, también resuelve laberintos complejos y largos con alta exactitud/generalización

Results & Discussion

  • CTM muestra un rendimiento abrumador frente a los baselines previos incluso en las rutas más largas
  • Forma un world model interno estratégico similar al humano, mostrando capacidad real de reasoning y no simple memorización

A World Model

  • Incluso sin position encoding, resuelve el problema creando un modelo interno del entorno solo con información visual

Experiment: Parity

  • Se entrena para predecir la paridad anidada de secuencias binarias (suma par/impar) bajo la condición de recibir toda la entrada
  • Con más de 75 ticks de pensamiento interno, CTM puede alcanzar 100% de exactitud
  • LSTM se vuelve inestable durante el entrenamiento cuando aumentan los ticks de pensamiento interno

Learning sequential algorithms

  • A partir del movimiento de los attention heads y los patrones de activación neuronal, CTM aprende por su cuenta estrategias de recorrido inverso/directo sobre los datos
  • Esto es evidencia de capacidad de planificación estratégica (Planning) y ejecución por etapas

Experiment: Q&A MNIST

Memory via Synchronization

  • Se prueba la capacidad de memoria y recuperación de largo plazo de CTM con la tarea MNIST Q&A
  • Incluso cuando la imagen de entrada queda fuera de la ventana histórica de activación neuronal, la sincronización conserva y recupera información de memoria a largo plazo

Results & Generalization

  • El rendimiento mejora a medida que aumenta el número de ticks de pensamiento interno, y la capacidad de generalización frente a preguntas y longitudes complejas es sobresaliente
  • LSTM es inestable con más ticks, mientras que CTM aprende e infiere de forma consistente

Additional experiments

CTM versus humans

  • Comparación de rendimiento entre humanos, feedforward, LSTM y CTM en CIFAR-10
  • En calibration (coincidencia de la predicción probabilística), CTM supera a los humanos
  • Las dinámicas de sincronización neuronal muestran características internas muy diversas y complejas, a diferencia de los enfoques anteriores

CIFAR-100, ablation studies

  • Se observa que cuanto mayor es el ancho del modelo, más aumentan la diversidad y las dinámicas neuronales
  • Según el número de ticks internos, aparecen procesos internos de pensamiento distintos según la tarea (distribución de “dos picos”)

Sorting real numbers

  • En un experimento de ordenamiento de 30 números reales, CTM muestra un comportamiento emergente en el que el tiempo de cómputo interno (ticks de espera) varía según la distancia o separación entre valores

Reinforcement Learning

  • En entornos de RL como MiniGrid y CartPole, CTM usa unidades internas de pensamiento continuo para interactuar con el entorno y tomar decisiones de política
  • Muestra un rendimiento final similar al de LSTM y demuestra el efecto de registrar pensamiento continuo

Conclusion

  • CTM logra de una nueva forma la fusión entre plausibilidad biológica y eficiencia en IA
  • Mediante la introducción de modelos a nivel de neurona y una nueva forma de representación basada en sincronización neuronal, materializa capacidades de representación nunca antes vistas
  • Muestra consistencia arquitectónica y alta adaptabilidad en diversas tareas como clasificación de imágenes, resolución de laberintos, memoria, ordenamiento y RL
  • Demuestra la sinergia entre neurociencia y machine learning, así como la importancia de diseñar máquinas de pensamiento centradas en tiempo y sincronización

1 comentarios

 
GN⁺ 2025-05-13
Opinión de Hacker News
  • Lo preocupante de este artículo es que, aunque ya existe muchísimo trabajo previo en aprendizaje automático sobre redes neuronales de picos biológicamente plausibles y redes neuronales artificiales dependientes del tiempo, la terminología y el enfoque del artículo dan la impresión de no reconocer adecuadamente esa enorme base de investigación previa; en particular, llamar “pensamiento” (thinking) a la etapa de integración sináptica podría confundir a la gente. El pensamiento, en el sentido común, es un proceso iterativo de generar, evaluar y revisar ideas, pero aquí se le está poniendo esa etiqueta a algo del nivel de proceso de una sola unidad. Eso también queda muy alejado de la terminología existente en ANN o machine learning. Esa elección de “pensamiento” no parece apropiada. No revisé todas las referencias; fue una reacción inmediata a frases de una línea de investigación que me resulta familiar.

    • Pido disculpas, porque en realidad iba a responder a este comentario, pero dejé una respuesta aparte en el hilo del comentario padre. El intento del artículo por imitar redes de picos biológicas parece bastante laxo y, en realidad, la contribución principal parece ser el uso del producto punto con la transpuesta de la matriz de salida; el resto son técnicas de difusión/atención sobre la entrada. La forma resultante combina atención de entrada y atención de salida para crear un modelo recursivo en cascada.
    • Durante los últimos 10–20 años, da la impresión de que los investigadores de aprendizaje automático que han reconocido trabajo relacionado con la neurociencia han recibido muchas críticas por aparentar pose, así que no me sorprende demasiado.
    • Este artículo se presenta como si fuera una idea nueva, pero casi no menciona décadas de investigación sobre redes neuronales de picos ni áreas afines.
    • Agradecería que compartieran una lista de libros o artículos, o una breve reseña, que consideren especialmente reveladora sobre conceptos e implementaciones de algoritmos inspirados en la biología.
    • Los autores aclaran que no llaman “pensamiento” a una única integración sináptica, sino que usan ese término para el bucle interno de toda la red, como un “tick interno” por cada entrada externa, y escriben explícitamente que es análogo al “pensamiento”.
    • Me pregunto si este artículo lo escribió Jürgen Schmidhuber.
  • Me da mucho gusto que se vuelva a poner atención en este tema importante. En el contexto del cerebro biológico y el cuerpo, es fácil pensar el “tiempo” como un tiempo lineal newtoniano, pero en un sistema cerebro-cuerpo lo central es crear un orden de conducta y de cómputo dentro de muchos fragmentos distintos de “presente”, desde el “presente representacional” de 300 ms hasta cosas como los 50 microsegundos de las células que evalúan la localización del sonido. Si quieren saber más sobre la temporalidad condicional (temporality), conviene revisar un artículo reciente en el European Journal of Neuroscience donde John Bickle entrevista a RW Williams.

  • Mi impresión tras leer el artículo es que en realidad no se parece en nada a redes biológicas o de picos. El artículo conserva un historial de las entradas y usa atención multi-head para construir un modelo interno de cómo las entradas “presinápticas” pasadas se reflejan en la salida actual. Esto se parece a una versión ligeramente modificada de un transformer que conserva el historial de entradas y produce la salida con atención. La “sincronización” también se obtiene tomando el producto interno de toda la postactivación, y luego esa matriz resultado se proyecta al espacio de salida. Como tienen que multiplicarse varias salidas para producir el valor correcto en cada paso temporal, supongo que a esa combinación le llaman “sincronización”. Parece una especie de incentivo a la “dispersión” (sparsity), al combinar múltiples valores de salida en una matriz y resaltar la importancia de su combinación por encima de la individualidad de cada valor. Ese enfoque es el mecanismo básico de la atención, donde se combinan mediante producto interno salidas de varios subsistemas.

    • La debilidad del artículo es que la comparación de rendimiento se limita a LSTM (un modelo recurrente simple). Parece posible obtener una estructura y un desempeño similares con solo varias capas de atención de entrada/salida. Los transformers reales son algo distintos, pero no hay una diferencia tan grande respecto a la estructura de input attention + unet que usa el artículo.
  • Este fin de semana hay tres cosas interesantes: 1) máquinas de pensamiento continuo (redes neuronales con codificación temporal parecidas a cerebros biológicos), 2) “zero data reasoning” (IA que aprende actuando directamente en lugar de preentrenarse con cantidades masivas de datos), 3) Intellect-2 (una arquitectura de aprendizaje por refuerzo distribuida globalmente). Desde la perspectiva de alguien no especialista, da la impresión de estar un paso más cerca de la singularidad (singularity).

    • A mí no me da esa impresión. Hay demasiados artículos y direcciones de investigación distintas como para predecir cuál será un gran éxito como diffusion, transformer, AlphaZero o Chat GPT-3. Aunque parezcan avances radicales, este tipo de progreso surge de la acumulación de muchísima investigación y prueba y error. Ojalá esos tres avances pudieran combinarse bien, pero no lo sé.
    • Creo que conviene no atribuirle demasiado significado a un artículo individual. En el mejor de los casos, eso lleva a ignorar una gran cantidad de investigación de base; en el peor, a depositar expectativas excesivas en una sola idea por puro optimismo.
    • Intellect-2 y zero data reasoning son ambas arquitecturas que operan sobre LLM (el nombre “zero data reasoning” incluso puede llevar a confusión). Si quieres una innovación real en LLM, conviene ver cómo InceptionLabs aumentó 16 veces la inferencia con modelos de diffusion. El rendimiento de nuestros algoritmos de aprendizaje por refuerzo temporal todavía está muy por debajo del de los modelos de inferencia y, pese al boom de la IA, la robótica y la conducción autónoma siguen estancadas. La técnica de este artículo también tiene potencial, pero sería mejor si alguien depurara un poco más la terminología para que fuera más fácil de asimilar. Por ahora, sigo pensando que aún estamos lejos de lograr una IA útil en muchos ámbitos, porque mientras más grandes son los modelos, mejor encuentran huecos en la función de recompensa.
    • Cuando uno realmente ejecuta las implementaciones de los artículos, muchas veces los resultados no salen tan bien como se anunciaban, o directamente falta código. Para no dejarse arrastrar por el hype de la IA, hace falta el hábito de leer los resultados concretos y las limitaciones del artículo, descargar y ejecutar el código si existe, y probar también con entradas fuera del conjunto de entrenamiento.
    • Yo tampoco soy experto, pero esto me parece parecido a pensar que, porque ya inventaste una cámara, actuadores y una batería, entonces los robots pronto dominarán el mundo. Es decir, esto se siente más como un pasito que como un salto.
    • Las críticas no quedan descartadas. Se puede objetar, con razón, que estos artículos y proyectos particularmente conocidos no representan un avance revolucionario tipo take-off o AGI. Pero también es posible que funcionen como representantes de una dirección de investigación mucho más grande. O sea, se siente como si un “conejito bebé” estuviera dando pequeños saltos consistentes en una misma dirección. En qué momento llamarlo salto depende de quien lo mire, pero el conejo de todos modos se está moviendo hacia adelante.
  • Implementar mecanismos de codificación temporal como el timing de los picos y la sincronización es extremadamente difícil, por eso las redes neuronales modernas priorizan la simplicidad y la eficiencia computacional por encima de la dinámica temporal. Simular un verdadero dominio temporal ya es un problema muy difícil desde el punto de vista del hardware, especialmente porque añade otro eje de hiperparámetros, así que encontrar combinaciones válidas de parámetros se vuelve casi imposible. Es mucho más rápido encontrar arquitecturas con buena eficiencia computacional; además, si hay picos en pasos temporales futuros, aparecen estructuras de eventos tipo cola de prioridad y el costo computacional se dispara. Salvo que el objetivo realmente sea una “interacción hard real-time”, no creo que perseguir este tipo de estructuras tenga demasiado sentido desde una perspectiva práctica o de producto. El hecho de que STDP (cambio de pesos según la diferencia temporal entre picos) permita aprendizaje no supervisado en línea sigue siendo muy atractivo, pero por ahora no parece haber camino en silicio. Usar hardware dedicado termina siendo como fijar algunas partes de los hiperparámetros como constantes en el código, así que tampoco garantiza certeza y además deja menos margen de financiamiento.

    • Por ejemplo, si una arquitectura FF (feedforward) de tamaño medio tarda 100 ms en procesar un lote de entrada, ¿qué pasa si en una estructura CTM usas 10 ms en el eje FF y lo multiplicas por 10 “ticks” internos? Los números son aproximados, pero al final la cuestión es si ese sesgo inductivo hacia un eje temporal explícito realmente aporta algo. Incluso podría tener la misma dificultad de búsqueda.
  • La idea misma de estas máquinas no es completamente nueva. En un artículo de 2002 se presentaron las Liquid State Machines (LSM), que alimentan entradas continuas a una red neuronal de picos y leen el liquid state con una capa densa conectada a todas las neuronas de la red. En un artículo de 2019 se usó LSM para jugar Atari y, aunque a veces superaba a humanos, no siempre era así, y también se encontraron patrones de fallo similares a las limitaciones de las redes neuronales existentes. El rendimiento no era especialmente superior al de las redes neuronales tradicionales. Me gustaría que hubiera más interés en investigar redes neuronales que procesen entradas continuas (por ejemplo, audio), produzcan salidas continuas y apliquen solo principios de plasticidad del cerebro, sin backpropagation. Yo también lo he intentado por mi cuenta, pero quizá todavía no entendemos lo suficiente cómo funciona el cerebro, porque aún no sé cuál sería la respuesta correcta.

  • Irónicamente, esta página web se sigue recargando en firefox iOS.

    • En mi navegador ni siquiera abre.
  • La clave de la próxima generación de modelos será el principio de “neurons that fire together wire together”. Creo que las redes neuronales de picos ofrecen mucho interés como enfoque alternativo.