- Los investigadores señalan que el uso del tiempo y la sincronización por parte de las neuronas del cerebro en el cómputo es un elemento clave que la IA moderna ha pasado por alto
- Introducen la arquitectura Continuous Thought Machine (CTM) para incorporar en un modelo real las dinámicas neuronales basadas en el tiempo del cerebro animal
- CTM procesa información usando una dimensión interna de pensamiento asincrónico, modelos a nivel de neurona individual y representaciones de sincronización entre neuronas
- En diversos experimentos se confirmó cómputo adaptativo, memoria basada en sincronización neuronal y una fuerte capacidad de generalización
- Se demuestra la facilidad de interpretación, plausibilidad biológica y adecuación a distintas tareas de la arquitectura CTM
tl;dr
- Las propiedades de tiempo y sincronización que usan las neuronas del cerebro para computar son clave para la flexibilidad y adaptabilidad de la inteligencia biológica
- La IA moderna está descartando estas propiedades basadas en el tiempo en favor de la eficiencia y la simplicidad
- El equipo de investigación encontró una forma de cerrar la brecha entre la plausibilidad biológica, donde el timing de las neuronas es importante, y una implementación eficiente en la IA moderna
- El resultado muestra algo muy inesperado y prometedor
Introduction
- Las Neural Network (NN) se inspiraron originalmente en el cerebro biológico, pero las NN actuales tienen estructuras y dinámicas muy distintas del cerebro real
- Las NN modernas hicieron posible el deep learning a gran escala al omitir las dinámicas temporales, pero eso implica alejarse de la base biológica
- El cerebro aprovecha dinámicas neuronales complejas como la plasticidad dependiente del tiempo de disparo (STDP) y la sincronización entre neuronas
- Estos principios de procesamiento temporal faltan en la IA moderna, lo que actúa como un obstáculo para avanzar hacia una inteligencia flexible al nivel humano
- Por lo tanto, la capacidad de procesar el tiempo debe ser un elemento central de la inteligencia artificial
Why do this research?
- A pesar del alto rendimiento de la IA moderna, existe una diferencia esencial frente a la cognición humana flexible y la generalidad
- Para que la inteligencia artificial logre capacidades superiores a las del cerebro humano, debe imitar activamente la actividad neuronal y el timing
- En este estudio, se introduce el timing neuronal como elemento central a través de Continuous Thought Machine (CTM)
- Las contribuciones principales son la separación de una dimensión interna de pensamiento, modelos neuronales a nivel de neurona individual y una estructura de representación basada en sincronización
Reasoning models and recurrence
- La IA está evolucionando cada vez más desde un simple mapeo de entrada-salida hacia modelos de razonamiento activos
- Las arquitecturas recurrentes de tipo RNN fueron reemplazadas recientemente por Transformers, pero la recurrencia en sí sigue siendo útil para escalar la complejidad del modelo
- Los modelos modernos de generación de texto, entre otros, usan generación intermedia (recurrence) en tiempo de prueba, lo que aporta cómputo adicional y flexibilidad
- CTM, a diferencia de los enfoques previos, usa una dimensión interna de pensamiento progresivo y separada, timing a nivel de neurona individual y la propia sincronización como representación para resolver tareas
Method
Descripción general de la arquitectura
- CTM es una arquitectura en la que la actividad neuronal se despliega internamente sobre los datos
- En cada etapa recolecta el historial de
pre-activation y lo entrega al Neuron Level Model (NLM)
- Con base en los historiales de
post-activation de múltiples neuronas, calcula una matriz de sincronización neuronal para generar una potente representación de sincronización
- La representación de sincronización se usa como vector latente central para la observación y la predicción del modelo
Estructura detallada
1. Internal recurrence (recurrencia interna)
- Usa una dimensión de recurrencia interna para disponer un eje separado donde se desarrolla el progreso del pensamiento
- Cada tick interno opera como una unidad de pensamiento propia, independientemente de los datos de series temporales externas
2. Neuron-level models (modelos a nivel de neurona)
- Cada neurona tiene una estructura MLP personalizada y recibe un historial corto de
pre-activation para producir post-activation
3. Synchronization as representation (sincronización como representación)
- A partir de todos los
post-activation dentro de un periodo, se calcula una matriz de sincronización neuronal, que se usa como representación latente central/vector de acción
Relación con los datos de entrada
- Los datos complementan un método de procesamiento centrado en la recurrencia interna y la sincronización
- La observación y predicción de los datos de entrada se realizan según el estado de sincronización
Internal ticks: dimensión de pensamiento
- CTM tiene su propia línea temporal de pensamiento y actualiza y refina información repetidamente de forma interna, sin depender del orden de los datos
- En esta dimensión ocurre el despliegue de la actividad inteligente
Recurrent weights: Synapses
- Mediante una MLP estilo U-NET se calcula
pre-activation y se conservan los M valores más recientes
- Cada neurona recibe el vector histórico (serie temporal de
pre-activation) con una MLP individual y produce post-activation
Synchronization as a representation
- La matriz de sincronización entre neuronas es la forma en que el modelo interactúa con el exterior
- Los valores de sincronización se usan directamente como indicadores de comportamiento real (salida, observación,
attention query, etc.)
- A medida que crece el ancho del modelo D, la capacidad de representación y la cantidad de información aumentan cuadráticamente
- En combinación con módulos de datos de entrada como attention, muestra una capacidad de procesamiento de información aún más fuerte
Loss function
- En cada tick interno se genera una salida y se calcula la loss y la confianza (1-entropía normalizada) correspondiente
- La loss total agrega dinámicamente el punto de mínima pérdida y el punto de máxima confianza, induciendo aprendizaje adaptativo según la dificultad del problema
Experiment: ImageNet
Demonstrations
- CTM hace predicciones sobre datos de imagen usando múltiples attention heads y sincronización neuronal
- Se visualizan diversas métricas según exactitud, calibration y umbrales de confianza
Results
- CTM ajusta sus etapas de pensamiento mediante adaptive compute, y se observa que después de cierto punto el beneficio adicional es limitado
- Se visualizan conjuntamente 16 attention heads, las predicciones/clasificación por etapa, la exactitud y la actividad neuronal
Discussion
- CTM enfatiza una interacción intuitiva y flexible con los datos
- A través de una representación basada en sincronización neuronal, se diferencia con claridad de los enfoques previos incluso en visión
- Sugiere que el elemento tiempo (TIME) está conectado de manera fundamental con la forma en que las personas procesan información
Experiment: Solving 2D Mazes
The why and the how
- Resolver laberintos 2D es una tarea muy difícil para modelos neuronales si no cuentan con herramientas
- CTM se entrena con un enfoque de predicción directa de ruta (L/R/U/D/W), y sus patrones de attention coinciden intencionalmente con la ruta real
- En pruebas de generalización, también resuelve laberintos complejos y largos con alta exactitud/generalización
Results & Discussion
- CTM muestra un rendimiento abrumador frente a los baselines previos incluso en las rutas más largas
- Forma un world model interno estratégico similar al humano, mostrando capacidad real de reasoning y no simple memorización
A World Model
- Incluso sin position encoding, resuelve el problema creando un modelo interno del entorno solo con información visual
Experiment: Parity
- Se entrena para predecir la paridad anidada de secuencias binarias (suma par/impar) bajo la condición de recibir toda la entrada
- Con más de 75 ticks de pensamiento interno, CTM puede alcanzar 100% de exactitud
- LSTM se vuelve inestable durante el entrenamiento cuando aumentan los ticks de pensamiento interno
Learning sequential algorithms
- A partir del movimiento de los attention heads y los patrones de activación neuronal, CTM aprende por su cuenta estrategias de recorrido inverso/directo sobre los datos
- Esto es evidencia de capacidad de planificación estratégica (Planning) y ejecución por etapas
Experiment: Q&A MNIST
Memory via Synchronization
- Se prueba la capacidad de memoria y recuperación de largo plazo de CTM con la tarea MNIST Q&A
- Incluso cuando la imagen de entrada queda fuera de la ventana histórica de activación neuronal, la sincronización conserva y recupera información de memoria a largo plazo
Results & Generalization
- El rendimiento mejora a medida que aumenta el número de ticks de pensamiento interno, y la capacidad de generalización frente a preguntas y longitudes complejas es sobresaliente
- LSTM es inestable con más ticks, mientras que CTM aprende e infiere de forma consistente
Additional experiments
CTM versus humans
- Comparación de rendimiento entre humanos, feedforward, LSTM y CTM en CIFAR-10
- En calibration (coincidencia de la predicción probabilística), CTM supera a los humanos
- Las dinámicas de sincronización neuronal muestran características internas muy diversas y complejas, a diferencia de los enfoques anteriores
CIFAR-100, ablation studies
- Se observa que cuanto mayor es el ancho del modelo, más aumentan la diversidad y las dinámicas neuronales
- Según el número de ticks internos, aparecen procesos internos de pensamiento distintos según la tarea (distribución de “dos picos”)
Sorting real numbers
- En un experimento de ordenamiento de 30 números reales, CTM muestra un comportamiento emergente en el que el tiempo de cómputo interno (ticks de espera) varía según la distancia o separación entre valores
Reinforcement Learning
- En entornos de RL como MiniGrid y CartPole, CTM usa unidades internas de pensamiento continuo para interactuar con el entorno y tomar decisiones de política
- Muestra un rendimiento final similar al de LSTM y demuestra el efecto de registrar pensamiento continuo
Conclusion
- CTM logra de una nueva forma la fusión entre plausibilidad biológica y eficiencia en IA
- Mediante la introducción de modelos a nivel de neurona y una nueva forma de representación basada en sincronización neuronal, materializa capacidades de representación nunca antes vistas
- Muestra consistencia arquitectónica y alta adaptabilidad en diversas tareas como clasificación de imágenes, resolución de laberintos, memoria, ordenamiento y RL
- Demuestra la sinergia entre neurociencia y machine learning, así como la importancia de diseñar máquinas de pensamiento centradas en tiempo y sincronización
1 comentarios
Opinión de Hacker News
Lo preocupante de este artículo es que, aunque ya existe muchísimo trabajo previo en aprendizaje automático sobre redes neuronales de picos biológicamente plausibles y redes neuronales artificiales dependientes del tiempo, la terminología y el enfoque del artículo dan la impresión de no reconocer adecuadamente esa enorme base de investigación previa; en particular, llamar “pensamiento” (
thinking) a la etapa de integración sináptica podría confundir a la gente. El pensamiento, en el sentido común, es un proceso iterativo de generar, evaluar y revisar ideas, pero aquí se le está poniendo esa etiqueta a algo del nivel de proceso de una sola unidad. Eso también queda muy alejado de la terminología existente en ANN o machine learning. Esa elección de “pensamiento” no parece apropiada. No revisé todas las referencias; fue una reacción inmediata a frases de una línea de investigación que me resulta familiar.Me da mucho gusto que se vuelva a poner atención en este tema importante. En el contexto del cerebro biológico y el cuerpo, es fácil pensar el “tiempo” como un tiempo lineal newtoniano, pero en un sistema cerebro-cuerpo lo central es crear un orden de conducta y de cómputo dentro de muchos fragmentos distintos de “presente”, desde el “presente representacional” de 300 ms hasta cosas como los 50 microsegundos de las células que evalúan la localización del sonido. Si quieren saber más sobre la temporalidad condicional (
temporality), conviene revisar un artículo reciente en el European Journal of Neuroscience donde John Bickle entrevista a RW Williams.Mi impresión tras leer el artículo es que en realidad no se parece en nada a redes biológicas o de picos. El artículo conserva un historial de las entradas y usa atención multi-head para construir un modelo interno de cómo las entradas “presinápticas” pasadas se reflejan en la salida actual. Esto se parece a una versión ligeramente modificada de un transformer que conserva el historial de entradas y produce la salida con atención. La “sincronización” también se obtiene tomando el producto interno de toda la postactivación, y luego esa matriz resultado se proyecta al espacio de salida. Como tienen que multiplicarse varias salidas para producir el valor correcto en cada paso temporal, supongo que a esa combinación le llaman “sincronización”. Parece una especie de incentivo a la “dispersión” (
sparsity), al combinar múltiples valores de salida en una matriz y resaltar la importancia de su combinación por encima de la individualidad de cada valor. Ese enfoque es el mecanismo básico de la atención, donde se combinan mediante producto interno salidas de varios subsistemas.Este fin de semana hay tres cosas interesantes: 1) máquinas de pensamiento continuo (redes neuronales con codificación temporal parecidas a cerebros biológicos), 2) “zero data reasoning” (IA que aprende actuando directamente en lugar de preentrenarse con cantidades masivas de datos), 3) Intellect-2 (una arquitectura de aprendizaje por refuerzo distribuida globalmente). Desde la perspectiva de alguien no especialista, da la impresión de estar un paso más cerca de la singularidad (
singularity).Implementar mecanismos de codificación temporal como el timing de los picos y la sincronización es extremadamente difícil, por eso las redes neuronales modernas priorizan la simplicidad y la eficiencia computacional por encima de la dinámica temporal. Simular un verdadero dominio temporal ya es un problema muy difícil desde el punto de vista del hardware, especialmente porque añade otro eje de hiperparámetros, así que encontrar combinaciones válidas de parámetros se vuelve casi imposible. Es mucho más rápido encontrar arquitecturas con buena eficiencia computacional; además, si hay picos en pasos temporales futuros, aparecen estructuras de eventos tipo cola de prioridad y el costo computacional se dispara. Salvo que el objetivo realmente sea una “interacción hard real-time”, no creo que perseguir este tipo de estructuras tenga demasiado sentido desde una perspectiva práctica o de producto. El hecho de que STDP (cambio de pesos según la diferencia temporal entre picos) permita aprendizaje no supervisado en línea sigue siendo muy atractivo, pero por ahora no parece haber camino en silicio. Usar hardware dedicado termina siendo como fijar algunas partes de los hiperparámetros como constantes en el código, así que tampoco garantiza certeza y además deja menos margen de financiamiento.
La idea misma de estas máquinas no es completamente nueva. En un artículo de 2002 se presentaron las Liquid State Machines (LSM), que alimentan entradas continuas a una red neuronal de picos y leen el liquid state con una capa densa conectada a todas las neuronas de la red. En un artículo de 2019 se usó LSM para jugar Atari y, aunque a veces superaba a humanos, no siempre era así, y también se encontraron patrones de fallo similares a las limitaciones de las redes neuronales existentes. El rendimiento no era especialmente superior al de las redes neuronales tradicionales. Me gustaría que hubiera más interés en investigar redes neuronales que procesen entradas continuas (por ejemplo, audio), produzcan salidas continuas y apliquen solo principios de plasticidad del cerebro, sin backpropagation. Yo también lo he intentado por mi cuenta, pero quizá todavía no entendemos lo suficiente cómo funciona el cerebro, porque aún no sé cuál sería la respuesta correcta.
Irónicamente, esta página web se sigue recargando en firefox iOS.
La clave de la próxima generación de modelos será el principio de “neurons that fire together wire together”. Creo que las redes neuronales de picos ofrecen mucho interés como enfoque alternativo.