Modelo de razonamiento jerárquico
(arxiv.org)- El Modelo de Razonamiento Jerárquico (Hierarchical Reasoning Model, HRM) supera las limitaciones de las técnicas tradicionales de Chain-of-Thought basadas en LLM en la ejecución de comportamientos complejos orientados a objetivos de la IA, como la descomposición inestable de tareas, la alta demanda de datos y los problemas de latencia
- Inspirado en el concepto de procesamiento jerárquico del cerebro humano, HRM introduce una nueva estructura recurrente compuesta por un módulo de alto nivel encargado de la planificación abstracta y un módulo de bajo nivel que procesa rápidamente las operaciones detalladas
- HRM muestra un rendimiento sobresaliente en problemas de razonamiento de alta dificultad con aproximadamente 27 millones de parámetros y solo 1,000 muestras de entrenamiento
- Incluso sin preentrenamiento ni datos de Chain-of-Thought, alcanza una precisión casi perfecta en tareas como Sudoku complejo y búsqueda de rutas óptimas en laberintos grandes
- HRM muestra mayor eficiencia y rendimiento frente a los modelos grandes existentes, y sugiere un posible punto de inflexión para la computación de propósito general y los sistemas de inteligencia general
Descripción general
En el campo de la IA, el razonamiento (reasoning) es una tarea clave en el proceso de diseñar y ejecutar comportamientos complejos orientados a objetivos. Los grandes modelos de lenguaje (LLM) existentes usan principalmente la técnica de Chain-of-Thought (CoT), pero esta tiene limitaciones como descomposición frágil de tareas, alta demanda de datos y alta latencia.
- A partir de la estructura jerárquica y de procesamiento en múltiples escalas temporales del cerebro humano, se propone el Hierarchical Reasoning Model (HRM)
- HRM está compuesto por dos módulos recurrentes dependientes (alto nivel / bajo nivel) y realiza razonamiento secuencial en una sola pasada hacia adelante sin supervisión explícita de los procesos intermedios
- Con 27 millones de parámetros, muestra rendimiento de vanguardia usando solo 1,000 muestras
Limitaciones estructurales del deep learning y los LLM actuales
- El deep learning partió de aumentar la capacidad de representación apilando profundidad de red, pero los LLM basados en Transformer tienen una estructura poco profunda y, por tanto, una limitación de profundidad
- Los Transformer de profundidad fija enfrentan restricciones fundamentales de complejidad computacional en razonamiento lógico complejo o problemas algorítmicos
- Chain-of-Thought depende de una descomposición paso a paso basada en lenguaje definida por humanos, por lo que todo el razonamiento puede colapsar fácilmente por errores o por un orden incorrecto
- CoT también genera problemas de gran demanda de datos, mucha generación de tokens y lentitud
Principios de diseño de HRM
Diseñado para imitar el procesamiento jerárquico y en múltiples escalas temporales del cerebro humano
- Procesamiento jerárquico: el cerebro procesa la información en regiones superiores e inferiores de forma separada tanto jerárquica como temporalmente
- Separación temporal: las regiones superiores operan lentamente y las inferiores rápidamente, lo que permite una guía eficiente
- Conexión recurrente: mediante retroalimentación iterativa, ajusta finamente las representaciones internas y logra razonamiento profundo
Arquitectura del modelo HRM
- Está compuesto por red de entrada, módulo recurrente de bajo nivel, módulo recurrente de alto nivel y red de salida
- La entrada se incrusta como vectores
- El módulo de bajo nivel se actualiza varias veces con base en su estado previo, el estado actual del módulo de alto nivel y la entrada
- El módulo de alto nivel se actualiza solo una vez al final de cada ciclo, recibiendo el estado final del módulo de bajo nivel
- Al final, se produce una predicción a partir del estado del módulo de alto nivel
Mecanismo de convergencia jerárquica (hierarchical convergence)
- Los RNN convencionales convergen demasiado rápido, lo que vuelve inútiles las operaciones adicionales
- En HRM, el RNN de bajo nivel converge de forma estable a un punto de equilibrio local en cada ciclo; después, el módulo de alto nivel proporciona un nuevo contexto para que el módulo de bajo nivel vuelva a arrancar
- Gracias a esta estructura de convergencia jerárquica, son posibles operaciones profundas (de muchas etapas) y también se controla adecuadamente la velocidad de convergencia
Entrenamiento con gradiente aproximado de 1 paso
- Si se depende de BPTT (Backpropagation Through Time), es necesario almacenar estados de muchas etapas, lo que genera una alta carga de memoria
- HRM entrena aproximando el gradiente solo con el estado final en cada uno de los módulos de alto y bajo nivel, lo que permite mantener uso de memoria O(1) e implementar un método biológicamente realista
- Matemáticamente, se basa en el principio de Deep Equilibrium Model (DEQ)
Supervisión profunda (deep supervision) y tiempo de cómputo adaptativo (ACT)
Supervisión profunda
- Proporciona retroalimentación periódica y genera una salida en cada forward pass (segmento), calculando por separado la pérdida de entrenamiento de cada segmento
- Al pasar al siguiente segmento, desacopla el estado del grafo (detach) para mejorar la estabilidad y el rendimiento de la estructura recurrente profunda
Tiempo de cómputo adaptativo (ACT)
- Introduce el principio de cambio entre pensamiento automático y deliberado en humanos, y determina dinámicamente el número de repeticiones de segmentos mediante aprendizaje con Q-learning
- El Q-head predice el Q-value de las acciones halt/continue en cada segmento
- Q-learning calcula la pérdida total considerando simultáneamente la precisión de predicción y el punto óptimo de detención
Rendimiento y características de la arquitectura
-
Incluso en problemas donde los modelos basados en CoT fallaron, como Sudoku-Extreme (9x9) y laberintos grandes (30x30), HRM los resuelve casi perfectamente con alrededor de 1,000 datos
-
En el benchmark ARC-AGI (Abstraction and Reasoning Corpus) logra 40.3% con solo 27M de parámetros (o3-mini-high basado en CoT 34.5%, Claude 3.7 8K 21.2%)
-
Es posible mejorar aún más el rendimiento aumentando solo la cantidad de cómputo (steps) en la etapa de inferencia, aprovechando recursos computacionales sin necesidad de modificaciones adicionales de arquitectura ni reentrenamiento
-
HRM utiliza internamente una arquitectura sequence-to-sequence basada en Transformer, y
- después de la capa de embedding, tanto el módulo de bajo nivel como el de alto nivel usan bloques Transformer encoder-only
- aplica funciones de los LLM modernos (Rotary Positional Encoding, Gated Linear Units, RMSNorm, etc.)
- los parámetros usan inicialización truncated LeCun Normal, junto con el optimizador Adam-atan2 y una tasa de aprendizaje fija
Conclusión
- HRM, con su estructura recurrente jerárquica inspirada biológicamente y su método de aprendizaje eficiente y profundo, demuestra una capacidad de razonamiento general superior frente a enfoques existentes incluso con pocos datos y pocos parámetros
- Es un caso importante que muestra el potencial de avanzar hacia sistemas de computación e inteligencia general que superen la limitación de profundidad del deep learning y los LLM
1 comentarios
Opiniones en Hacker News
Tras hojear por encima el resumen y la introducción, los resultados del modelo de razonamiento jerárquico (HRM) realmente parecen sorprendentes
o3-mini-high, Claude 3.7 8K, etc.)Me parece muy dudoso que un modelo de 27M de parámetros se entrene "desde cero" con solo 1,000 puntos de datos
¡Sí!
"Después de terminar la fase T, el módulo superior (módulo H) recibe el estado resultante del módulo inferior y realiza una actualización; en ese momento reinicia la trayectoria de cómputo del módulo inferior e induce una nueva fase de convergencia"
backpropagation) de forma repetida, y el módulo superior interviene periódicamente para ajustar hasta que salga una mejor salidaadaptive halting) inspirada en este mecanismo cerebral, es decir, aplican una estrategia de "pensar rápido/lento"Apenas leí sobre la división estructural hlm/llm, de inmediato pensé en la estructura del cerebro humano
Se menciona que hace falta una mirada escéptica
peer review), y la sección de resultados tampoco detalla bien la metodología de evaluación; los números están solo en la figura principalEl código de los autores está publicado en https://github.com/sapientinc/HRM
peer reviewestándar depende de un grupo muy pequeño de revisores ocupados (que a veces ni siquiera reciben una compensación adecuada)En papers de machine learning, una postura escéptica saludable es indispensable
peer reviewocurre cuando otros expertos implementan el trabajo, reproducen los resultados de forma independiente en arXiv y otros espacios, y luego lo citan en trabajos posteriorespeer reviewCreo que la mejor forma de validar el escepticismo es mediante experimentos de reproducción y comparación de resultados
Juzgarlo solo porque todavía no pasó por revisión por pares me parece apresurado
mamba1ymamba2tampoco habían pasado porpeer reviewal principioEsperar
peer reviewjusto cuando el paper acaba de publicarse me hace pensar que no se entiende bien el procesoComo psicólogo cognitivo, desde hace mucho pienso que esta es, en general, la dirección que necesita la IA
gist)Si entiendo bien, HRM ve 1,000 pares de Sudoku (rompecabezas, solución) y aprende por sí solo las reglas
Luego puede resolver nuevos rompecabezas que nunca ha visto con 55% de precisión
Si se entrena con un millón de ejemplos, llega casi a la perfección
Sorprende que no haya ningún preentrenamiento
En cambio, AlphaZero tiene las reglas (ajedrez/go) incorporadas y solo aprende estrategia, pero HRM aprende incluso las reglas
Planeo revisar directamente el repositorio de GitHub
AlphaZero incorpora las reglas, pero MuZero y modelos posteriores funcionan sin reglas embebidas
Tras probar directamente con el código fuente:
pyproject.tomlsería mejor)(o sea, no son realmente 1,000)
Me intriga —y me da un poco de miedo— si el modelo HRM se combinará pronto con MoE (Mixture of Experts)
La presión económica para hacer más potentes a los LLM es enorme, así que creo que una combinación así podría ocurrir incluso en cuestión de uno o dos meses
El paper solo trata problemas tipo rompecabezas como Sudoku, y no cubre preguntas y respuestas ni las aplicaciones principales de los LLM
Es una pena que no discuta su integración con la próxima generación de LLM
MoE se relaciona con clústeres de conceptos, pero hacia adelante también habría que incluir en el espacio latente (
latent space) la profundidad del concepto, el número de jerarquías y el tiempo de aprendizaje, algo parecido a cómo leemos distinto un libro de matemáticas que una nota breveHRM está diseñado para rompecabezas donde pocas reglas se entrelazan de manera compleja
Yo también tengo algo de dudas por la falta de discusión sobre otras aplicaciones fuera de Sudoku o sobre sus limitaciones
Al revisar el paper, me dio la impresión de que un sistema MoE LLM (ya sea autoregresivo, de difusión, basado en energía, o cualquier otro) también podría anidar jerarquías con una estructura HRM
Valoro mucho la inspiración neurocientífica, y en general no veo nada especialmente problemático en el paper
No he hecho una réplica directa del experimento, pero lo que parecen haber construido los autores es, como mínimo, un solucionador de problemas de satisfacción de restricciones (
constraint-satisfaction) con cierto grado de generalidadEs un sistema que aprende incluso las reglas de restricción a partir de pocos ejemplos, y si eso es cierto, ya es bastante interesante por sí solo
Aun así, la comparación directa con modelos CoT no me resulta tan convincente
Los modelos CoT en principio pueden resolver cualquier problema complejo, pero HRM necesita entrenamiento separado para cada rompecabezas especializado, así que cuesta sostener una pretensión de generalidad
Por ejemplo, que Stockfish juegue mejor ajedrez que un LLM no significa necesariamente que Stockfish sea más "inteligente"
Es una buena idea, pero sentí un poco de exageración de marketing en el paper
¡De acuerdo! De hecho, solo esto ya sería un logro enorme
Dijiste que los modelos CoT pueden resolver en esencia cualquier tarea compleja, pero me gustaría saber en qué se basa eso
Si este paper es cierto, su impacto sería enorme, así que lo sigo muy de cerca