Modelo de razonamiento jerárquico

(arxiv.org)

6 puntos por GN⁺ 2025-07-28 | 1 comentarios | Compartir por WhatsApp

El Modelo de Razonamiento Jerárquico (Hierarchical Reasoning Model, HRM) supera las limitaciones de las técnicas tradicionales de Chain-of-Thought basadas en LLM en la ejecución de comportamientos complejos orientados a objetivos de la IA, como la descomposición inestable de tareas, la alta demanda de datos y los problemas de latencia
Inspirado en el concepto de procesamiento jerárquico del cerebro humano, HRM introduce una nueva estructura recurrente compuesta por un módulo de alto nivel encargado de la planificación abstracta y un módulo de bajo nivel que procesa rápidamente las operaciones detalladas
HRM muestra un rendimiento sobresaliente en problemas de razonamiento de alta dificultad con aproximadamente 27 millones de parámetros y solo 1,000 muestras de entrenamiento
Incluso sin preentrenamiento ni datos de Chain-of-Thought, alcanza una precisión casi perfecta en tareas como Sudoku complejo y búsqueda de rutas óptimas en laberintos grandes
HRM muestra mayor eficiencia y rendimiento frente a los modelos grandes existentes, y sugiere un posible punto de inflexión para la computación de propósito general y los sistemas de inteligencia general

Descripción general

En el campo de la IA, el razonamiento (reasoning) es una tarea clave en el proceso de diseñar y ejecutar comportamientos complejos orientados a objetivos. Los grandes modelos de lenguaje (LLM) existentes usan principalmente la técnica de Chain-of-Thought (CoT), pero esta tiene limitaciones como descomposición frágil de tareas, alta demanda de datos y alta latencia.

A partir de la estructura jerárquica y de procesamiento en múltiples escalas temporales del cerebro humano, se propone el Hierarchical Reasoning Model (HRM)
HRM está compuesto por dos módulos recurrentes dependientes (alto nivel / bajo nivel) y realiza razonamiento secuencial en una sola pasada hacia adelante sin supervisión explícita de los procesos intermedios
Con 27 millones de parámetros, muestra rendimiento de vanguardia usando solo 1,000 muestras

Limitaciones estructurales del deep learning y los LLM actuales

El deep learning partió de aumentar la capacidad de representación apilando profundidad de red, pero los LLM basados en Transformer tienen una estructura poco profunda y, por tanto, una limitación de profundidad
Los Transformer de profundidad fija enfrentan restricciones fundamentales de complejidad computacional en razonamiento lógico complejo o problemas algorítmicos
Chain-of-Thought depende de una descomposición paso a paso basada en lenguaje definida por humanos, por lo que todo el razonamiento puede colapsar fácilmente por errores o por un orden incorrecto
CoT también genera problemas de gran demanda de datos, mucha generación de tokens y lentitud

Principios de diseño de HRM

Diseñado para imitar el procesamiento jerárquico y en múltiples escalas temporales del cerebro humano

Procesamiento jerárquico: el cerebro procesa la información en regiones superiores e inferiores de forma separada tanto jerárquica como temporalmente
Separación temporal: las regiones superiores operan lentamente y las inferiores rápidamente, lo que permite una guía eficiente
Conexión recurrente: mediante retroalimentación iterativa, ajusta finamente las representaciones internas y logra razonamiento profundo

Arquitectura del modelo HRM

Está compuesto por red de entrada, módulo recurrente de bajo nivel, módulo recurrente de alto nivel y red de salida
La entrada se incrusta como vectores
El módulo de bajo nivel se actualiza varias veces con base en su estado previo, el estado actual del módulo de alto nivel y la entrada
El módulo de alto nivel se actualiza solo una vez al final de cada ciclo, recibiendo el estado final del módulo de bajo nivel
Al final, se produce una predicción a partir del estado del módulo de alto nivel

Mecanismo de convergencia jerárquica (hierarchical convergence)

Los RNN convencionales convergen demasiado rápido, lo que vuelve inútiles las operaciones adicionales
En HRM, el RNN de bajo nivel converge de forma estable a un punto de equilibrio local en cada ciclo; después, el módulo de alto nivel proporciona un nuevo contexto para que el módulo de bajo nivel vuelva a arrancar
Gracias a esta estructura de convergencia jerárquica, son posibles operaciones profundas (de muchas etapas) y también se controla adecuadamente la velocidad de convergencia

Entrenamiento con gradiente aproximado de 1 paso

Si se depende de BPTT (Backpropagation Through Time), es necesario almacenar estados de muchas etapas, lo que genera una alta carga de memoria
HRM entrena aproximando el gradiente solo con el estado final en cada uno de los módulos de alto y bajo nivel, lo que permite mantener uso de memoria O(1) e implementar un método biológicamente realista
Matemáticamente, se basa en el principio de Deep Equilibrium Model (DEQ)

Supervisión profunda (deep supervision) y tiempo de cómputo adaptativo (ACT)

Supervisión profunda

Proporciona retroalimentación periódica y genera una salida en cada forward pass (segmento), calculando por separado la pérdida de entrenamiento de cada segmento
Al pasar al siguiente segmento, desacopla el estado del grafo (detach) para mejorar la estabilidad y el rendimiento de la estructura recurrente profunda

Tiempo de cómputo adaptativo (ACT)

Introduce el principio de cambio entre pensamiento automático y deliberado en humanos, y determina dinámicamente el número de repeticiones de segmentos mediante aprendizaje con Q-learning
El Q-head predice el Q-value de las acciones halt/continue en cada segmento
Q-learning calcula la pérdida total considerando simultáneamente la precisión de predicción y el punto óptimo de detención

Rendimiento y características de la arquitectura

Incluso en problemas donde los modelos basados en CoT fallaron, como Sudoku-Extreme (9x9) y laberintos grandes (30x30), HRM los resuelve casi perfectamente con alrededor de 1,000 datos
En el benchmark ARC-AGI (Abstraction and Reasoning Corpus) logra 40.3% con solo 27M de parámetros (o3-mini-high basado en CoT 34.5%, Claude 3.7 8K 21.2%)
Es posible mejorar aún más el rendimiento aumentando solo la cantidad de cómputo (steps) en la etapa de inferencia, aprovechando recursos computacionales sin necesidad de modificaciones adicionales de arquitectura ni reentrenamiento
HRM utiliza internamente una arquitectura sequence-to-sequence basada en Transformer, y
- después de la capa de embedding, tanto el módulo de bajo nivel como el de alto nivel usan bloques Transformer encoder-only
- aplica funciones de los LLM modernos (Rotary Positional Encoding, Gated Linear Units, RMSNorm, etc.)
- los parámetros usan inicialización truncated LeCun Normal, junto con el optimizador Adam-atan2 y una tasa de aprendizaje fija

Conclusión

HRM, con su estructura recurrente jerárquica inspirada biológicamente y su método de aprendizaje eficiente y profundo, demuestra una capacidad de razonamiento general superior frente a enfoques existentes incluso con pocos datos y pocos parámetros
Es un caso importante que muestra el potencial de avanzar hacia sistemas de computación e inteligencia general que superen la limitación de profundidad del deep learning y los LLM

1 comentarios

GN⁺ 2025-07-28

Opiniones en Hacker News

Tras hojear por encima el resumen y la introducción, los resultados del modelo de razonamiento jerárquico (HRM) realmente parecen sorprendentes
- Impresiona que, usando solo 1,000 ejemplos de entrada-salida y sin preentrenamiento ni supervisión con Chain-of-Thought (CoT), HRM resuelva problemas que ni siquiera los LLM de vanguardia han podido manejar hasta ahora
- Por ejemplo, registra una precisión casi perfecta en Sudoku complejos (Extreme Full) y en la búsqueda de la ruta óptima en laberintos de 30x30 (mientras que el enfoque CoT se queda aquí en 0% de precisión)
- En el reto AGI de Abstraction and Reasoning Corpus (ARC), HRM también logra 40.3% con 27M de parámetros y una cuadrícula de 30x30 (900 tokens), superando a modelos mucho más grandes (o3-mini-high, Claude 3.7 8K, etc.)
- Pienso leer este paper con detenimiento
Me parece muy dudoso que un modelo de 27M de parámetros se entrene "desde cero" con solo 1,000 puntos de datos
- Tampoco entiendo por qué no lo comparan con otros modelos entrenados bajo las mismas condiciones (misma preparación de datos)
- En cambio, solo lo comparan con LLM externos de propósito general, que quizá nunca usaron esos 1,000 ejemplos durante el entrenamiento
- Este enfoque deja cierta sensación de sobreajuste (overfitting)
¡Sí!
- HRM utiliza dos módulos recurrentes interdependientes (módulo superior: planificación abstracta y lenta; módulo inferior: operaciones rápidas y detalladas)
- Gracias a esta estructura, HRM obtiene una gran capacidad de cómputo profundo incluso con pocos parámetros (27 millones) y un dataset pequeño (~1,000 ejemplos)
- HRM supera a modelos CoT modernos en benchmarks difíciles (Extreme Sudoku, Maze-Hard, ARC-AGI)
- Por ejemplo, 96% de precisión en Sudoku y 40.3% en ARC-AGI-2, por encima de modelos grandes como Claude 3.7 y DeepSeek R1
- Hace falta una explicación de cómo salen estos resultados... voy a tener que correrlo yo mismo en mi computadora
"Después de terminar la fase T, el módulo superior (módulo H) recibe el estado resultante del módulo inferior y realiza una actualización; en ese momento reinicia la trayectoria de cómputo del módulo inferior e induce una nueva fase de convergencia"
- Cuando la RNN inferior termina el cálculo, el módulo superior evalúa el resultado, le da un nuevo contexto a la RNN inferior y repite el ciclo
- La RNN inferior realiza aprendizaje por retropropagación (backpropagation) de forma repetida, y el módulo superior interviene periódicamente para ajustar hasta que salga una mejor salida
- "La evidencia en neurociencia indica que estos modos cognitivos comparten circuitos neuronales como la corteza prefrontal y la red por defecto. Es decir, el cerebro ajusta dinámicamente el 'tiempo de ejecución' de este circuito según la complejidad de la tarea y la posibilidad de recompensa"
- Los autores introdujeron en HRM una estrategia de detención adaptativa (adaptive halting) inspirada en este mecanismo cerebral, es decir, aplican una estrategia de "pensar rápido/lento"
- En otras palabras, es un scheduler que ajusta automáticamente el uso de recursos de cómputo según la dificultad de la tarea y los datos disponibles
- Me gusta mucho que en todo el paper citen similitudes con el cerebro real
- Creo que la AGI solo será posible combinando estos primitivos rudimentarios en una complejidad extrema, usando muchísimos "módulos" especializados para cooperación, competencia, comunicación, concurrencia, etc.
- El cerebro humano también debió funcionar así para alcanzar capacidades cognitivas desde la evolución; con tejido biológico lento y de bajo consumo, parece ser la única solución posible
Apenas leí sobre la división estructural hlm/llm, de inmediato pensé en la estructura del cerebro humano
Se menciona que hace falta una mirada escéptica
- En particular, ideas como esquivar la retropropagación son muy interesantes
- Pero todavía no parece haber pasado por revisión por pares (peer review), y la sección de resultados tampoco detalla bien la metodología de evaluación; los números están solo en la figura principal
- Los valores también difieren del leaderboard de Benchmarks (ARC2) (ahora los primeros lugares están en 19%, mientras que HRM anda por 5%)
- Puede verificarse directamente en https://www.kaggle.com/competitions/arc-prize-2025/leaderboard
El código de los autores está publicado en https://github.com/sapientinc/HRM
- En AI/ML, un paper preprint acompañado de código funcional se considera mucho más valioso que un paper con revisión por pares formal
- Un preprint puede ser validado y reproducido por cualquiera, mientras que el peer review estándar depende de un grupo muy pequeño de revisores ocupados (que a veces ni siquiera reciben una compensación adecuada)
- Si lo que afirman los autores es cierto, terminará siendo reconocido de forma natural; si no, caerá en el olvido
- En la práctica, es una validación abierta, distribuida y global, al estilo open source; puede ser desordenada, pero es mucho más efectiva que la revisión académica tradicional
En papers de machine learning, una postura escéptica saludable es indispensable
- A medida que aumenta la cantidad de papers, la revisión por pares tradicional pierde efectividad
- Muchas veces los revisores no tienen verdadera especialización en el área asignada o incluso son estudiantes
- El verdadero peer review ocurre cuando otros expertos implementan el trabajo, reproducen los resultados de forma independiente en arXiv y otros espacios, y luego lo citan en trabajos posteriores
- Este mismo hilo de comentarios es el verdadero peer review
Creo que la mejor forma de validar el escepticismo es mediante experimentos de reproducción y comparación de resultados
- El próximo mes tendré 10 días de vacaciones, así que planeo revisar qué publicaron los autores —código fuente, dataset, etc.— e intentar reproducirlo por mi cuenta
Juzgarlo solo porque todavía no pasó por revisión por pares me parece apresurado
- Los papers de mamba1 y mamba2 tampoco habían pasado por peer review al principio
- Aun así, coincido en que afirmaciones fuertes requieren evidencia fuerte, y ahora mismo estoy intentando reproducir los resultados localmente
Esperar peer review justo cuando el paper acaba de publicarse me hace pensar que no se entiende bien el proceso
- Para someter una investigación a revisión por pares, primero hay que "publicarla"
Como psicólogo cognitivo, desde hace mucho pienso que esta es, en general, la dirección que necesita la IA
- Véase Fuzzy Trace Theory [1]; la memoria crea y combina representaciones en distintos niveles, desde la palabra individual (detalle) hasta el resumen (gist)
- La combinación de representación resumida + información detallada permite una generalización potente y rutas de recuerdo más flexibles
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
Si entiendo bien, HRM ve 1,000 pares de Sudoku (rompecabezas, solución) y aprende por sí solo las reglas
- Luego puede resolver nuevos rompecabezas que nunca ha visto con 55% de precisión
- Si se entrena con un millón de ejemplos, llega casi a la perfección
- Sorprende que no haya ningún preentrenamiento
- En cambio, AlphaZero tiene las reglas (ajedrez/go) incorporadas y solo aprende estrategia, pero HRM aprende incluso las reglas
- Planeo revisar directamente el repositorio de GitHub
- AlphaZero incorpora las reglas, pero MuZero y modelos posteriores funcionan sin reglas embebidas
  - MuZero supera a AlphaZero, y EfficientZero incluso reduce la cantidad de entrenamiento
  - También destaca en entornos diversos como juegos de Atari
- Tras probar directamente con el código fuente:
  - Para que haya verdadera reproducibilidad científica, me gustaría que especificaran claramente las versiones de librerías (pyproject.toml sería mejor)
  - Los 1,000 ejemplos de Sudoku en realidad se expanden mediante un algoritmo de permutación codificado a mano, así que en la práctica el dataset ronda el millón de ejemplos
    (o sea, no son realmente 1,000)
Me intriga —y me da un poco de miedo— si el modelo HRM se combinará pronto con MoE (Mixture of Experts)
- La presión económica para hacer más potentes a los LLM es enorme, así que creo que una combinación así podría ocurrir incluso en cuestión de uno o dos meses
- El paper solo trata problemas tipo rompecabezas como Sudoku, y no cubre preguntas y respuestas ni las aplicaciones principales de los LLM
- Es una pena que no discuta su integración con la próxima generación de LLM
- MoE se relaciona con clústeres de conceptos, pero hacia adelante también habría que incluir en el espacio latente (latent space) la profundidad del concepto, el número de jerarquías y el tiempo de aprendizaje, algo parecido a cómo leemos distinto un libro de matemáticas que una nota breve
- HRM está diseñado para rompecabezas donde pocas reglas se entrelazan de manera compleja
  - Como hay pocas reglas, un modelo pequeño puede aprenderlas; y como el modelo es pequeño, puede ejecutarse muchas veces de forma iterativa para manejar todas las interacciones
  - El modelado del lenguaje necesita almacenar muchísimas expresiones y relaciones entre ellas, así que no creo que algo similar funcione con un modelo tan pequeño
  - Por suerte, en lenguaje normalmente bastan unas pocas etapas de cómputo para obtener resultados útiles
  - Si metes un modelo del tamaño de un LLM en un bucle iterativo al estilo HRM, sería demasiado lento para aplicaciones reales
  - Sí puedo imaginar una combinación de LLM principal + HRM pequeño para encargarse aparte de tareas de satisfacción de restricciones
- Yo también tengo algo de dudas por la falta de discusión sobre otras aplicaciones fuera de Sudoku o sobre sus limitaciones
Al revisar el paper, me dio la impresión de que un sistema MoE LLM (ya sea autoregresivo, de difusión, basado en energía, o cualquier otro) también podría anidar jerarquías con una estructura HRM
- Combinando estas ideas, quizá podría construirse un nuevo benchmark de eficiencia y calidad
Valoro mucho la inspiración neurocientífica, y en general no veo nada especialmente problemático en el paper
- No he hecho una réplica directa del experimento, pero lo que parecen haber construido los autores es, como mínimo, un solucionador de problemas de satisfacción de restricciones (constraint-satisfaction) con cierto grado de generalidad
- Es un sistema que aprende incluso las reglas de restricción a partir de pocos ejemplos, y si eso es cierto, ya es bastante interesante por sí solo
- Aun así, la comparación directa con modelos CoT no me resulta tan convincente
- Los modelos CoT en principio pueden resolver cualquier problema complejo, pero HRM necesita entrenamiento separado para cada rompecabezas especializado, así que cuesta sostener una pretensión de generalidad
- Por ejemplo, que Stockfish juegue mejor ajedrez que un LLM no significa necesariamente que Stockfish sea más "inteligente"
- Es una buena idea, pero sentí un poco de exageración de marketing en el paper
- ¡De acuerdo! De hecho, solo esto ya sería un logro enorme
  - Hace falta poner freno al hype excesivo, pero aun así sorprende que este modelo tan pequeño logre estos resultados
  - Para problemas específicos, un modelo personalizado puede ser más eficiente y confiable, así que no hace falta imponer estructuras ineficientes en nombre de la generalidad
- Dijiste que los modelos CoT pueden resolver en esencia cualquier tarea compleja, pero me gustaría saber en qué se basa eso
  - Incluso me pregunto si existe alguna prueba matemática
  - Personalmente, creo que el propio CoT es una especie de truco para rodear las limitaciones de los LLM actuales
Si este paper es cierto, su impacto sería enorme, así que lo sigo muy de cerca
- El concepto base suena razonable, pero pienso observarlo con cautela hasta que haya validación de terceros
- Me dan ganas de comprobarlo yo mismo en trabajo real