Menos es más: razonamiento recursivo con una red pequeña

(alexiajm.github.io)

3 puntos por GN⁺ 2025-10-10 | 1 comentarios | Compartir por WhatsApp

Tiny Recursion Model (TRM) logra un alto rendimiento incluso con una red neuronal pequeña de alrededor de 7M parámetros: 45% en ARC-AGI-1 y 8% en ARC-AGI-2
Demuestra que es posible resolver problemas difíciles aplicando un método de razonamiento recursivo incluso sin usar un modelo de lenguaje grande
Este modelo simplifica la estructura compleja del Hierarchical Reasoning Model (HRM) existente y deja solo el proceso central de razonamiento recursivo
Sin depender del cerebro humano, teoremas matemáticos complejos ni estructuras jerárquicas, TRM mejora de forma continua la calidad de las respuestas con un modelo pequeño y eficiente
Este artículo subraya que, para resolver problemas difíciles, un enfoque nuevo es más importante que el tamaño del modelo

Resumen general

Este artículo propone un nuevo modelo de razonamiento recursivo llamado Tiny Recursion Model (TRM)
Aunque TRM es una red neuronal compuesta por apenas 7M parámetros, registra una precisión significativa de 45% en ARC-AGI-1 y 8% en ARC-AGI-2
El modelo muestra experimentalmente que no hace falta un modelo grande entrenado por grandes empresas con cientos de millones de dólares para resolver problemas complejos; un razonamiento recursivo eficiente puede ser suficiente
Actualmente existe una atención excesiva en la industria hacia el uso de los LLM, pero TRM sugiere que una nueva dirección en razonamiento y aprendizaje es importante

Diferencias frente a trabajos previos

El Hierarchical Reasoning Model (HRM) anterior dependía en gran medida de lógica biológica, estructuras jerárquicas complejas y teoremas matemáticos (como los teoremas de punto fijo)
TRM elimina esa complejidad y deja únicamente el mecanismo central simplificado de razonamiento recursivo, haciendo que tanto el diseño como la implementación sean más intuitivos y simples
La clave está en que, incluso sin la estructura del cerebro humano ni un trasfondo teórico, mejora de manera continua la precisión de las respuestas mediante un proceso recursivo de autoiteración

Cómo funciona TRM

Comienza incrustando la pregunta de entrada x, la respuesta inicial y y el estado oculto z
Durante un máximo de K pasos de mejora, se repiten las dos etapas siguientes:
- i) A partir de la pregunta actual x, la respuesta y y el estado oculto z, se actualiza repetidamente el valor oculto z n veces (razonamiento recursivo)
- ii) A partir de la respuesta actual y y el nuevo estado oculto z, se vuelve a actualizar la respuesta y para obtener una mejor respuesta
Este proceso de iteración recursiva mejora continuamente la calidad de las respuestas sin aumentar los parámetros del modelo, y además reduce el riesgo de overfitting

Conclusión

La investigación sobre TRM demuestra que el tamaño del modelo no es necesariamente un factor indispensable para el éxito
Los experimentos muestran que, solo con el principio de razonamiento recursivo, una red neuronal pequeña puede lograr resultados cercanos a los de modelos grandes
Subraya la importancia de desarrollar direcciones nuevas, eficientes y creativas para la investigación futura en inteligencia artificial
Se puede consultar más detalle en el artículo

1 comentarios

GN⁺ 2025-10-10

Comentarios en Hacker News

Recomiendo mucho que todo el mundo lea con atención la entrada del blog de los organizadores de ARC-AGI sobre HRM
Con las mismas condiciones de aumento de datos y test time training, parece que incluso un Transformer base logra resultados casi cercanos a los “grandes resultados” reportados para HRM
Este artículo también parece compararse en ARC-AGI bajo condiciones similares
Yo también quisiera obtener un gran desempeño de razonamiento con modelos más pequeños
Pero primero hay que entender qué evalúa ARC-AGI, cuál es la configuración típica usada para comparar LLM comerciales entre sí, y cuáles son las configuraciones especiales que usan HRM o este artículo
Los nombres de los benchmarks tienden a generar expectativas excesivas, y creo que eso se ve tanto en HRM como en este trabajo
- El artículo de TRM ya trata esa entrada del blog
  No hace falta analizar con tanto detalle el texto sobre HRM, y TRM tiene una estructura más disentangled frente a HRM, así que hacer ablations es mucho más fácil
  Creo que el verdadero valor del blog de análisis de HRM de arcprize está en resaltar la importancia de las pruebas de ablation
  ARC-AGI fue diseñado como un desafío para todo tipo de modelos
  Se asumía que hacía falta una capacidad de razonamiento al nivel de un modelo de lenguaje grande como un LLM para resolverlo, pero parece que eso fue un malentendido
  Quisiera preguntar si la diferencia está en que HRM y TRM fueron entrenados de forma especializada con pequeños datasets de muestras de ARC-AGI, mientras que los LLM no
  O me gustaría saber qué diferencia se quiere destacar
Más que un “Transformer base”, es una “arquitectura similar a un Transformer con estructura recurrente”
Sigue siendo un tema experimental interesante
Sin duda tiene ventajas, pero no creo que realmente sea un Transformer mejor
Me parece que está recibiendo más atención de la que amerita por ahora
Al ver esto, una vez más me vino a la mente la analogía entre los filtros Finite Impulse Response (FIR) (LLM convencionales) y los filtros Infinite Impulse Response (IIR) (modelos recursivos)
No es una analogía brillante ni especialmente original, pero en FIR se necesitan muchos más coeficientes que en IIR para obtener características de corte similares
Por ejemplo, se puede convertir un IIR en un FIR con el método de window design method, y en ese caso la estructura recursiva se despliega y se detiene a una profundidad finita
De forma parecida, si se desenrolla TRM, queda como una estructura repetida de bloques attention+ff en una arquitectura LLM tradicional, salvo por la ausencia de feedback global
Además, a diferencia de un IIR real, TRM implementa un cutoff finito, así que estructuralmente parece más cercano a FIR/LLM
También sería interesante compararlo con una estructura desplegada de forma similar a TRM
Aunque tal vez sea una idea nacida de la falta de sueño
- Quisiera presentar los Deep Equilibrium Models
  Parten de la observación de que la mayoría de las capas ocultas de los modelos secuenciales profundos convencionales convergen hacia algún punto fijo, y entonces buscan directamente ese punto fijo mediante root finding
  Este enfoque es equivalente a ejecutar una red feedforward de profundidad infinita con pesos compartidos, y además permite backpropagation mediante diferenciación implícita
  (enlace al artículo en arXiv)
  Lo interesante de los modelos de equilibrio profundo es que una sola capa puede volverse equivalente a una red profunda con múltiples capas apiladas
  Solo hace falta recurrencia
  Ajustan por sí mismos el número de iteraciones según la dificultad de la tarea
Implementé HRM con fines educativos y obtuve buen rendimiento en pathfinding
Después hice experimentos de ablation y llegué a la misma conclusión que el equipo de ARC-AGI, es decir, que la arquitectura de HRM en sí aporta poco
Es un poco decepcionante
Creo que hay algo de potencial en el razonamiento en espacio latente
Repositorio de implementación
- Me parece un gran trabajo, gracias por organizarlo y compartirlo
  La replicación y compartir la experiencia son realmente importantes
Me pregunto si los resultados revelados en este artículo de arXiv realmente escalan
Si esto también funciona en aplicaciones reales, sin duda sería revolucionario
Por otro lado, si ese fuera el caso, también da pie a imaginar de forma curiosa que las inversiones astronómicas actuales en infraestructura de centros de datos para IA podrían volverse irrelevantes de un momento a otro
(aunque claro, no duraría mucho)
- Cuando se habla de HRM, hay que revisar sí o sí el análisis de HRM de arcprize
  Este artículo parece una versión simplificada de HRM, y da la impresión de que también tomó como referencia justo el estudio de ablation de ese análisis
  También es importante que HRM no es una arquitectura de uso amplio como un transformer LLM general
  Aún no hay evidencia de que HRM haya funcionado en tareas generales de IA generativa
  Estoy leyendo el artículo, pero parece que esta estructura también encaja en tareas similares a las de HRM, como razonamiento espacial tipo ARC-AGI, y que todavía hace falta integrarla en una arquitectura más general
- Creo que aquí aplica la paradoja de Jevons
  Si baja el costo de la IA o de la electricidad, la demanda sube aún más
- Suena bastante plausible esa idea de que la burbuja de la IA colapse porque la tecnología de IA se vuelve tan buena que la eficiencia sube de forma extrema
- Sobre la idea de que la inversión en infraestructura de centros de datos para IA podría volverse irrelevante
  El cómputo en GPU no se usa solo para inferencia de texto, y en particular parece difícil que la demanda de generación de video se sature pronto, incluso si hay avances importantes
- Si realmente se lograran resultados así, la industria adoptaría este enfoque casi de inmediato para entrenar modelos todavía más grandes y potentes
“TRM con 7M de parámetros obtiene 45% de precisión de prueba en ARC-AGI-1 y 8% en ARC-AGI-2, superando a la mayoría de los LLM como Deepseek R1, o3-mini y Gemini 2.5 Pro, con menos de 0.01% de los parámetros”
Realmente es impresionante
Por cierto, estructuralmente se siente parecido a la Hierarchical Temporal Memory que propuso Jeff Hawkins en “On Intelligence”
(aunque claro, sin la característica de sparsity, pero con elementos jerárquicos y temporales similares)
Wiki de HTM, Numenta
- Pienso que la falta de sparsity podría ser el talón de Aquiles del enfoque actual de los LLM
Resumen
Hierarchical Reasoning Model (HRM) es un enfoque novedoso en el que dos redes neuronales pequeñas se ejecutan recursivamente a distintos ritmos
Está inspirado en la biología y, con un modelo pequeño (27M de parámetros) y datos pequeños y escasos (alrededor de 1000 ejemplos), supera a LLM grandes en rompecabezas difíciles como Sudoku, Maze y ARC-AGI
Aún no es una arquitectura completamente comprendida y puede que su rendimiento no sea óptimo
Nosotros proponemos una forma de razonamiento recursivo mucho más simple, TRM (Tiny Recursive Model), y este modelo muestra una capacidad de generalización muy superior a la de HRM con una pequeña red de 2 capas
Con solo 7M de parámetros, supera a LLM grandes (45% de precisión de prueba en ARC-AGI-1 y 8% en ARC-AGI-2, con menos de 0.01% de los parámetros)
- El resultado de superar a LLM grandes con solo 7M de parámetros es bastante atractivo
  Aun así, me da curiosidad porque parece que podría haber alguna limitación oculta
Es interesante ver que el efecto de la recurrencia da buenos resultados en problemas ARC
Si te interesa la recurrencia, también vale la pena revisar estos artículos que aplican este modelo a otros problemas
- Modelado de lenguaje: Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
- Resolución de rompecabezas: A Simple Loss Function for Convergent Algorithm Synthesis using RNNs
- Síntesis de algoritmos end-to-end: End-to-end Algorithm Synthesis with Recurrent Networks, Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with Recurrent Networks
- Enfoques generales: Think Again Networks and the Delta Loss, Universal Transformers, Adaptive Computation Time for Recurrent Neural Networks
En general me gusta la familia transformer RNN
En esencia, es una estructura donde un EBM aprende un paisaje de energía y es arrastrado hacia la solución
Se siente como resolver problemas discretos de una forma gradualmente convexa
Me hace pensar en neural cellular automata, flow matching/diffusion y cosas similares
Este enfoque también parece prometedor para problemas de control
La idea sería seguir moviéndose por el espacio de estados y elegir solo acciones válidas en cada etapa
Me da la impresión de que esto es esencialmente lo mismo que un Chain-of-Thought (CoT) en neuralese
z/z_L se describe explícitamente como un reasoning embedding, y su papel es refinar gradualmente el embedding de salida (z_H/y) mientras cambia o se mantiene a lo largo del proceso recursivo
¿No sería entonces una verdadera cadena de razonamiento o CoT en neuralese?

Menos es más: razonamiento recursivo con una red pequeña

Resumen general

Diferencias frente a trabajos previos

Cómo funciona TRM

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News