- Tiny Recursion Model (TRM) logra un alto rendimiento incluso con una red neuronal pequeña de alrededor de 7M parámetros: 45% en ARC-AGI-1 y 8% en ARC-AGI-2
- Demuestra que es posible resolver problemas difíciles aplicando un método de razonamiento recursivo incluso sin usar un modelo de lenguaje grande
- Este modelo simplifica la estructura compleja del Hierarchical Reasoning Model (HRM) existente y deja solo el proceso central de razonamiento recursivo
- Sin depender del cerebro humano, teoremas matemáticos complejos ni estructuras jerárquicas, TRM mejora de forma continua la calidad de las respuestas con un modelo pequeño y eficiente
- Este artículo subraya que, para resolver problemas difíciles, un enfoque nuevo es más importante que el tamaño del modelo
Resumen general
- Este artículo propone un nuevo modelo de razonamiento recursivo llamado Tiny Recursion Model (TRM)
- Aunque TRM es una red neuronal compuesta por apenas 7M parámetros, registra una precisión significativa de 45% en ARC-AGI-1 y 8% en ARC-AGI-2
- El modelo muestra experimentalmente que no hace falta un modelo grande entrenado por grandes empresas con cientos de millones de dólares para resolver problemas complejos; un razonamiento recursivo eficiente puede ser suficiente
- Actualmente existe una atención excesiva en la industria hacia el uso de los LLM, pero TRM sugiere que una nueva dirección en razonamiento y aprendizaje es importante
Diferencias frente a trabajos previos
- El Hierarchical Reasoning Model (HRM) anterior dependía en gran medida de lógica biológica, estructuras jerárquicas complejas y teoremas matemáticos (como los teoremas de punto fijo)
- TRM elimina esa complejidad y deja únicamente el mecanismo central simplificado de razonamiento recursivo, haciendo que tanto el diseño como la implementación sean más intuitivos y simples
- La clave está en que, incluso sin la estructura del cerebro humano ni un trasfondo teórico, mejora de manera continua la precisión de las respuestas mediante un proceso recursivo de autoiteración
Cómo funciona TRM
- Comienza incrustando la pregunta de entrada x, la respuesta inicial y y el estado oculto z
- Durante un máximo de K pasos de mejora, se repiten las dos etapas siguientes:
- i) A partir de la pregunta actual x, la respuesta y y el estado oculto z, se actualiza repetidamente el valor oculto z n veces (razonamiento recursivo)
- ii) A partir de la respuesta actual y y el nuevo estado oculto z, se vuelve a actualizar la respuesta y para obtener una mejor respuesta
- Este proceso de iteración recursiva mejora continuamente la calidad de las respuestas sin aumentar los parámetros del modelo, y además reduce el riesgo de overfitting
Conclusión
- La investigación sobre TRM demuestra que el tamaño del modelo no es necesariamente un factor indispensable para el éxito
- Los experimentos muestran que, solo con el principio de razonamiento recursivo, una red neuronal pequeña puede lograr resultados cercanos a los de modelos grandes
- Subraya la importancia de desarrollar direcciones nuevas, eficientes y creativas para la investigación futura en inteligencia artificial
- Se puede consultar más detalle en el artículo
1 comentarios
Comentarios en Hacker News
Recomiendo mucho que todo el mundo lea con atención la entrada del blog de los organizadores de ARC-AGI sobre HRM
Con las mismas condiciones de aumento de datos y
test time training, parece que incluso un Transformer base logra resultados casi cercanos a los “grandes resultados” reportados para HRMEste artículo también parece compararse en ARC-AGI bajo condiciones similares
Yo también quisiera obtener un gran desempeño de razonamiento con modelos más pequeños
Pero primero hay que entender qué evalúa ARC-AGI, cuál es la configuración típica usada para comparar LLM comerciales entre sí, y cuáles son las configuraciones especiales que usan HRM o este artículo
Los nombres de los benchmarks tienden a generar expectativas excesivas, y creo que eso se ve tanto en HRM como en este trabajo
No hace falta analizar con tanto detalle el texto sobre HRM, y TRM tiene una estructura más disentangled frente a HRM, así que hacer ablations es mucho más fácil
Creo que el verdadero valor del blog de análisis de HRM de arcprize está en resaltar la importancia de las pruebas de ablation
ARC-AGI fue diseñado como un desafío para todo tipo de modelos
Se asumía que hacía falta una capacidad de razonamiento al nivel de un modelo de lenguaje grande como un LLM para resolverlo, pero parece que eso fue un malentendido
Quisiera preguntar si la diferencia está en que HRM y TRM fueron entrenados de forma especializada con pequeños datasets de muestras de ARC-AGI, mientras que los LLM no
O me gustaría saber qué diferencia se quiere destacar
Más que un “Transformer base”, es una “arquitectura similar a un Transformer con estructura recurrente”
Sigue siendo un tema experimental interesante
Sin duda tiene ventajas, pero no creo que realmente sea un Transformer mejor
Me parece que está recibiendo más atención de la que amerita por ahora
Al ver esto, una vez más me vino a la mente la analogía entre los filtros Finite Impulse Response (FIR) (LLM convencionales) y los filtros Infinite Impulse Response (IIR) (modelos recursivos)
No es una analogía brillante ni especialmente original, pero en FIR se necesitan muchos más coeficientes que en IIR para obtener características de corte similares
Por ejemplo, se puede convertir un IIR en un FIR con el método de window design method, y en ese caso la estructura recursiva se despliega y se detiene a una profundidad finita
De forma parecida, si se desenrolla TRM, queda como una estructura repetida de bloques attention+ff en una arquitectura LLM tradicional, salvo por la ausencia de feedback global
Además, a diferencia de un IIR real, TRM implementa un cutoff finito, así que estructuralmente parece más cercano a FIR/LLM
También sería interesante compararlo con una estructura desplegada de forma similar a TRM
Aunque tal vez sea una idea nacida de la falta de sueño
Parten de la observación de que la mayoría de las capas ocultas de los modelos secuenciales profundos convencionales convergen hacia algún punto fijo, y entonces buscan directamente ese punto fijo mediante root finding
Este enfoque es equivalente a ejecutar una red feedforward de profundidad infinita con pesos compartidos, y además permite backpropagation mediante diferenciación implícita
(enlace al artículo en arXiv)
Lo interesante de los modelos de equilibrio profundo es que una sola capa puede volverse equivalente a una red profunda con múltiples capas apiladas
Solo hace falta recurrencia
Ajustan por sí mismos el número de iteraciones según la dificultad de la tarea
Implementé HRM con fines educativos y obtuve buen rendimiento en pathfinding
Después hice experimentos de ablation y llegué a la misma conclusión que el equipo de ARC-AGI, es decir, que la arquitectura de HRM en sí aporta poco
Es un poco decepcionante
Creo que hay algo de potencial en el razonamiento en espacio latente
Repositorio de implementación
La replicación y compartir la experiencia son realmente importantes
Me pregunto si los resultados revelados en este artículo de arXiv realmente escalan
Si esto también funciona en aplicaciones reales, sin duda sería revolucionario
Por otro lado, si ese fuera el caso, también da pie a imaginar de forma curiosa que las inversiones astronómicas actuales en infraestructura de centros de datos para IA podrían volverse irrelevantes de un momento a otro
(aunque claro, no duraría mucho)
Cuando se habla de HRM, hay que revisar sí o sí el análisis de HRM de arcprize
Este artículo parece una versión simplificada de HRM, y da la impresión de que también tomó como referencia justo el estudio de ablation de ese análisis
También es importante que HRM no es una arquitectura de uso amplio como un transformer LLM general
Aún no hay evidencia de que HRM haya funcionado en tareas generales de IA generativa
Estoy leyendo el artículo, pero parece que esta estructura también encaja en tareas similares a las de HRM, como razonamiento espacial tipo ARC-AGI, y que todavía hace falta integrarla en una arquitectura más general
Creo que aquí aplica la paradoja de Jevons
Si baja el costo de la IA o de la electricidad, la demanda sube aún más
Suena bastante plausible esa idea de que la burbuja de la IA colapse porque la tecnología de IA se vuelve tan buena que la eficiencia sube de forma extrema
Sobre la idea de que la inversión en infraestructura de centros de datos para IA podría volverse irrelevante
El cómputo en GPU no se usa solo para inferencia de texto, y en particular parece difícil que la demanda de generación de video se sature pronto, incluso si hay avances importantes
Si realmente se lograran resultados así, la industria adoptaría este enfoque casi de inmediato para entrenar modelos todavía más grandes y potentes
“TRM con 7M de parámetros obtiene 45% de precisión de prueba en ARC-AGI-1 y 8% en ARC-AGI-2, superando a la mayoría de los LLM como Deepseek R1, o3-mini y Gemini 2.5 Pro, con menos de 0.01% de los parámetros”
Realmente es impresionante
Por cierto, estructuralmente se siente parecido a la Hierarchical Temporal Memory que propuso Jeff Hawkins en “On Intelligence”
(aunque claro, sin la característica de sparsity, pero con elementos jerárquicos y temporales similares)
Wiki de HTM, Numenta
Resumen
Hierarchical Reasoning Model (HRM) es un enfoque novedoso en el que dos redes neuronales pequeñas se ejecutan recursivamente a distintos ritmos
Está inspirado en la biología y, con un modelo pequeño (27M de parámetros) y datos pequeños y escasos (alrededor de 1000 ejemplos), supera a LLM grandes en rompecabezas difíciles como Sudoku, Maze y ARC-AGI
Aún no es una arquitectura completamente comprendida y puede que su rendimiento no sea óptimo
Nosotros proponemos una forma de razonamiento recursivo mucho más simple, TRM (Tiny Recursive Model), y este modelo muestra una capacidad de generalización muy superior a la de HRM con una pequeña red de 2 capas
Con solo 7M de parámetros, supera a LLM grandes (45% de precisión de prueba en ARC-AGI-1 y 8% en ARC-AGI-2, con menos de 0.01% de los parámetros)
Aun así, me da curiosidad porque parece que podría haber alguna limitación oculta
Es interesante ver que el efecto de la recurrencia da buenos resultados en problemas ARC
Si te interesa la recurrencia, también vale la pena revisar estos artículos que aplican este modelo a otros problemas
En general me gusta la familia transformer RNN
En esencia, es una estructura donde un EBM aprende un paisaje de energía y es arrastrado hacia la solución
Se siente como resolver problemas discretos de una forma gradualmente convexa
Me hace pensar en neural cellular automata, flow matching/diffusion y cosas similares
Este enfoque también parece prometedor para problemas de control
La idea sería seguir moviéndose por el espacio de estados y elegir solo acciones válidas en cada etapa
Me da la impresión de que esto es esencialmente lo mismo que un Chain-of-Thought (CoT) en neuralese
z/z_Lse describe explícitamente como un reasoning embedding, y su papel es refinar gradualmente el embedding de salida (z_H/y) mientras cambia o se mantiene a lo largo del proceso recursivo¿No sería entonces una verdadera cadena de razonamiento o CoT en neuralese?