3 puntos por GN⁺ 2025-10-10 | 1 comentarios | Compartir por WhatsApp
  • Tiny Recursion Model (TRM) logra un alto rendimiento incluso con una red neuronal pequeña de alrededor de 7M parámetros: 45% en ARC-AGI-1 y 8% en ARC-AGI-2
  • Demuestra que es posible resolver problemas difíciles aplicando un método de razonamiento recursivo incluso sin usar un modelo de lenguaje grande
  • Este modelo simplifica la estructura compleja del Hierarchical Reasoning Model (HRM) existente y deja solo el proceso central de razonamiento recursivo
  • Sin depender del cerebro humano, teoremas matemáticos complejos ni estructuras jerárquicas, TRM mejora de forma continua la calidad de las respuestas con un modelo pequeño y eficiente
  • Este artículo subraya que, para resolver problemas difíciles, un enfoque nuevo es más importante que el tamaño del modelo

Resumen general

  • Este artículo propone un nuevo modelo de razonamiento recursivo llamado Tiny Recursion Model (TRM)
  • Aunque TRM es una red neuronal compuesta por apenas 7M parámetros, registra una precisión significativa de 45% en ARC-AGI-1 y 8% en ARC-AGI-2
  • El modelo muestra experimentalmente que no hace falta un modelo grande entrenado por grandes empresas con cientos de millones de dólares para resolver problemas complejos; un razonamiento recursivo eficiente puede ser suficiente
  • Actualmente existe una atención excesiva en la industria hacia el uso de los LLM, pero TRM sugiere que una nueva dirección en razonamiento y aprendizaje es importante

Diferencias frente a trabajos previos

  • El Hierarchical Reasoning Model (HRM) anterior dependía en gran medida de lógica biológica, estructuras jerárquicas complejas y teoremas matemáticos (como los teoremas de punto fijo)
  • TRM elimina esa complejidad y deja únicamente el mecanismo central simplificado de razonamiento recursivo, haciendo que tanto el diseño como la implementación sean más intuitivos y simples
  • La clave está en que, incluso sin la estructura del cerebro humano ni un trasfondo teórico, mejora de manera continua la precisión de las respuestas mediante un proceso recursivo de autoiteración

Cómo funciona TRM

  • Comienza incrustando la pregunta de entrada x, la respuesta inicial y y el estado oculto z
  • Durante un máximo de K pasos de mejora, se repiten las dos etapas siguientes:
    • i) A partir de la pregunta actual x, la respuesta y y el estado oculto z, se actualiza repetidamente el valor oculto z n veces (razonamiento recursivo)
    • ii) A partir de la respuesta actual y y el nuevo estado oculto z, se vuelve a actualizar la respuesta y para obtener una mejor respuesta
  • Este proceso de iteración recursiva mejora continuamente la calidad de las respuestas sin aumentar los parámetros del modelo, y además reduce el riesgo de overfitting

Conclusión

  • La investigación sobre TRM demuestra que el tamaño del modelo no es necesariamente un factor indispensable para el éxito
  • Los experimentos muestran que, solo con el principio de razonamiento recursivo, una red neuronal pequeña puede lograr resultados cercanos a los de modelos grandes
  • Subraya la importancia de desarrollar direcciones nuevas, eficientes y creativas para la investigación futura en inteligencia artificial
  • Se puede consultar más detalle en el artículo

1 comentarios

 
GN⁺ 2025-10-10
Comentarios en Hacker News
  • Recomiendo mucho que todo el mundo lea con atención la entrada del blog de los organizadores de ARC-AGI sobre HRM
    Con las mismas condiciones de aumento de datos y test time training, parece que incluso un Transformer base logra resultados casi cercanos a los “grandes resultados” reportados para HRM
    Este artículo también parece compararse en ARC-AGI bajo condiciones similares
    Yo también quisiera obtener un gran desempeño de razonamiento con modelos más pequeños
    Pero primero hay que entender qué evalúa ARC-AGI, cuál es la configuración típica usada para comparar LLM comerciales entre sí, y cuáles son las configuraciones especiales que usan HRM o este artículo
    Los nombres de los benchmarks tienden a generar expectativas excesivas, y creo que eso se ve tanto en HRM como en este trabajo

    • El artículo de TRM ya trata esa entrada del blog
      No hace falta analizar con tanto detalle el texto sobre HRM, y TRM tiene una estructura más disentangled frente a HRM, así que hacer ablations es mucho más fácil
      Creo que el verdadero valor del blog de análisis de HRM de arcprize está en resaltar la importancia de las pruebas de ablation
      ARC-AGI fue diseñado como un desafío para todo tipo de modelos
      Se asumía que hacía falta una capacidad de razonamiento al nivel de un modelo de lenguaje grande como un LLM para resolverlo, pero parece que eso fue un malentendido
      Quisiera preguntar si la diferencia está en que HRM y TRM fueron entrenados de forma especializada con pequeños datasets de muestras de ARC-AGI, mientras que los LLM no
      O me gustaría saber qué diferencia se quiere destacar
  • Más que un “Transformer base”, es una “arquitectura similar a un Transformer con estructura recurrente”
    Sigue siendo un tema experimental interesante
    Sin duda tiene ventajas, pero no creo que realmente sea un Transformer mejor
    Me parece que está recibiendo más atención de la que amerita por ahora

  • Al ver esto, una vez más me vino a la mente la analogía entre los filtros Finite Impulse Response (FIR) (LLM convencionales) y los filtros Infinite Impulse Response (IIR) (modelos recursivos)
    No es una analogía brillante ni especialmente original, pero en FIR se necesitan muchos más coeficientes que en IIR para obtener características de corte similares
    Por ejemplo, se puede convertir un IIR en un FIR con el método de window design method, y en ese caso la estructura recursiva se despliega y se detiene a una profundidad finita
    De forma parecida, si se desenrolla TRM, queda como una estructura repetida de bloques attention+ff en una arquitectura LLM tradicional, salvo por la ausencia de feedback global
    Además, a diferencia de un IIR real, TRM implementa un cutoff finito, así que estructuralmente parece más cercano a FIR/LLM
    También sería interesante compararlo con una estructura desplegada de forma similar a TRM
    Aunque tal vez sea una idea nacida de la falta de sueño

    • Quisiera presentar los Deep Equilibrium Models
      Parten de la observación de que la mayoría de las capas ocultas de los modelos secuenciales profundos convencionales convergen hacia algún punto fijo, y entonces buscan directamente ese punto fijo mediante root finding
      Este enfoque es equivalente a ejecutar una red feedforward de profundidad infinita con pesos compartidos, y además permite backpropagation mediante diferenciación implícita
      (enlace al artículo en arXiv)
      Lo interesante de los modelos de equilibrio profundo es que una sola capa puede volverse equivalente a una red profunda con múltiples capas apiladas
      Solo hace falta recurrencia
      Ajustan por sí mismos el número de iteraciones según la dificultad de la tarea
  • Implementé HRM con fines educativos y obtuve buen rendimiento en pathfinding
    Después hice experimentos de ablation y llegué a la misma conclusión que el equipo de ARC-AGI, es decir, que la arquitectura de HRM en sí aporta poco
    Es un poco decepcionante
    Creo que hay algo de potencial en el razonamiento en espacio latente
    Repositorio de implementación

    • Me parece un gran trabajo, gracias por organizarlo y compartirlo
      La replicación y compartir la experiencia son realmente importantes
  • Me pregunto si los resultados revelados en este artículo de arXiv realmente escalan
    Si esto también funciona en aplicaciones reales, sin duda sería revolucionario
    Por otro lado, si ese fuera el caso, también da pie a imaginar de forma curiosa que las inversiones astronómicas actuales en infraestructura de centros de datos para IA podrían volverse irrelevantes de un momento a otro
    (aunque claro, no duraría mucho)

    • Cuando se habla de HRM, hay que revisar sí o sí el análisis de HRM de arcprize
      Este artículo parece una versión simplificada de HRM, y da la impresión de que también tomó como referencia justo el estudio de ablation de ese análisis
      También es importante que HRM no es una arquitectura de uso amplio como un transformer LLM general
      Aún no hay evidencia de que HRM haya funcionado en tareas generales de IA generativa
      Estoy leyendo el artículo, pero parece que esta estructura también encaja en tareas similares a las de HRM, como razonamiento espacial tipo ARC-AGI, y que todavía hace falta integrarla en una arquitectura más general

    • Creo que aquí aplica la paradoja de Jevons
      Si baja el costo de la IA o de la electricidad, la demanda sube aún más

    • Suena bastante plausible esa idea de que la burbuja de la IA colapse porque la tecnología de IA se vuelve tan buena que la eficiencia sube de forma extrema

    • Sobre la idea de que la inversión en infraestructura de centros de datos para IA podría volverse irrelevante
      El cómputo en GPU no se usa solo para inferencia de texto, y en particular parece difícil que la demanda de generación de video se sature pronto, incluso si hay avances importantes

    • Si realmente se lograran resultados así, la industria adoptaría este enfoque casi de inmediato para entrenar modelos todavía más grandes y potentes

  • “TRM con 7M de parámetros obtiene 45% de precisión de prueba en ARC-AGI-1 y 8% en ARC-AGI-2, superando a la mayoría de los LLM como Deepseek R1, o3-mini y Gemini 2.5 Pro, con menos de 0.01% de los parámetros”
    Realmente es impresionante
    Por cierto, estructuralmente se siente parecido a la Hierarchical Temporal Memory que propuso Jeff Hawkins en “On Intelligence”
    (aunque claro, sin la característica de sparsity, pero con elementos jerárquicos y temporales similares)
    Wiki de HTM, Numenta

    • Pienso que la falta de sparsity podría ser el talón de Aquiles del enfoque actual de los LLM
  • Resumen
    Hierarchical Reasoning Model (HRM) es un enfoque novedoso en el que dos redes neuronales pequeñas se ejecutan recursivamente a distintos ritmos
    Está inspirado en la biología y, con un modelo pequeño (27M de parámetros) y datos pequeños y escasos (alrededor de 1000 ejemplos), supera a LLM grandes en rompecabezas difíciles como Sudoku, Maze y ARC-AGI
    Aún no es una arquitectura completamente comprendida y puede que su rendimiento no sea óptimo
    Nosotros proponemos una forma de razonamiento recursivo mucho más simple, TRM (Tiny Recursive Model), y este modelo muestra una capacidad de generalización muy superior a la de HRM con una pequeña red de 2 capas
    Con solo 7M de parámetros, supera a LLM grandes (45% de precisión de prueba en ARC-AGI-1 y 8% en ARC-AGI-2, con menos de 0.01% de los parámetros)

    • El resultado de superar a LLM grandes con solo 7M de parámetros es bastante atractivo
      Aun así, me da curiosidad porque parece que podría haber alguna limitación oculta
  • Es interesante ver que el efecto de la recurrencia da buenos resultados en problemas ARC
    Si te interesa la recurrencia, también vale la pena revisar estos artículos que aplican este modelo a otros problemas

  • En general me gusta la familia transformer RNN
    En esencia, es una estructura donde un EBM aprende un paisaje de energía y es arrastrado hacia la solución
    Se siente como resolver problemas discretos de una forma gradualmente convexa
    Me hace pensar en neural cellular automata, flow matching/diffusion y cosas similares
    Este enfoque también parece prometedor para problemas de control
    La idea sería seguir moviéndose por el espacio de estados y elegir solo acciones válidas en cada etapa

  • Me da la impresión de que esto es esencialmente lo mismo que un Chain-of-Thought (CoT) en neuralese
    z/z_L se describe explícitamente como un reasoning embedding, y su papel es refinar gradualmente el embedding de salida (z_H/y) mientras cambia o se mantiene a lo largo del proceso recursivo
    ¿No sería entonces una verdadera cadena de razonamiento o CoT en neuralese?