1 puntos por GN⁺ 2026-03-11 | 1 comentarios | Compartir por WhatsApp
  • Un caso que logró el primer lugar del leaderboard replicando y recombinando las 7 capas intermedias de un LLM gigante de 72B parámetros, sin ningún entrenamiento
  • El experimento se realizó con dos RTX 4090, cambiando solo la estructura para ejecutar repetidamente capas intermedias, sin modificar los pesos del modelo
  • Se exploró el rango óptimo de capas mediante dos tareas proxy pequeñas: razonamiento matemático e inferencia emocional (EQ)
  • Como resultado, el modelo RYS-XLarge basado en Qwen2-72B mejoró en promedio +2.61%, con avances destacados de +17.72% en MuSR y +8.16% en MATH
  • Este enfoque muestra la posible existencia de “circuitos funcionales” dentro de los LLM, y abre la puerta al estudio de la “neuroanatomía” de modelos a gran escala

Open LLM Leaderboard y contexto del experimento

  • A mediados de 2024, el Open LLM Leaderboard de HuggingFace era un campo de competencia entre modelos con pesos abiertos
    • Métricas de evaluación: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
  • El autor realizó el experimento sin entrenar un modelo nuevo ni hacer fine-tuning, replicando parte de las capas intermedias de un modelo existente
  • Se estima que las capas replicadas corresponden a la parte encargada del proceso de “pensamiento” del modelo

Pista 1 – Experimento de conversación en Base64

  • Se observó que el LLM entiende preguntas codificadas en Base64 y devuelve respuestas correctas también en Base64
  • A partir de que el modelo puede razonar incluso si cambia el formato de entrada, se propuso la hipótesis de que las capas iniciales se encargan de la interpretación de entrada (translation) y las capas finales de la transformación de salida (re-translation)
  • Con ello surgió la posibilidad de que las capas intermedias sean la zona donde ocurre el pensamiento abstracto

Pista 2 – La estructura inusual del modelo Goliath-120B

  • El Goliath-120B de HuggingFace tiene una estructura que intercala dos modelos Llama-2 70B, realimentando la salida de capas posteriores hacia la entrada de capas anteriores
  • Se confirmó que el modelo funciona aunque su estructura se sale de la distribución de entrenamiento normal
  • Esto sugiere que las representaciones entre capas son mutuamente compatibles y que las representaciones internas del Transformer son homogéneas

Construcción del “escáner cerebral”

  • Se construyó un pipeline para probar todas las combinaciones de rangos de capas (i, j) del modelo Qwen2-72B, un total de 3,241
  • En cada combinación, el modelo se reconfiguraba para que cierto rango de capas se recorriera dos veces
  • Los criterios de evaluación debían cumplir tres condiciones
    • Salida mínima (para asegurar velocidad)
    • Posibilidad de calificación objetiva
    • Independencia cognitiva (si ambas tareas mejoran al mismo tiempo, se considera una mejora estructural)

Diseño de las tareas proxy

  • Hard Math Probe: estimar directamente la respuesta correcta de problemas aritméticos complejos
  • EQ-Bench Probe: predecir de 0 a 100 la intensidad emocional en situaciones sociales
  • Ambas tareas ofrecen salidas cortas y respuestas claras, por lo que son adecuadas para medir cambios estructurales

Función de evaluación matemática y puntaje de respuestas parciales

  • Considerando errores numéricos del LLM como omisión de dígitos o transposiciones, se desarrolló una función para calcular puntajes de coincidencia parcial
  • Se rellenaban las respuestas cortas y se calculaba el error relativo para convertir la exactitud en un puntaje continuo
  • Esto permitió distinguir cuantitativamente diferencias finas de desempeño

Configuración del modelo RYS-XLarge

  • La combinación óptima fue (45, 52), repitiendo una vez más las capas 45 a 51
  • Como resultado, se replicaron 7 capas intermedias, y el total de parámetros pasó de 72B a 78B
  • Sin cambiar los pesos, solo modificando la estructura, se implementó mediante replicación de punteros, sin uso adicional de VRAM

Resultados en el leaderboard

Ítem Puntaje Mejora frente a la referencia
Promedio 44.75 +2.61%
MATH Lvl 5 38.97 +8.16%
MuSR 23.72 +17.72%
BBH +2.51%
GPQA +2.58%
IFEval -2.05%
  • Hubo mejora en 5 métricas, y alcanzó el primer lugar del leaderboard por puntaje promedio
  • Como no se usaron los ítems del leaderboard durante el desarrollo, se considera un efecto puro de generalización estructural

Descubrimiento de “circuitos funcionales” en el Transformer

  • Repetir una sola capa no tuvo efecto, pero el desempeño mejoró solo al repetir bloques continuos de capas
  • Esto implica que las capas intermedias no operan como iteraciones independientes, sino como un circuito multietapa de operaciones
  • Ejemplo: las capas 46 a 52 ejecutan razonamiento por etapas como si siguieran una sola “receta”
    • Repetir el bloque completo produce el efecto de realizar el razonamiento una vez más

Análisis de heatmap y “neuroanatomía de los LLM”

  • El heatmap que visualiza el desempeño de cada combinación (i, j) muestra patrones parecidos a una fMRI
  • En la tarea matemática hubo mejora al repetir capas intermedias, mientras que en la tarea EQ la mejora apareció en otras regiones
  • Esto sugiere la existencia de circuitos funcionales específicos por tarea dentro del Transformer

Efectos secundarios de una replicación incorrecta

  • Algunas combinaciones llevaron al modelo a mostrar repetición anormal del lenguaje y salidas delirantes
  • Esto se interpreta como resultado de expandir en exceso ciertos circuitos, y se compara con una “lesión cerebral artificial”
  • Ejemplo: al dañarse el circuito de adecuación social, aparecen patrones de conversación anómalos

Investigación posterior y modelos derivados

  • A partir de RYS-XLarge, varios investigadores añadieron fine-tuning y entrenamiento ORPO
  • A inicios de 2026, los 4 modelos mejor posicionados del leaderboard eran todos modelos 78B basados en la estructura RYS
    • calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, etc.

Escalado estructural y significado

  • La replicación de capas es independiente del fine-tuning y puede combinarse con él
  • Es un método para cambiar no lo que el modelo “sabe”, sino “cómo piensa”
  • Cuanto más grande es el modelo, más diferenciadas están sus áreas funcionales y más efectiva resulta la replicación a nivel de circuitos
  • En modelos pequeños, las funciones de codificación, razonamiento y decodificación están entremezcladas, por lo que el mismo efecto es limitado

Planes futuros

  • La misma técnica se está aplicando a modelos recientes como Qwen, MiniMax y GLM
  • Se confirmó que cada modelo tiene su propia “estructura neuroanatómica”
  • Más adelante se planea publicar el código y distribuir más modelos de la serie RYS
  • El autor lo expresa así: “ahora estamos diseccionando cerebros artificiales en lugar de cerebros de ratón”

Conclusión

  • Un experimento que mejoró el rendimiento de un LLM solo replicando capas, sin cambiar los pesos
  • Demuestra empíricamente que dentro del Transformer existen circuitos funcionales y diferenciación estructural
  • Esto propone una nueva dirección para la interpretabilidad mecanicista (mechanistic interpretability) y la expansión eficiente de arquitecturas

1 comentarios

 
GN⁺ 2026-03-11
Comentarios en Hacker News
  • Sorprende lo desbalanceado que está el número de comentarios respecto a los puntos
    El artículo tiene muchísimo contenido y me impresionó lo bien que explica cosas técnicas de forma que una persona común pueda entenderlas
    En especial, creo que la parte clave es: “el simple hecho de que Goliath haya funcionado ya es sorprendente”. Me pregunto por qué más investigadores no le prestaron atención
    También me pareció interesante cómo el autor pasó de investigar cerebros en biotecnología a terminar trabajando con IA en un sótano lleno de GPU(?)

    • También planeo subir al blog proyectos anteriores de optogenetics y CRISPR/Cas9
      1. Otros artículos (como Solar10.7B) intentaron cosas parecidas, pero se confirmó experimentalmente que duplicar toda la pila transformer no es una buena idea. Es como duplicar “órganos”, así que la eficiencia baja
      2. Disfrutaba la investigación en biología, pero la revisión por pares y las solicitudes de financiamiento no iban conmigo. Por eso empecé el blog como investigador independiente. Ojalá algún día alguien lo cite
    • La analogía de poner el cerebro de un gato en la cabeza de un perro fue divertida. En realidad, no me parece tan sorprendente
      Así como los kernels de las primeras capas de una CNN convergen a filtros de Gabor, creo que las capas internas de un LLM también convergen por optimizaciones matemáticas universales como eficiencia energética, compresión de información y optimización de entropía
  • Me gustó mucho que mostrara el proceso de descubrimiento con tanto detalle. El proceso es más interesante que el resultado
    En particular, me impresionó la parte de anidar razonamiento abstracto para mejorar el rendimiento, y la visualización de distribuciones de probabilidad con heatmaps
    Los artículos relacionados también lo están alcanzando poco a poco

    • SOLAR / DUS (Kim et al., 2023): duplicó capas transformer para crear un modelo de 10.7B, y rindió mejor que un modelo de 30B
    • The Curse of Depth (2025): explica que la estructura Pre-LN hace que las capas profundas converjan hacia una identity function, mientras que las capas intermedias se encargan del cálculo real
    • Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): propone un enfoque para ampliar la profundidad de razonamiento reutilizando repetidamente un solo bloque recurrente
    • ¡Gracias por el elogio!
      Aun así, creo que modelos como SOLAR al final se toparán con un límite. Si ves el heatmap, la pila transformer empieza con pesos aleatorios y durante el entrenamiento poco a poco se convierte en una estructura especializada, como de “órganos”
      Órganos como “token-to-thought” y “thought-to-token” deberían existir solo una vez. Al final, creo que una estructura especializada siempre va a ganar
  • Coincido con eso de que “es sorprendente que Goliath haya funcionado”
    Antes ya había experimentos que combinaban varios modelos, pero la mayoría se quedaba en el nivel de experimentos comunitarios en Reddit o Discord. Investigadores académicos o de empresas no les prestaban mucha atención
    Aun así, me da curiosidad si también funcionaría mezclar capas de modelos completamente distintos como Llama y Qwen
    También es interesante por qué los LLM cometen errores raros en problemas aritméticos, como saltarse el último dígito o cambiar el orden. Me gustaría probar si forzar un parsing gramatical lo mejora

    • Mezclar modelos distintos parece difícil por el tamaño de embedding o las diferencias de vocabulario. Incluso con la misma arquitectura, si los datos de entrenamiento cambian, las representaciones internas podrían ser diferentes. Aun así, sería divertido probarlo
    • Este tipo de tema es ideal para investigadores aficionados, porque las empresas están enfocadas en hacer fine-tuning de los modelos existentes
    • Los números de varios dígitos son complejos porque hay muchas combinaciones posibles de tokens. El código del blog ayuda a extraer métricas útiles a partir de respuestas parcialmente correctas
  • Me parece fascinante la idea de que podría haber una lingua franca cognitiva escondida dentro de los LLM
    Tal vez se podría aprovechar para crear un banco de conocimiento enchufable.
    Si se hiciera un modelo liviano al que solo se le conecte el conocimiento necesario, podría mantenerse actualizado sin reentrenarlo por completo

    • Me dio risa lo de “enchufar un banco de conocimiento” — LLM: “...ahora sé kung fu”
    • Los LLM del futuro podrían tener una estructura donde capas estandarizadas de codificación/decodificación se conecten a capas lógicas
    • Una arquitectura así también podría reducir las alucinaciones (hallucination)
    • En realidad, me pregunto si este enfoque no se parece bastante a lo que ya hace LoRA
  • Lo que dijo el autor sobre el razonamiento en espacio latente (latent space reasoning) me impresionó mucho
    Sorprende que simplemente duplicando capas el aprendizaje pueda propagarse por backpropagation.
    También me da curiosidad cómo cambiaría el rendimiento si se hiciera un loop con las capas duplicadas. Comparándolo con un modelo MoE, tal vez se podría ver si cada capa funciona como un experto independiente

    • Probé duplicar capas individuales, pero no hubo mucho efecto. Más bien, la retroalimentación salida→entrada casi siempre resulta perjudicial
      Aun así, fue interesante experimentar con duplicar varias veces capas en distintos segmentos y predecir la combinación con un metamodelo basado en XGBoost. También funciona bien con MoE
      Aunque a mi esposa no le encanta que desperdicie el tiempo(?) así
    • LoopLM parece tratar una idea parecida
  • El concepto de “cirugía cerebral” en los LLM es fascinante. Cuando llama.cpp empezó a soportar modelos de visión, probé poner en cero parte de los embeddings generados por el projector y luego hacer que el LLM describiera la imagen
    Como resultado, inventaba personas o fondos que en realidad no existían, y salieron cosas sorprendentes.
    Algún día me gustaría experimentar de forma sistemática la correlación entre dimensiones vectoriales y significado

    • Este es un gran momento para vivir como hacker
  • Yo también tenía una intuición parecida sobre el uso de capas intermedias.
    Ordené mis ideas después de ver este video de YouTube, y llegué a la conclusión de que, cuanto más se hace loop de las capas, menos necesario es que su orden esté fijado
    Si durante la repetición se pudieran saltar las capas innecesarias y repetir solo las necesarias, al final eso podría llevar a un modelo MOE de una sola capa.
    También sería posible algo como una perilla de intensidad de razonamiento para ajustar “qué tan profundo pensar”

    • Es una idea interesante. Pero si el orden de las capas se vuelve completamente aleatorio, podría aparecer un problema de explosión combinatoria
      Aun así, sería interesante probar cómo cambia el rendimiento al aleatorizar el orden de llamada de los bloques transformer
  • Al leer el artículo, conecté con la estructura geométrica del conocimiento.
    Siento que la forma de pensar de los generalistas, moviéndose entre muchos campos, refleja este tipo de estructura neuronal.
    Me alegró el día

    • Gracias
  • Me parece interesante que solo funcionen unos 7 bloques de capas, y que con más o menos ya no funcione
    Eso sugiere que dentro del transformer existen unidades funcionales (“órganos”) que todavía no entendemos bien
    Me pregunto si la misma “magia de las 7 capas” aparece también en otras arquitecturas además de Qwen, como Llama o Mistral

  • Esta idea me hace pensar en dos preguntas

    1. ¿Habría que entrenar el modelo desde el inicio con esta estructura de loop?
    2. ¿Tiene sentido usar un número fijo de capas?
      Si el modelo tolera tan bien estas modificaciones internas de capas, no hace falta pasar todos los tokens por todas las capas
      Si se construyera un modelo que ajuste el número de repeticiones según la dificultad del problema, podría razonar rápido en problemas fáciles y más a fondo en los difíciles
      Durante el entrenamiento también se podría hacer que prediga su propia confianza (confidence) para decidir si necesita cómputo adicional o no