- Un caso que logró el primer lugar del leaderboard replicando y recombinando las 7 capas intermedias de un LLM gigante de 72B parámetros, sin ningún entrenamiento
- El experimento se realizó con dos RTX 4090, cambiando solo la estructura para ejecutar repetidamente capas intermedias, sin modificar los pesos del modelo
- Se exploró el rango óptimo de capas mediante dos tareas proxy pequeñas: razonamiento matemático e inferencia emocional (EQ)
- Como resultado, el modelo RYS-XLarge basado en Qwen2-72B mejoró en promedio +2.61%, con avances destacados de +17.72% en MuSR y +8.16% en MATH
- Este enfoque muestra la posible existencia de “circuitos funcionales” dentro de los LLM, y abre la puerta al estudio de la “neuroanatomía” de modelos a gran escala
Open LLM Leaderboard y contexto del experimento
- A mediados de 2024, el Open LLM Leaderboard de HuggingFace era un campo de competencia entre modelos con pesos abiertos
- Métricas de evaluación: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- El autor realizó el experimento sin entrenar un modelo nuevo ni hacer fine-tuning, replicando parte de las capas intermedias de un modelo existente
- Se estima que las capas replicadas corresponden a la parte encargada del proceso de “pensamiento” del modelo
Pista 1 – Experimento de conversación en Base64
- Se observó que el LLM entiende preguntas codificadas en Base64 y devuelve respuestas correctas también en Base64
- A partir de que el modelo puede razonar incluso si cambia el formato de entrada, se propuso la hipótesis de que las capas iniciales se encargan de la interpretación de entrada (translation) y las capas finales de la transformación de salida (re-translation)
- Con ello surgió la posibilidad de que las capas intermedias sean la zona donde ocurre el pensamiento abstracto
Pista 2 – La estructura inusual del modelo Goliath-120B
- El Goliath-120B de HuggingFace tiene una estructura que intercala dos modelos Llama-2 70B, realimentando la salida de capas posteriores hacia la entrada de capas anteriores
- Se confirmó que el modelo funciona aunque su estructura se sale de la distribución de entrenamiento normal
- Esto sugiere que las representaciones entre capas son mutuamente compatibles y que las representaciones internas del Transformer son homogéneas
Construcción del “escáner cerebral”
- Se construyó un pipeline para probar todas las combinaciones de rangos de capas (i, j) del modelo Qwen2-72B, un total de 3,241
- En cada combinación, el modelo se reconfiguraba para que cierto rango de capas se recorriera dos veces
- Los criterios de evaluación debían cumplir tres condiciones
- Salida mínima (para asegurar velocidad)
- Posibilidad de calificación objetiva
- Independencia cognitiva (si ambas tareas mejoran al mismo tiempo, se considera una mejora estructural)
Diseño de las tareas proxy
- Hard Math Probe: estimar directamente la respuesta correcta de problemas aritméticos complejos
- EQ-Bench Probe: predecir de 0 a 100 la intensidad emocional en situaciones sociales
- Ambas tareas ofrecen salidas cortas y respuestas claras, por lo que son adecuadas para medir cambios estructurales
Función de evaluación matemática y puntaje de respuestas parciales
- Considerando errores numéricos del LLM como omisión de dígitos o transposiciones, se desarrolló una función para calcular puntajes de coincidencia parcial
- Se rellenaban las respuestas cortas y se calculaba el error relativo para convertir la exactitud en un puntaje continuo
- Esto permitió distinguir cuantitativamente diferencias finas de desempeño
Configuración del modelo RYS-XLarge
- La combinación óptima fue (45, 52), repitiendo una vez más las capas 45 a 51
- Como resultado, se replicaron 7 capas intermedias, y el total de parámetros pasó de 72B a 78B
- Sin cambiar los pesos, solo modificando la estructura, se implementó mediante replicación de punteros, sin uso adicional de VRAM
Resultados en el leaderboard
| Ítem |
Puntaje |
Mejora frente a la referencia |
| Promedio |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
- Hubo mejora en 5 métricas, y alcanzó el primer lugar del leaderboard por puntaje promedio
- Como no se usaron los ítems del leaderboard durante el desarrollo, se considera un efecto puro de generalización estructural
Descubrimiento de “circuitos funcionales” en el Transformer
- Repetir una sola capa no tuvo efecto, pero el desempeño mejoró solo al repetir bloques continuos de capas
- Esto implica que las capas intermedias no operan como iteraciones independientes, sino como un circuito multietapa de operaciones
- Ejemplo: las capas 46 a 52 ejecutan razonamiento por etapas como si siguieran una sola “receta”
- Repetir el bloque completo produce el efecto de realizar el razonamiento una vez más
Análisis de heatmap y “neuroanatomía de los LLM”
- El heatmap que visualiza el desempeño de cada combinación (i, j) muestra patrones parecidos a una fMRI
- En la tarea matemática hubo mejora al repetir capas intermedias, mientras que en la tarea EQ la mejora apareció en otras regiones
- Esto sugiere la existencia de circuitos funcionales específicos por tarea dentro del Transformer
Efectos secundarios de una replicación incorrecta
- Algunas combinaciones llevaron al modelo a mostrar repetición anormal del lenguaje y salidas delirantes
- Esto se interpreta como resultado de expandir en exceso ciertos circuitos, y se compara con una “lesión cerebral artificial”
- Ejemplo: al dañarse el circuito de adecuación social, aparecen patrones de conversación anómalos
Investigación posterior y modelos derivados
- A partir de RYS-XLarge, varios investigadores añadieron fine-tuning y entrenamiento ORPO
- A inicios de 2026, los 4 modelos mejor posicionados del leaderboard eran todos modelos 78B basados en la estructura RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, etc.
Escalado estructural y significado
- La replicación de capas es independiente del fine-tuning y puede combinarse con él
- Es un método para cambiar no lo que el modelo “sabe”, sino “cómo piensa”
- Cuanto más grande es el modelo, más diferenciadas están sus áreas funcionales y más efectiva resulta la replicación a nivel de circuitos
- En modelos pequeños, las funciones de codificación, razonamiento y decodificación están entremezcladas, por lo que el mismo efecto es limitado
Planes futuros
- La misma técnica se está aplicando a modelos recientes como Qwen, MiniMax y GLM
- Se confirmó que cada modelo tiene su propia “estructura neuroanatómica”
- Más adelante se planea publicar el código y distribuir más modelos de la serie RYS
- El autor lo expresa así: “ahora estamos diseccionando cerebros artificiales en lugar de cerebros de ratón”
Conclusión
- Un experimento que mejoró el rendimiento de un LLM solo replicando capas, sin cambiar los pesos
- Demuestra empíricamente que dentro del Transformer existen circuitos funcionales y diferenciación estructural
- Esto propone una nueva dirección para la interpretabilidad mecanicista (mechanistic interpretability) y la expansión eficiente de arquitecturas
1 comentarios
Comentarios en Hacker News
Sorprende lo desbalanceado que está el número de comentarios respecto a los puntos
El artículo tiene muchísimo contenido y me impresionó lo bien que explica cosas técnicas de forma que una persona común pueda entenderlas
En especial, creo que la parte clave es: “el simple hecho de que Goliath haya funcionado ya es sorprendente”. Me pregunto por qué más investigadores no le prestaron atención
También me pareció interesante cómo el autor pasó de investigar cerebros en biotecnología a terminar trabajando con IA en un sótano lleno de GPU(?)
Así como los kernels de las primeras capas de una CNN convergen a filtros de Gabor, creo que las capas internas de un LLM también convergen por optimizaciones matemáticas universales como eficiencia energética, compresión de información y optimización de entropía
Me gustó mucho que mostrara el proceso de descubrimiento con tanto detalle. El proceso es más interesante que el resultado
En particular, me impresionó la parte de anidar razonamiento abstracto para mejorar el rendimiento, y la visualización de distribuciones de probabilidad con heatmaps
Los artículos relacionados también lo están alcanzando poco a poco
Aun así, creo que modelos como SOLAR al final se toparán con un límite. Si ves el heatmap, la pila transformer empieza con pesos aleatorios y durante el entrenamiento poco a poco se convierte en una estructura especializada, como de “órganos”
Órganos como “token-to-thought” y “thought-to-token” deberían existir solo una vez. Al final, creo que una estructura especializada siempre va a ganar
Coincido con eso de que “es sorprendente que Goliath haya funcionado”
Antes ya había experimentos que combinaban varios modelos, pero la mayoría se quedaba en el nivel de experimentos comunitarios en Reddit o Discord. Investigadores académicos o de empresas no les prestaban mucha atención
Aun así, me da curiosidad si también funcionaría mezclar capas de modelos completamente distintos como Llama y Qwen
También es interesante por qué los LLM cometen errores raros en problemas aritméticos, como saltarse el último dígito o cambiar el orden. Me gustaría probar si forzar un parsing gramatical lo mejora
Me parece fascinante la idea de que podría haber una lingua franca cognitiva escondida dentro de los LLM
Tal vez se podría aprovechar para crear un banco de conocimiento enchufable.
Si se hiciera un modelo liviano al que solo se le conecte el conocimiento necesario, podría mantenerse actualizado sin reentrenarlo por completo
Lo que dijo el autor sobre el razonamiento en espacio latente (latent space reasoning) me impresionó mucho
Sorprende que simplemente duplicando capas el aprendizaje pueda propagarse por backpropagation.
También me da curiosidad cómo cambiaría el rendimiento si se hiciera un loop con las capas duplicadas. Comparándolo con un modelo MoE, tal vez se podría ver si cada capa funciona como un experto independiente
Aun así, fue interesante experimentar con duplicar varias veces capas en distintos segmentos y predecir la combinación con un metamodelo basado en XGBoost. También funciona bien con MoE
Aunque a mi esposa no le encanta que desperdicie el tiempo(?) así
El concepto de “cirugía cerebral” en los LLM es fascinante. Cuando llama.cpp empezó a soportar modelos de visión, probé poner en cero parte de los embeddings generados por el projector y luego hacer que el LLM describiera la imagen
Como resultado, inventaba personas o fondos que en realidad no existían, y salieron cosas sorprendentes.
Algún día me gustaría experimentar de forma sistemática la correlación entre dimensiones vectoriales y significado
Yo también tenía una intuición parecida sobre el uso de capas intermedias.
Ordené mis ideas después de ver este video de YouTube, y llegué a la conclusión de que, cuanto más se hace loop de las capas, menos necesario es que su orden esté fijado
Si durante la repetición se pudieran saltar las capas innecesarias y repetir solo las necesarias, al final eso podría llevar a un modelo MOE de una sola capa.
También sería posible algo como una perilla de intensidad de razonamiento para ajustar “qué tan profundo pensar”
Aun así, sería interesante probar cómo cambia el rendimiento al aleatorizar el orden de llamada de los bloques transformer
Al leer el artículo, conecté con la estructura geométrica del conocimiento.
Siento que la forma de pensar de los generalistas, moviéndose entre muchos campos, refleja este tipo de estructura neuronal.
Me alegró el día
Me parece interesante que solo funcionen unos 7 bloques de capas, y que con más o menos ya no funcione
Eso sugiere que dentro del transformer existen unidades funcionales (“órganos”) que todavía no entendemos bien
Me pregunto si la misma “magia de las 7 capas” aparece también en otras arquitecturas además de Qwen, como Llama o Mistral
Esta idea me hace pensar en dos preguntas
Si el modelo tolera tan bien estas modificaciones internas de capas, no hace falta pasar todos los tokens por todas las capas
Si se construyera un modelo que ajuste el número de repeticiones según la dificultad del problema, podría razonar rápido en problemas fáciles y más a fondo en los difíciles
Durante el entrenamiento también se podría hacer que prediga su propia confianza (confidence) para decidir si necesita cómputo adicional o no