Cómo alcanzó el #1 en el Open LLM Leaderboard de HuggingFace: con dos GPU gamer y sin cambiar los pesos

(dnhkng.github.io)

1 puntos por GN⁺ 2026-03-11 | 1 comentarios | Compartir por WhatsApp

Un caso que logró el primer lugar del leaderboard replicando y recombinando las 7 capas intermedias de un LLM gigante de 72B parámetros, sin ningún entrenamiento
El experimento se realizó con dos RTX 4090, cambiando solo la estructura para ejecutar repetidamente capas intermedias, sin modificar los pesos del modelo
Se exploró el rango óptimo de capas mediante dos tareas proxy pequeñas: razonamiento matemático e inferencia emocional (EQ)
Como resultado, el modelo RYS-XLarge basado en Qwen2-72B mejoró en promedio +2.61%, con avances destacados de +17.72% en MuSR y +8.16% en MATH
Este enfoque muestra la posible existencia de “circuitos funcionales” dentro de los LLM, y abre la puerta al estudio de la “neuroanatomía” de modelos a gran escala

Open LLM Leaderboard y contexto del experimento

A mediados de 2024, el Open LLM Leaderboard de HuggingFace era un campo de competencia entre modelos con pesos abiertos
- Métricas de evaluación: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
El autor realizó el experimento sin entrenar un modelo nuevo ni hacer fine-tuning, replicando parte de las capas intermedias de un modelo existente
Se estima que las capas replicadas corresponden a la parte encargada del proceso de “pensamiento” del modelo

Pista 1 – Experimento de conversación en Base64

Se observó que el LLM entiende preguntas codificadas en Base64 y devuelve respuestas correctas también en Base64
A partir de que el modelo puede razonar incluso si cambia el formato de entrada, se propuso la hipótesis de que las capas iniciales se encargan de la interpretación de entrada (translation) y las capas finales de la transformación de salida (re-translation)
Con ello surgió la posibilidad de que las capas intermedias sean la zona donde ocurre el pensamiento abstracto

Pista 2 – La estructura inusual del modelo Goliath-120B

El Goliath-120B de HuggingFace tiene una estructura que intercala dos modelos Llama-2 70B, realimentando la salida de capas posteriores hacia la entrada de capas anteriores
Se confirmó que el modelo funciona aunque su estructura se sale de la distribución de entrenamiento normal
Esto sugiere que las representaciones entre capas son mutuamente compatibles y que las representaciones internas del Transformer son homogéneas

Construcción del “escáner cerebral”

Se construyó un pipeline para probar todas las combinaciones de rangos de capas (i, j) del modelo Qwen2-72B, un total de 3,241
En cada combinación, el modelo se reconfiguraba para que cierto rango de capas se recorriera dos veces
Los criterios de evaluación debían cumplir tres condiciones
- Salida mínima (para asegurar velocidad)
- Posibilidad de calificación objetiva
- Independencia cognitiva (si ambas tareas mejoran al mismo tiempo, se considera una mejora estructural)

Diseño de las tareas proxy

Hard Math Probe: estimar directamente la respuesta correcta de problemas aritméticos complejos
EQ-Bench Probe: predecir de 0 a 100 la intensidad emocional en situaciones sociales
Ambas tareas ofrecen salidas cortas y respuestas claras, por lo que son adecuadas para medir cambios estructurales

Función de evaluación matemática y puntaje de respuestas parciales

Considerando errores numéricos del LLM como omisión de dígitos o transposiciones, se desarrolló una función para calcular puntajes de coincidencia parcial
Se rellenaban las respuestas cortas y se calculaba el error relativo para convertir la exactitud en un puntaje continuo
Esto permitió distinguir cuantitativamente diferencias finas de desempeño

Configuración del modelo RYS-XLarge

La combinación óptima fue (45, 52), repitiendo una vez más las capas 45 a 51
Como resultado, se replicaron 7 capas intermedias, y el total de parámetros pasó de 72B a 78B
Sin cambiar los pesos, solo modificando la estructura, se implementó mediante replicación de punteros, sin uso adicional de VRAM

Resultados en el leaderboard

Ítem	Puntaje	Mejora frente a la referencia
Promedio	44.75	+2.61%
MATH Lvl 5	38.97	+8.16%
MuSR	23.72	+17.72%
BBH	+2.51%
GPQA	+2.58%
IFEval	-2.05%

Hubo mejora en 5 métricas, y alcanzó el primer lugar del leaderboard por puntaje promedio
Como no se usaron los ítems del leaderboard durante el desarrollo, se considera un efecto puro de generalización estructural

Descubrimiento de “circuitos funcionales” en el Transformer

Repetir una sola capa no tuvo efecto, pero el desempeño mejoró solo al repetir bloques continuos de capas
Esto implica que las capas intermedias no operan como iteraciones independientes, sino como un circuito multietapa de operaciones
Ejemplo: las capas 46 a 52 ejecutan razonamiento por etapas como si siguieran una sola “receta”
- Repetir el bloque completo produce el efecto de realizar el razonamiento una vez más

Análisis de heatmap y “neuroanatomía de los LLM”

El heatmap que visualiza el desempeño de cada combinación (i, j) muestra patrones parecidos a una fMRI
En la tarea matemática hubo mejora al repetir capas intermedias, mientras que en la tarea EQ la mejora apareció en otras regiones
Esto sugiere la existencia de circuitos funcionales específicos por tarea dentro del Transformer

Efectos secundarios de una replicación incorrecta

Algunas combinaciones llevaron al modelo a mostrar repetición anormal del lenguaje y salidas delirantes
Esto se interpreta como resultado de expandir en exceso ciertos circuitos, y se compara con una “lesión cerebral artificial”
Ejemplo: al dañarse el circuito de adecuación social, aparecen patrones de conversación anómalos

Investigación posterior y modelos derivados

A partir de RYS-XLarge, varios investigadores añadieron fine-tuning y entrenamiento ORPO
A inicios de 2026, los 4 modelos mejor posicionados del leaderboard eran todos modelos 78B basados en la estructura RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys, etc.

Escalado estructural y significado

La replicación de capas es independiente del fine-tuning y puede combinarse con él
Es un método para cambiar no lo que el modelo “sabe”, sino “cómo piensa”
Cuanto más grande es el modelo, más diferenciadas están sus áreas funcionales y más efectiva resulta la replicación a nivel de circuitos
En modelos pequeños, las funciones de codificación, razonamiento y decodificación están entremezcladas, por lo que el mismo efecto es limitado

Planes futuros

La misma técnica se está aplicando a modelos recientes como Qwen, MiniMax y GLM
Se confirmó que cada modelo tiene su propia “estructura neuroanatómica”
Más adelante se planea publicar el código y distribuir más modelos de la serie RYS
El autor lo expresa así: “ahora estamos diseccionando cerebros artificiales en lugar de cerebros de ratón”

Conclusión

Un experimento que mejoró el rendimiento de un LLM solo replicando capas, sin cambiar los pesos
Demuestra empíricamente que dentro del Transformer existen circuitos funcionales y diferenciación estructural
Esto propone una nueva dirección para la interpretabilidad mecanicista (mechanistic interpretability) y la expansión eficiente de arquitecturas

1 comentarios

GN⁺ 2026-03-11

Comentarios en Hacker News

Sorprende lo desbalanceado que está el número de comentarios respecto a los puntos
El artículo tiene muchísimo contenido y me impresionó lo bien que explica cosas técnicas de forma que una persona común pueda entenderlas
En especial, creo que la parte clave es: “el simple hecho de que Goliath haya funcionado ya es sorprendente”. Me pregunto por qué más investigadores no le prestaron atención
También me pareció interesante cómo el autor pasó de investigar cerebros en biotecnología a terminar trabajando con IA en un sótano lleno de GPU(?)
- También planeo subir al blog proyectos anteriores de optogenetics y CRISPR/Cas9
  1. Otros artículos (como Solar10.7B) intentaron cosas parecidas, pero se confirmó experimentalmente que duplicar toda la pila transformer no es una buena idea. Es como duplicar “órganos”, así que la eficiencia baja
  2. Disfrutaba la investigación en biología, pero la revisión por pares y las solicitudes de financiamiento no iban conmigo. Por eso empecé el blog como investigador independiente. Ojalá algún día alguien lo cite
- La analogía de poner el cerebro de un gato en la cabeza de un perro fue divertida. En realidad, no me parece tan sorprendente
  Así como los kernels de las primeras capas de una CNN convergen a filtros de Gabor, creo que las capas internas de un LLM también convergen por optimizaciones matemáticas universales como eficiencia energética, compresión de información y optimización de entropía
Me gustó mucho que mostrara el proceso de descubrimiento con tanto detalle. El proceso es más interesante que el resultado
En particular, me impresionó la parte de anidar razonamiento abstracto para mejorar el rendimiento, y la visualización de distribuciones de probabilidad con heatmaps
Los artículos relacionados también lo están alcanzando poco a poco
- SOLAR / DUS (Kim et al., 2023): duplicó capas transformer para crear un modelo de 10.7B, y rindió mejor que un modelo de 30B
- The Curse of Depth (2025): explica que la estructura Pre-LN hace que las capas profundas converjan hacia una identity function, mientras que las capas intermedias se encargan del cálculo real
- Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): propone un enfoque para ampliar la profundidad de razonamiento reutilizando repetidamente un solo bloque recurrente
- ¡Gracias por el elogio!
  Aun así, creo que modelos como SOLAR al final se toparán con un límite. Si ves el heatmap, la pila transformer empieza con pesos aleatorios y durante el entrenamiento poco a poco se convierte en una estructura especializada, como de “órganos”
  Órganos como “token-to-thought” y “thought-to-token” deberían existir solo una vez. Al final, creo que una estructura especializada siempre va a ganar
Coincido con eso de que “es sorprendente que Goliath haya funcionado”
Antes ya había experimentos que combinaban varios modelos, pero la mayoría se quedaba en el nivel de experimentos comunitarios en Reddit o Discord. Investigadores académicos o de empresas no les prestaban mucha atención
Aun así, me da curiosidad si también funcionaría mezclar capas de modelos completamente distintos como Llama y Qwen
También es interesante por qué los LLM cometen errores raros en problemas aritméticos, como saltarse el último dígito o cambiar el orden. Me gustaría probar si forzar un parsing gramatical lo mejora
- Mezclar modelos distintos parece difícil por el tamaño de embedding o las diferencias de vocabulario. Incluso con la misma arquitectura, si los datos de entrenamiento cambian, las representaciones internas podrían ser diferentes. Aun así, sería divertido probarlo
- Este tipo de tema es ideal para investigadores aficionados, porque las empresas están enfocadas en hacer fine-tuning de los modelos existentes
- Los números de varios dígitos son complejos porque hay muchas combinaciones posibles de tokens. El código del blog ayuda a extraer métricas útiles a partir de respuestas parcialmente correctas
Me parece fascinante la idea de que podría haber una lingua franca cognitiva escondida dentro de los LLM
Tal vez se podría aprovechar para crear un banco de conocimiento enchufable.
Si se hiciera un modelo liviano al que solo se le conecte el conocimiento necesario, podría mantenerse actualizado sin reentrenarlo por completo
- Me dio risa lo de “enchufar un banco de conocimiento” — LLM: “...ahora sé kung fu”
- Los LLM del futuro podrían tener una estructura donde capas estandarizadas de codificación/decodificación se conecten a capas lógicas
- Una arquitectura así también podría reducir las alucinaciones (hallucination)
- En realidad, me pregunto si este enfoque no se parece bastante a lo que ya hace LoRA
Lo que dijo el autor sobre el razonamiento en espacio latente (latent space reasoning) me impresionó mucho
Sorprende que simplemente duplicando capas el aprendizaje pueda propagarse por backpropagation.
También me da curiosidad cómo cambiaría el rendimiento si se hiciera un loop con las capas duplicadas. Comparándolo con un modelo MoE, tal vez se podría ver si cada capa funciona como un experto independiente
- Probé duplicar capas individuales, pero no hubo mucho efecto. Más bien, la retroalimentación salida→entrada casi siempre resulta perjudicial
  Aun así, fue interesante experimentar con duplicar varias veces capas en distintos segmentos y predecir la combinación con un metamodelo basado en XGBoost. También funciona bien con MoE
  Aunque a mi esposa no le encanta que desperdicie el tiempo(?) así
- LoopLM parece tratar una idea parecida
El concepto de “cirugía cerebral” en los LLM es fascinante. Cuando llama.cpp empezó a soportar modelos de visión, probé poner en cero parte de los embeddings generados por el projector y luego hacer que el LLM describiera la imagen
Como resultado, inventaba personas o fondos que en realidad no existían, y salieron cosas sorprendentes.
Algún día me gustaría experimentar de forma sistemática la correlación entre dimensiones vectoriales y significado
- Este es un gran momento para vivir como hacker
Yo también tenía una intuición parecida sobre el uso de capas intermedias.
Ordené mis ideas después de ver este video de YouTube, y llegué a la conclusión de que, cuanto más se hace loop de las capas, menos necesario es que su orden esté fijado
Si durante la repetición se pudieran saltar las capas innecesarias y repetir solo las necesarias, al final eso podría llevar a un modelo MOE de una sola capa.
También sería posible algo como una perilla de intensidad de razonamiento para ajustar “qué tan profundo pensar”
- Es una idea interesante. Pero si el orden de las capas se vuelve completamente aleatorio, podría aparecer un problema de explosión combinatoria
  Aun así, sería interesante probar cómo cambia el rendimiento al aleatorizar el orden de llamada de los bloques transformer
Al leer el artículo, conecté con la estructura geométrica del conocimiento.
Siento que la forma de pensar de los generalistas, moviéndose entre muchos campos, refleja este tipo de estructura neuronal.
Me alegró el día
- Gracias
Me parece interesante que solo funcionen unos 7 bloques de capas, y que con más o menos ya no funcione
Eso sugiere que dentro del transformer existen unidades funcionales (“órganos”) que todavía no entendemos bien
Me pregunto si la misma “magia de las 7 capas” aparece también en otras arquitecturas además de Qwen, como Llama o Mistral
Esta idea me hace pensar en dos preguntas
1. ¿Habría que entrenar el modelo desde el inicio con esta estructura de loop?
2. ¿Tiene sentido usar un número fijo de capas?
  Si el modelo tolera tan bien estas modificaciones internas de capas, no hace falta pasar todos los tokens por todas las capas
  Si se construyera un modelo que ajuste el número de repeticiones según la dificultad del problema, podría razonar rápido en problemas fáciles y más a fondo en los difíciles
  Durante el entrenamiento también se podría hacer que prediga su propia confianza (confidence) para decidir si necesita cómputo adicional o no

Cómo alcanzó el #1 en el Open LLM Leaderboard de HuggingFace: con dos GPU gamer y sin cambiar los pesos

Open LLM Leaderboard y contexto del experimento

Pista 1 – Experimento de conversación en Base64

Pista 2 – La estructura inusual del modelo Goliath-120B

Construcción del “escáner cerebral”

Diseño de las tareas proxy

Función de evaluación matemática y puntaje de respuestas parciales

Configuración del modelo RYS-XLarge

Resultados en el leaderboard

Descubrimiento de “circuitos funcionales” en el Transformer

Análisis de heatmap y “neuroanatomía de los LLM”

Efectos secundarios de una replicación incorrecta

Investigación posterior y modelos derivados

Escalado estructural y significado

Planes futuros

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News