Qwen2-72B llega al primer lugar del leaderboard al duplicar 7 capas intermedias, sin tocar ni un solo peso
(dnhkng.github.io)El desarrollador David Noel Ng logró el primer lugar en el HuggingFace Open LLM Leaderboard 2024 con un método muy simple: hacer que el modelo vuelva a pasar solo por un bloque de 7 capas intermedias de Qwen2-72B, sin pesos adicionales ni fine-tuning.
Puntos clave
-
En Qwen2-72B (80 capas en total), el modelo se modificó para volver a pasar una vez más por una sección intermedia específica (capas 45 a 51, 7 capas)
→ Los parámetros aumentan de 72B a aprox. 78B, pero se agregan 0 pesos nuevos -
Resultados en benchmarks
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- Hubo mejora en 5 de 6 benchmarks principales → primer lugar en el leaderboard por puntaje promedio
¿Por qué funcionó?
- La hipótesis de que dentro de los modelos transformer existen "circuitos" diferenciados por función (LLM Neuroanatomy)
- Capas iniciales: codificación de entrada
- Capas intermedias: la parte donde ocurre el razonamiento real y el "pensamiento" (con circuitos específicos para matemáticas, comprensión emocional, etc.)
- Capas finales: decodificación de salida
→ Si se vuelve a ejecutar el circuito de razonamiento intermedio, esa función se refuerza
Método del experimento
Se evaluaron exhaustivamente 3,241 combinaciones de rangos de capas con 2 RTX 4090 → análisis con mapa de calor (heatmap)
→ Se descubrió un patrón donde el rendimiento sube de forma abrupta cuando solo se repite cierto rango (45~52)
Insights adicionales
- Repetir una sola capa → baja el rendimiento
- Repetir un bloque de varias capas → refuerza funciones específicas
- Más adelante, modelos basados en esta idea (RYS-XLarge → calme-3.2, entre otros) también llegaron a los primeros puestos del leaderboard a inicios de 2026
Conclusión
Los LLM no son simplemente una pila de capas, sino que tienen circuitos funcionalmente diferenciados, como un cerebro.
Este hallazgo muestra que, con solo identificar esos circuitos y hacerlos pasar de nuevo, se puede aumentar mucho el rendimiento sin tocar los pesos.
1 comentarios
> Los modelos pequeños parecen ser más complejos. Las funciones de codificación, razonamiento y decodificación están entrelazadas de forma más compleja y dispersas por toda la red. No encontré ninguna zona de superposición funcional que se generalizara a través de múltiples tareas, pero sí quedó claro que reforzar una “capacidad” puede debilitar otra. Sin embargo, a medida que el modelo crece, su estructura funcional se separa más. Los modelos grandes tienen más “espacio” para desarrollar circuitos de “pensamiento” generalizados, y esa podría ser la razón por la que mi método fue tan efectivo en el modelo de 72B. Por debajo de cierto umbral de parámetros, la “corteza de razonamiento” no se diferencia por completo del resto del cerebro.
Si esto sigue así, podría ampliarse de forma aún más extrema la diferencia de rendimiento entre los modelos pequeños y los grandes.