Qwen2-72B llega al primer lugar del leaderboard al duplicar 7 capas intermedias, sin tocar ni un solo peso
(dnhkng.github.io)El desarrollador David Noel Ng logró el primer lugar en el HuggingFace Open LLM Leaderboard 2024 con un método muy simple: hacer que el modelo vuelva a pasar solo por un bloque de 7 capas intermedias de Qwen2-72B, sin pesos adicionales ni fine-tuning.
Puntos clave
-
En Qwen2-72B (80 capas en total), el modelo se modificó para volver a pasar una vez más por una sección intermedia específica (capas 45 a 51, 7 capas)
→ Los parámetros aumentan de 72B a aprox. 78B, pero se agregan 0 pesos nuevos -
Resultados en benchmarks
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- Hubo mejora en 5 de 6 benchmarks principales → primer lugar en el leaderboard por puntaje promedio
¿Por qué funcionó?
- La hipótesis de que dentro de los modelos transformer existen "circuitos" diferenciados por función (LLM Neuroanatomy)
- Capas iniciales: codificación de entrada
- Capas intermedias: la parte donde ocurre el razonamiento real y el "pensamiento" (con circuitos específicos para matemáticas, comprensión emocional, etc.)
- Capas finales: decodificación de salida
→ Si se vuelve a ejecutar el circuito de razonamiento intermedio, esa función se refuerza
Método del experimento
Se evaluaron exhaustivamente 3,241 combinaciones de rangos de capas con 2 RTX 4090 → análisis con mapa de calor (heatmap)
→ Se descubrió un patrón donde el rendimiento sube de forma abrupta cuando solo se repite cierto rango (45~52)
Insights adicionales
- Repetir una sola capa → baja el rendimiento
- Repetir un bloque de varias capas → refuerza funciones específicas
- Más adelante, modelos basados en esta idea (RYS-XLarge → calme-3.2, entre otros) también llegaron a los primeros puestos del leaderboard a inicios de 2026
Conclusión
Los LLM no son simplemente una pila de capas, sino que tienen circuitos funcionalmente diferenciados, como un cerebro.
Este hallazgo muestra que, con solo identificar esos circuitos y hacerlos pasar de nuevo, se puede aumentar mucho el rendimiento sin tocar los pesos.
1 comentarios
Si esto sigue así, podría ampliarse de forma aún más extrema la diferencia de rendimiento entre los modelos pequeños y los grandes.