4 puntos por devworld 2026-01-07 | 3 comentarios | Compartir por WhatsApp

Hola, este es mi primer paper en arXiv, realizado como investigación independiente en la preparatoria.

Paper | Code

Idea principal:
Es ineficiente que un LLM use el mismo cómputo para entradas fáciles y difíciles, así que usamos la reconstruction loss de la capa TTT como señal para decidir entre UPDATE/SKIP.
Sin entrenamiento adicional, solo con threshold + EMA, logramos entre 82% y 89% del rendimiento del Oracle.

Está implementado en JAX/Flax y actualmente estamos validando el escalado con Gemma 3.

¡Los comentarios son bienvenidos!

3 comentarios

 
jhk0530 2026-01-07

Eres estudiante de secundaria; impresionante. ¿Cómo resolviste el tema del garante?

 
devworld 2026-01-07

¡Lo conseguí enviando muchísimos correos en frío a doctores y profesores en el extranjero que habían avanzado primero con la investigación!

 
jhk0530 2026-01-07

Ah, qué respuesta tan acertada.