PonderTTT - Asignación adaptativa de cómputo basada en TTT
(ponderttt.worldsw.dev)Hola, este es mi primer paper en arXiv, realizado como investigación independiente en la preparatoria.
Idea principal:
Es ineficiente que un LLM use el mismo cómputo para entradas fáciles y difíciles, así que usamos la reconstruction loss de la capa TTT como señal para decidir entre UPDATE/SKIP.
Sin entrenamiento adicional, solo con threshold + EMA, logramos entre 82% y 89% del rendimiento del Oracle.
Está implementado en JAX/Flax y actualmente estamos validando el escalado con Gemma 3.
¡Los comentarios son bienvenidos!
3 comentarios
Eres estudiante de secundaria; impresionante. ¿Cómo resolviste el tema del garante?
¡Lo conseguí enviando muchísimos correos en frío a doctores y profesores en el extranjero que habían avanzado primero con la investigación!
Ah, qué respuesta tan acertada.