- La formulación de la atención en la IA moderna contiene un error de off-by-one que dificulta la compresión y el despliegue de modelos Transformer.
- Este error está relacionado con pesos atípicos dentro del modelo, y estos valores atípicos son mucho mayores que sus pares, lo que provoca degradación del rendimiento y dificultades para la cuantización.
- El bug está relacionado con la función softmax usada en el mecanismo de atención, y esta función no es adecuada para esta tarea.
- La solución propuesta consiste en hacer una pequeña modificación a la función softmax, agregando 1 al denominador para que la cabeza de atención "no diga nada" cuando no puede agregar información.
- Se espera que esta modificación, Softmax Super-Mod o QuietAttention, resuelva el bucle de retroalimentación de valores atípicos y mejore la cuantización.
- Para verificar la efectividad de esta solución mediante experimentos, se puede agregar como prefijo un vector cero al contexto de entrada y observar la curtosis de los pesos y la norma infinito de las activaciones.
- El autor invita a colaborar y experimentar para explorar y validar más esta solución.
1 comentarios
Opiniones en Hacker News