1 puntos por GN⁺ 2023-07-25 | 1 comentarios | Compartir por WhatsApp
  • La formulación de la atención en la IA moderna contiene un error de off-by-one que dificulta la compresión y el despliegue de modelos Transformer.
  • Este error está relacionado con pesos atípicos dentro del modelo, y estos valores atípicos son mucho mayores que sus pares, lo que provoca degradación del rendimiento y dificultades para la cuantización.
  • El bug está relacionado con la función softmax usada en el mecanismo de atención, y esta función no es adecuada para esta tarea.
  • La solución propuesta consiste en hacer una pequeña modificación a la función softmax, agregando 1 al denominador para que la cabeza de atención "no diga nada" cuando no puede agregar información.
  • Se espera que esta modificación, Softmax Super-Mod o QuietAttention, resuelva el bucle de retroalimentación de valores atípicos y mejore la cuantización.
  • Para verificar la efectividad de esta solución mediante experimentos, se puede agregar como prefijo un vector cero al contexto de entrada y observar la curtosis de los pesos y la norma infinito de las activaciones.
  • El autor invita a colaborar y experimentar para explorar y validar más esta solución.

1 comentarios

 
GN⁺ 2023-07-25
Opiniones en Hacker News
  • El autor propone sumar 1 al denominador del softmax.
  • Este cambio permite que la red asigne pesos altos o bajos para poder no elegir una alta confianza sobre algo.
  • Algunos comentaristas dudan de la importancia de este cambio y sugieren que ya se han usado trucos similares antes.
  • Otros elogian el tono no académico del artículo y la disposición a explorar ideas nuevas.
  • Un comentarista comparte una experiencia personal en la que detectó un error en un algoritmo popular que al principio fue ignorado por otras personas.
  • Otro comentarista elogia que el autor haya identificado un problema real y propuesto una solución simple.
  • Sin embargo, le piden al autor que aporte más evidencia y explicación sobre la afirmación de que esta solución resolvería los bucles de retroalimentación de valores atípicos.
  • Algunos comentaristas sugieren que se necesitan experimentos adicionales y más ajuste fino para validar la solución propuesta.
  • Un comentarista menciona un artículo de 2020 y propone otra fórmula de atención que podría resolver problemas de cuantización.
  • Se mencionó que este método de sumar 1 al denominador se usaba con frecuencia antes de que el uso de tokens dummy se volviera común.
  • Algunos comentaristas critican el tono del autor y expresan sorpresa por la falta de reconocimiento de esta técnica en la comunidad de investigación.