1 puntos por GN⁺ 2024-10-09 | 1 comentarios | Compartir por WhatsApp
  • Los Transformer a menudo tienden a asignar demasiada atención a contextos no relacionados.

  • Diff Transformer propone un nuevo enfoque que amplifica la atención sobre el contexto relevante y elimina el ruido.

  • Mecanismo de atención diferencial

    • Calcula las puntuaciones de atención mediante la diferencia entre dos mapas de atención softmax separados.
    • Esta resta elimina el ruido y promueve la aparición de patrones de atención dispersos.
  • Resultados experimentales

    • En experimentos de modelado de lenguaje, Diff Transformer mostró un rendimiento superior al de Transformer en varios tamaños de modelo y configuraciones de tokens de entrenamiento.
    • En aplicaciones prácticas, ofrece ventajas notables en modelado de contexto largo, recuperación de información clave, mitigación de alucinaciones, aprendizaje en contexto y reducción de valores atípicos de activación.
  • Ventajas prácticas

    • Al verse menos afectado por contextos no relacionados, puede mitigar las alucinaciones en preguntas y respuestas y en el resumen de texto.
    • Además de mejorar la precisión en el aprendizaje en contexto, también aumenta la robustez frente a cambios de orden.
  • Conclusión

    • Diff Transformer se perfila como una arquitectura muy efectiva y prometedora para avanzar en los modelos de lenguaje grandes.

Resumen de GN⁺

  • Diff Transformer es una nueva arquitectura propuesta para superar las limitaciones de Transformer, enfocada en amplificar la atención sobre el contexto relevante y eliminar el ruido innecesario.
  • Este estudio destaca mejoras en el rendimiento de los modelos de lenguaje grandes, especialmente sus ventajas en aplicaciones prácticas como el modelado de contexto largo.
  • Contribuye a mitigar las alucinaciones al verse menos afectado por contextos no relacionados, y a aumentar la precisión y la robustez del aprendizaje en contexto.

1 comentarios

 
GN⁺ 2024-10-09
Comentarios de Hacker News
  • Al mecanismo de atención softmax típico le cuesta asignar pesos de atención cercanos a 0 a información no relacionada. El nuevo método resuelve esto, pero también podría generar pesos de atención negativos. Es difícil entender cómo la red resuelve eso

  • Este tipo de trabajo detallado resulta muy interesante. El cambio es pequeño, así que otras personas pueden aplicarlo fácilmente. Sin embargo, la última oración de la sección "2 Differential Transformer" no es clara, lo que podría afectar la comparación

  • En este nuevo mundo del machine learning, confunde por qué este tipo de método funciona. La analogía con los audífonos con cancelación de ruido ayuda, pero aquí no se puede distinguir claramente entre señal y ruido

  • Differential attention elimina el ruido de atención usando la diferencia entre dos funciones de atención softmax. Esta arquitectura usa el doble de memoria de atención para lograr un modelo de mayor calidad, o usa menos parámetros con una calidad similar

    • Un DIFF Transformer de tamaño 6.8B logra una pérdida de validación similar a la de un Transformer de 11B, y solo necesita 62.2% de los parámetros
    • Me pregunto si con solo 60% de los parámetros se puede mantener un perfil de memoria similar al de un transformer tradicional
    • Me pregunto si este trade-off cambia de forma notable entre entrenamiento e inferencia
  • Si los dos grupos de atención aprenden lo mismo, sus máscaras de atención se restan entre sí, la atención cae a 0 y la pérdida aumenta. Para reducir la pérdida, tienen que aprender cosas distintas. Un grupo aprende la estrategia de enfocarse en el contexto relevante y el otro en el contexto no relevante

  • La configuración λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) funciona bien de manera empírica. Me da curiosidad el trasfondo de esta fórmula

  • Me pregunto cuánto valor tiene eliminar el ruido posicional. Me gustaría ver una tabla comparando la versión alibi con la línea base alibi. Felicidades a los investigadores

  • Me pregunto qué se pierde aquí. También me pregunto qué impacto tiene sobre la creatividad o la capacidad de interpolar entre conceptos. Siento que las alucinaciones y la creatividad están muy relacionadas

  • Resolver el problema está bien, pero creo que el enfoque es equivocado. Habría que captar todo el contexto de forma jerárquica. Si se calcula un vector de diferencia con la misma entrada que el vector de atención, no se puede saber cómo corregir correctamente el vector de atención

  • Me pregunto si, aunque softmax no puede empujar los valores a 0, al restar dos mapas softmax sí se puede producir una salida de 0