Introducción
- Este texto explora cómo los modelos de lenguaje pequeños predicen el siguiente token.
- En lugar de centrarse en el mecanismo de autoatención (
self-attention) de los modelos transformer, ofrece una explicación de cómo el resultado del cálculo de atención se convierte en una predicción precisa del siguiente token.
- El autor examina los estados internos a través de un transformer pequeño funcional y comparte hallazgos valiosos tras una exploración profunda de 6 meses.
Estructura del bloque transformer
- Un bloque transformer está compuesto por una capa de autoatención multi-cabeza y una red feedforward.
- La salida de la red feedforward es el factor principal que determina cómo el bloque transforma la entrada en salida.
Propuesta: cómo funciona el transformer
- Cada bloque transformer aprende pesos que asocian un prompt dado con clases de cadenas dentro de los datos de entrenamiento.
- La distribución de los tokens que siguen a esa clase de cadenas coincide aproximadamente con lo que el bloque produce como predicción del siguiente token.
Implementación: aproximación de la salida del transformer usando la salida de la red feedforward
- El autor presenta un procedimiento concreto para aproximar la salida del transformer usando la salida de la red feedforward.
- Este procedimiento comienza ejecutando el prompt a través del modelo y guardando la salida de la red feedforward para cada bloque.
- Luego se buscan cadenas en los datos de entrenamiento que generen salidas similares de la red feedforward, y se construye la distribución de frecuencia de los tokens que siguen a esas cadenas.
- Esas distribuciones se suman aplicando pesos y luego se normalizan para obtener la distribución de probabilidad final.
Opinión de GN⁺
- Esta investigación ofrece una comprensión profunda del funcionamiento interno de los modelos transformer. En particular, la visión sobre el proceso posterior a la autoatención es importante para entender el mecanismo de predicción de estos modelos.
- El enfoque del autor brinda una explicación clara de cómo los transformers reconocen patrones en los datos de entrenamiento y, con base en ellos, predicen el siguiente token.
- Este texto puede ser un recurso útil para quienes investigan o desarrollan modelos transformer, y contribuirá a profundizar la comprensión del campo del procesamiento de lenguaje con inteligencia artificial.
1 comentarios
Comentarios de Hacker News
No hay que sorprenderse por fenómenos nuevos. Si no se leen teorías ya establecidas, uno puede confundirse con fenómenos que surgen de manera natural.
Reacción positiva ante el hecho de que alguien haya implementado en la práctica lo que Google señaló sobre que, si se hace que ChatGPT repita la misma palabra, termina escupiendo los datos de entrenamiento tal cual.
Expresa sorpresa ante el fenómeno de que la atención (Attention) y las redes FF (Feed Forward) apunten en la misma dirección.
Al entrenar un modelo pequeño siguiendo el tutorial NanoGPT de Andrej Karpathy, parece haber comprendido hasta cierto punto la compleja gramática rusa.
Pregunta si un LLM es un generador de texto basado en cadenas de Márkov.
El modelo estudiado es, en realidad, un simple modelo de juguete, y podría aproximarse incluso con un modelo más sencillo.
Es difícil entender con precisión lo que sostiene el autor.
La visualización en 3D del sistema LLM es útil y conviene verla junto con la lectura para sacar el máximo provecho.
Una publicación extraña sobre lo que realmente hacen los transformers.