2 puntos por GN⁺ 2024-02-05 | 1 comentarios | Compartir por WhatsApp

Introducción

  • Este texto explora cómo los modelos de lenguaje pequeños predicen el siguiente token.
  • En lugar de centrarse en el mecanismo de autoatención (self-attention) de los modelos transformer, ofrece una explicación de cómo el resultado del cálculo de atención se convierte en una predicción precisa del siguiente token.
  • El autor examina los estados internos a través de un transformer pequeño funcional y comparte hallazgos valiosos tras una exploración profunda de 6 meses.

Estructura del bloque transformer

  • Un bloque transformer está compuesto por una capa de autoatención multi-cabeza y una red feedforward.
  • La salida de la red feedforward es el factor principal que determina cómo el bloque transforma la entrada en salida.

Propuesta: cómo funciona el transformer

  • Cada bloque transformer aprende pesos que asocian un prompt dado con clases de cadenas dentro de los datos de entrenamiento.
  • La distribución de los tokens que siguen a esa clase de cadenas coincide aproximadamente con lo que el bloque produce como predicción del siguiente token.

Implementación: aproximación de la salida del transformer usando la salida de la red feedforward

  • El autor presenta un procedimiento concreto para aproximar la salida del transformer usando la salida de la red feedforward.
  • Este procedimiento comienza ejecutando el prompt a través del modelo y guardando la salida de la red feedforward para cada bloque.
  • Luego se buscan cadenas en los datos de entrenamiento que generen salidas similares de la red feedforward, y se construye la distribución de frecuencia de los tokens que siguen a esas cadenas.
  • Esas distribuciones se suman aplicando pesos y luego se normalizan para obtener la distribución de probabilidad final.

Opinión de GN⁺

  • Esta investigación ofrece una comprensión profunda del funcionamiento interno de los modelos transformer. En particular, la visión sobre el proceso posterior a la autoatención es importante para entender el mecanismo de predicción de estos modelos.
  • El enfoque del autor brinda una explicación clara de cómo los transformers reconocen patrones en los datos de entrenamiento y, con base en ellos, predicen el siguiente token.
  • Este texto puede ser un recurso útil para quienes investigan o desarrollan modelos transformer, y contribuirá a profundizar la comprensión del campo del procesamiento de lenguaje con inteligencia artificial.

1 comentarios

 
GN⁺ 2024-02-05
Comentarios de Hacker News
  • No hay que sorprenderse por fenómenos nuevos. Si no se leen teorías ya establecidas, uno puede confundirse con fenómenos que surgen de manera natural.

    • El experimento parece minucioso, y la atención a los detalles es impresionante.
    • Es importante el equilibrio entre aprender teorías existentes y redescubrir una teoría desde cero.
    • Que el modelo maximice la log-verosimilitud con base en los datos de entrenamiento es un resultado natural.
    • Entender los fundamentos es importante, y la teoría de la entropía de Shannon puede ser un buen punto de partida.
  • Reacción positiva ante el hecho de que alguien haya implementado en la práctica lo que Google señaló sobre que, si se hace que ChatGPT repita la misma palabra, termina escupiendo los datos de entrenamiento tal cual.

    • Esto plantea preguntas adicionales:
      1. ¿El enfoque de 'IA sin IA' es más eficiente energéticamente que los métodos existentes de compresión de modelos?
      2. ¿Este resultado podría usarse como evidencia en las demandas contra OpenAI y Stability AI?
  • Expresa sorpresa ante el fenómeno de que la atención (Attention) y las redes FF (Feed Forward) apunten en la misma dirección.

    • Aunque la red FF podría hacer una rotación arbitraria, no esperaba que estuviera en el mismo espacio latente a través de varias capas.
  • Al entrenar un modelo pequeño siguiendo el tutorial NanoGPT de Andrej Karpathy, parece haber comprendido hasta cierto punto la compleja gramática rusa.

    • El modelo no es perfecto, pero pudo inferir reglas complejas con apenas un tercio del entrenamiento.
  • Pregunta si un LLM es un generador de texto basado en cadenas de Márkov.

    • Si es así, plantea la duda de si sería posible construir una cadena de Márkov con rendimiento similar usando los datos de entrenamiento originales.
  • El modelo estudiado es, en realidad, un simple modelo de juguete, y podría aproximarse incluso con un modelo más sencillo.

    • Sin embargo, puede que este modelo no represente cómo funcionan los LLM más grandes.
  • Es difícil entender con precisión lo que sostiene el autor.

    • Leyó varias veces la sección "por qué funciona la aproximación", pero le pareció solo una explicación paso a paso del transformer.
  • La visualización en 3D del sistema LLM es útil y conviene verla junto con la lectura para sacar el máximo provecho.

  • Una publicación extraña sobre lo que realmente hacen los transformers.

    • Si sigues el código, puedes ver con exactitud qué hace el transformer.