- Modelo de lenguaje grande basado en GPT: se presenta brevemente cómo funciona nano-gpt
- Este modelo tiene como objetivo recibir una secuencia de 6 caracteres y ordenarla en orden alfabético
- Cada carácter se considera un token, y todos los tokens tienen un índice de token único
- Cada índice de token se convierte en un vector de embedding de 48 dimensiones y pasa por una serie de capas transformer
- El modelo predice el siguiente token, y el resultado puede reutilizarse de forma iterativa para hacer evolucionar la secuencia de entrada
Introducción al modelo de lenguaje GPT
- Este documento es un material que explica visualmente cómo funciona un modelo de lenguaje grande GPT
- Aquí se utiliza un modelo muy pequeño llamado nano-gpt (aproximadamente 85,000 parámetros)
- El objetivo del modelo es recibir una secuencia de 6 caracteres y ordenarla alfabéticamente (por ejemplo, "ABBBCC")
Tokens y vocabulario
- Cada carácter se define como un token, y al conjunto de todos los tokens que el modelo reconoce se le llama vocabulario
- En la tabla, a cada token se le asigna un número único (índice de token)
- La secuencia numérica de esos índices de token se usa como entrada del modelo
Transformación de entrada y embeddings
- En la visualización 3D, las celdas verdes representan los números que se están procesando, y las celdas azules representan los pesos del modelo
- Cada número de entrada se convierte en un vector de embedding de 48 dimensiones
- Estos embeddings pasan secuencialmente por varias capas transformer dentro de la arquitectura del modelo
Salida y proceso de predicción
- La salida del modelo se muestra como la probabilidad del siguiente token predicho para esa secuencia
- En la sexta posición de entrada, predice la distribución de probabilidad de que el siguiente token sea 'A', 'B' o 'C'
- En el ejemplo, el modelo predice que 'A' es la opción más probable
- Al volver a introducir este resultado como entrada y repetir el proceso, se genera la secuencia completa
1 comentarios
Opiniones en Hacker News
LLM Visualization - diciembre de 2023, 131 comentarios
https://poloclub.github.io/transformer-explainer/
Y también recomiendan el famoso recurso visual "The Illustrated Transformer"
https://jalammar.github.io/illustrated-transformer/
También hay una publicación de Sebastian Raschka, PhD, sobre la arquitectura
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
En este comentario de Hacker News se pueden ver varios recursos de una sola vez
https://news.ycombinator.com/item?id=35712334
https://alphacode.deepmind.com/
(si estás en móvil, solo dale play, haz zoom out hasta el final y luego desplázate hacia abajo)