- Una guía que explica visualmente cómo funcionan los modelos de lenguaje grandes como GPT-2, nano-gpt y GPT-3
- Índice: introducción y conocimientos previos, embeddings, normalización de capa, self-attention, proyección, MLP, transformer, Softmax, salida
Resumen de toda la introducción
- En el caso de
nano-gpt, tiene 85,000 parámetros
- El objetivo es ordenar alfabéticamente una cadena dada de seis letras
- Se puede usar como ejemplo el proceso de tomar la cadena
C B A B B C y ordenarla como ABBBCC.
- A cada letra de la cadena se le llama un
token, y el vocabulario del modelo está compuesto por varios tokens
- A cada token se le asigna un índice numérico, y eso se introduce en el modelo
- Cada número se convierte en un vector de 48 elementos, lo que se llama un
embedding
- Los embeddings pasan por una serie de capas llamadas
transformer.
- Finalmente, el modelo predice la probabilidad del siguiente token de la secuencia dada
- El token predicho se vuelve a introducir en la parte superior del modelo y todo el proceso se repite
1 comentarios
Opiniones de Hacker News
Es una herramienta muy útil para entender los LLM a un nivel fundamental
model.pyde minGPT.Sorprende ver la complejidad algorítmica representada claramente en un espacio 3D
Esta visualización es realmente asombrosa
Es el tipo de visualización que llevaba meses buscando
Hasta podría titularse "diseccionando la magia en multiplicación de matrices y producto punto"
El modelo 3D es sorprendente desde el punto de vista educativo
Sorprende aún más cómo los LLM logran funcionar tan bien
A menudo falta una explicación sobre el poder de la self-attention
En el hilo de Twitter del autor se comparte más contexto sobre este trabajo
Si quieres una versión de baja dimensionalidad para tu propio modelo, recomiendan la biblioteca Netron
No es solo un modelo 3D simple, sino un trabajo profundo
Esta visualización es realmente asombrosa
Esta es la razón por la que amo Hacker News