Visualización de LLM

(bbycroft.net)

43 puntos por GN⁺ 2025-09-05 | 1 comentarios | Compartir por WhatsApp

Modelo de lenguaje grande basado en GPT: se presenta brevemente cómo funciona nano-gpt
Este modelo tiene como objetivo recibir una secuencia de 6 caracteres y ordenarla en orden alfabético
Cada carácter se considera un token, y todos los tokens tienen un índice de token único
Cada índice de token se convierte en un vector de embedding de 48 dimensiones y pasa por una serie de capas transformer
El modelo predice el siguiente token, y el resultado puede reutilizarse de forma iterativa para hacer evolucionar la secuencia de entrada

Introducción al modelo de lenguaje GPT

Este documento es un material que explica visualmente cómo funciona un modelo de lenguaje grande GPT
Aquí se utiliza un modelo muy pequeño llamado nano-gpt (aproximadamente 85,000 parámetros)
El objetivo del modelo es recibir una secuencia de 6 caracteres y ordenarla alfabéticamente (por ejemplo, "ABBBCC")

Tokens y vocabulario

Cada carácter se define como un token, y al conjunto de todos los tokens que el modelo reconoce se le llama vocabulario
En la tabla, a cada token se le asigna un número único (índice de token)
La secuencia numérica de esos índices de token se usa como entrada del modelo

Transformación de entrada y embeddings

En la visualización 3D, las celdas verdes representan los números que se están procesando, y las celdas azules representan los pesos del modelo
Cada número de entrada se convierte en un vector de embedding de 48 dimensiones
Estos embeddings pasan secuencialmente por varias capas transformer dentro de la arquitectura del modelo

Salida y proceso de predicción

La salida del modelo se muestra como la probabilidad del siguiente token predicho para esa secuencia
En la sexta posición de entrada, predice la distribución de probabilidad de que el siguiente token sea 'A', 'B' o 'C'
En el ejemplo, el modelo predice que 'A' es la opción más probable
Al volver a introducir este resultado como entrada y repetir el proceso, se genera la secuencia completa

1 comentarios

GN⁺ 2025-09-05

Opiniones en Hacker News

Es realmente complejo y asombroso; la forma de visualizar el proceso está increíble
Hay material relacionado, por si te interesa ver otras cosas
LLM Visualization - diciembre de 2023, 131 comentarios
Hay otro recurso de visualización de transformers hecho por investigadores de Georgia Tech
https://poloclub.github.io/transformer-explainer/
Y también recomiendan el famoso recurso visual "The Illustrated Transformer"
https://jalammar.github.io/illustrated-transformer/
También hay una publicación de Sebastian Raschka, PhD, sobre la arquitectura
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
En este comentario de Hacker News se pueden ver varios recursos de una sola vez
https://news.ycombinator.com/item?id=35712334
La visualización es realmente interesante; puedes ver todo el proceso de forma visual, pero es irónico que todavía no entendamos por completo los criterios internos de toma de decisiones del modelo; cuando lo revisé hace como un año, todavía no había avances en esa parte
Este contenido visual es tan bueno que estoy pensando mostrárselo a los niños en el club de computación al que va mi hijo de 5 años
- Con ese método seguro los duermes perfecto para la siesta
De verdad parece una obra de arte impresionante y admirable; gracias por hacer esto
Desde hace tiempo me encanta este recurso de visualización
https://alphacode.deepmind.com/
(si estás en móvil, solo dale play, haz zoom out hasta el final y luego desplázate hacia abajo)
Estaría increíble que este tipo de visualización de LLM se convirtiera en una herramienta educativa; por ejemplo, podría mostrar cómo se mueve la attention durante el proceso de generación o cómo el prompt afecta la salida; visualizaciones interactivas así realmente ayudarían a entender qué está pasando detrás de escena
Me parece excelente; cuando tenga tiempo quiero explorarlo a fondo; si se combina con herramientas de observación, creo que este material puede ayudar a los científicos a indagar dentro de modelos conocidos como "cajas negras"
Ahora por fin lo entiendo; este material es un recurso realmente impresionante; gracias por el tiempo y el esfuerzo

Visualización de LLM

Introducción al modelo de lenguaje GPT

Tokens y vocabulario

Transformación de entrada y embeddings

Salida y proceso de predicción

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News