43 puntos por GN⁺ 2025-09-05 | 1 comentarios | Compartir por WhatsApp
  • Modelo de lenguaje grande basado en GPT: se presenta brevemente cómo funciona nano-gpt
  • Este modelo tiene como objetivo recibir una secuencia de 6 caracteres y ordenarla en orden alfabético
  • Cada carácter se considera un token, y todos los tokens tienen un índice de token único
  • Cada índice de token se convierte en un vector de embedding de 48 dimensiones y pasa por una serie de capas transformer
  • El modelo predice el siguiente token, y el resultado puede reutilizarse de forma iterativa para hacer evolucionar la secuencia de entrada

Introducción al modelo de lenguaje GPT

  • Este documento es un material que explica visualmente cómo funciona un modelo de lenguaje grande GPT
  • Aquí se utiliza un modelo muy pequeño llamado nano-gpt (aproximadamente 85,000 parámetros)
  • El objetivo del modelo es recibir una secuencia de 6 caracteres y ordenarla alfabéticamente (por ejemplo, "ABBBCC")

Tokens y vocabulario

  • Cada carácter se define como un token, y al conjunto de todos los tokens que el modelo reconoce se le llama vocabulario
  • En la tabla, a cada token se le asigna un número único (índice de token)
  • La secuencia numérica de esos índices de token se usa como entrada del modelo

Transformación de entrada y embeddings

  • En la visualización 3D, las celdas verdes representan los números que se están procesando, y las celdas azules representan los pesos del modelo
  • Cada número de entrada se convierte en un vector de embedding de 48 dimensiones
  • Estos embeddings pasan secuencialmente por varias capas transformer dentro de la arquitectura del modelo

Salida y proceso de predicción

  • La salida del modelo se muestra como la probabilidad del siguiente token predicho para esa secuencia
  • En la sexta posición de entrada, predice la distribución de probabilidad de que el siguiente token sea 'A', 'B' o 'C'
  • En el ejemplo, el modelo predice que 'A' es la opción más probable
  • Al volver a introducir este resultado como entrada y repetir el proceso, se genera la secuencia completa

1 comentarios

 
GN⁺ 2025-09-05
Opiniones en Hacker News
  • Es realmente complejo y asombroso; la forma de visualizar el proceso está increíble
  • Hay material relacionado, por si te interesa ver otras cosas
    LLM Visualization - diciembre de 2023, 131 comentarios
  • Hay otro recurso de visualización de transformers hecho por investigadores de Georgia Tech
    https://poloclub.github.io/transformer-explainer/
    Y también recomiendan el famoso recurso visual "The Illustrated Transformer"
    https://jalammar.github.io/illustrated-transformer/
    También hay una publicación de Sebastian Raschka, PhD, sobre la arquitectura
    https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    En este comentario de Hacker News se pueden ver varios recursos de una sola vez
    https://news.ycombinator.com/item?id=35712334
  • La visualización es realmente interesante; puedes ver todo el proceso de forma visual, pero es irónico que todavía no entendamos por completo los criterios internos de toma de decisiones del modelo; cuando lo revisé hace como un año, todavía no había avances en esa parte
  • Este contenido visual es tan bueno que estoy pensando mostrárselo a los niños en el club de computación al que va mi hijo de 5 años
    • Con ese método seguro los duermes perfecto para la siesta
  • De verdad parece una obra de arte impresionante y admirable; gracias por hacer esto
  • Desde hace tiempo me encanta este recurso de visualización
    https://alphacode.deepmind.com/
    (si estás en móvil, solo dale play, haz zoom out hasta el final y luego desplázate hacia abajo)
  • Estaría increíble que este tipo de visualización de LLM se convirtiera en una herramienta educativa; por ejemplo, podría mostrar cómo se mueve la attention durante el proceso de generación o cómo el prompt afecta la salida; visualizaciones interactivas así realmente ayudarían a entender qué está pasando detrás de escena
  • Me parece excelente; cuando tenga tiempo quiero explorarlo a fondo; si se combina con herramientas de observación, creo que este material puede ayudar a los científicos a indagar dentro de modelos conocidos como "cajas negras"
  • Ahora por fin lo entiendo; este material es un recurso realmente impresionante; gracias por el tiempo y el esfuerzo