- Un tutorial para implementar GPT de forma sencilla asumiendo familiaridad con Python y Numpy, y luego cargar el modelo GPT-2 publicado por OpenAI para generar texto
Índice
- ¿Qué es GPT?
- Configuración: Encoder, hiperparámetros, parámetros
- Capas básicas: GeLU, Softmax, normalización de capa, Linear
- Arquitectura de GPT
- Embeddings
- Pila de decodificadores
- Proyección al vocabulario
- Bloque decodificador
- Red feed-forward por posición
- Autoatención causal multi-cabeza
- Unir todo
- ¿Qué sigue?
- Soporte para GPU/TPU
- Backpropagation
- Batching
- Optimización de inferencia
- Entrenamiento
- Evaluación
- Mejoras de arquitectura
Aún no hay comentarios.