Construyendo LLMs desde cero: taller práctico de programación de 3 horas
(magazine.sebastianraschka.com)- Si quieres dedicar unas horas del fin de semana a entender los modelos de lenguaje grandes (LLM), se preparó una presentación de un taller práctico de programación de 3 horas sobre implementación, entrenamiento y uso.
- Abajo está el índice que muestra lo que se cubre en el video (el video en sí tiene marcas de capítulo clicables para ir directamente a los temas que te interesen).
Índice
-
0:00 – Resumen del taller
-
2:17 – Parte 1: Introducción a los LLM
-
9:14 – Materiales del taller
-
10:48 – Parte 2: Entender los datos de entrada de los LLM
-
23:25 – Clase simple de tokenizador
-
41:03 – Parte 3: Programar la arquitectura de un LLM
-
45:01 – GPT-2 y Llama 2
-
1:07:11 – Parte 4: Preentrenamiento
-
1:29:37 – Parte 5.1: Carga de pesos preentrenados
-
1:45:12 – Parte 5.2: Pesos preentrenados mediante LitGPT
-
1:53:09 – Parte 6.1: Ajuste fino por instrucciones
-
2:08:21 – Parte 6.2: Ajuste fino por instrucciones mediante LitGPT
-
2:26:45 – Parte 6.3: Evaluación con benchmarks
-
2:36:55 – Parte 6.4: Evaluación del desempeño conversacional
-
2:42:40 – Conclusión
-
Es un formato un poco diferente al contenido habitual basado en texto, pero como tuvo una respuesta muy buena cuando se hizo hace unos meses, pareció buena idea repetirlo una vez más.
-
¡Que lo disfrutes!
Materiales de referencia
- Libro Build an LLM from Scratch
- Repositorio de GitHub de Build an LLM from Scratch
- Repositorio de GitHub con el código del taller
- Lightning Studio para este taller
- Repositorio de GitHub de LitGPT
Suscripción a Ahead of AI
- Proyecto que Sebastian Raschka comenzó hace 2 años
- Ahead AI se especializa en investigación de machine learning e IA, y lo leen decenas de miles de investigadores y profesionales que quieren mantenerse a la vanguardia en un campo que cambia constantemente
Resumen de GN⁺
- Este taller es muy útil para quienes quieren aprender a implementar y entrenar un LLM desde cero
- Cubre modelos como GPT-2 y Llama 2, y explica cómo cargar pesos preentrenados y realizar ajuste fino por instrucciones
- Puede ser muy interesante y útil para personas interesadas en la investigación de machine learning e IA
- Otros proyectos con funcionalidades similares incluyen la biblioteca Transformers de Hugging Face y los modelos GPT de OpenAI
1 comentarios
Opiniones en Hacker News
Agradece que lo hayan compartido y comenta que “siempre es bueno volver a lo básico”
Pregunta: “Perdón por mi ignorancia, pero me pregunto si esto es diferente del de Andrej Karpathy: https://www.youtube.com/watch?v=kCc8FmEb1nY”
Dice que “el artículo de Sebastian es bueno” y que espera con ganas el libro