13 puntos por GN⁺ 2025-02-07 | 2 comentarios | Compartir por WhatsApp
  • Un video dirigido al público general que explica en profundidad la tecnología de IA de los modelos de lenguaje grandes (LLM) que impulsa ChatGPT y productos relacionados (3 horas 31 minutos)
  • Aborda el stack completo de entrenamiento sobre cómo se desarrollan los modelos, junto con una forma de pensar sobre la 'psicología' del modelo y modelos mentales para aprovecharlo al máximo en aplicaciones reales
  • Una versión un poco más completa que el video "Intro to LLMs" publicado hace 1 año

Capítulos

00:00:00 introduction
00:01:00 pretraining data (internet)
00:07:47 tokenization
00:14:27 neural network I/O
00:20:11 neural network internals
00:26:01 inference
00:31:09 GPT-2: training and inference
00:42:52 Llama 3.1 base model inference
00:59:23 pretraining to post-training
01:01:06 post-training data (conversations)
01:20:32 hallucinations, tool use, knowledge/working memory
01:41:46 knowledge of self
01:46:56 models need tokens to think
02:01:11 tokenization revisited: models struggle with spelling
02:04:53 jagged intelligence
02:07:28 supervised finetuning to reinforcement learning
02:14:42 reinforcement learning
02:27:47 DeepSeek-R1
02:42:07 AlphaGo
02:48:26 reinforcement learning from human feedback (RLHF)
03:09:39 preview of things to come
03:15:15 keeping track of LLMs
03:18:34 where to find LLMs
03:21:46 grand summary

2 comentarios

 
nicewook 2025-02-08

Creo que la desventaja (?) del video de Andrej Karpathy es que definitivamente no se puede ver a 1.5x. Habla realmente muy rápido. :-)

 
GN⁺ 2025-02-07
Comentarios en Hacker News
  • Tengo mucho respeto por esta persona. Es como Neo, cerrando la brecha entre humanos y máquinas. Cosas que aprendí gratis de sus repositorios y videos:

    • minGPT, nanoGPT (transformers)
    • NLP (que haga más series)
    • tokenizers (en su YouTube)
    • RNN (en su blog)
    • No hay personas como Karpathy en muchos campos, y no llegamos a oír sobre ellas. Me alegra que esta persona difunda intuición sobre ML
  • Les digo a mis amigos que Andrej fue el mejor instructor que encontré en la escuela de posgrado. No fui a Stanford, pero vi sus videos de CS321n en YouTube. Me da muchísimo gusto que siga haciendo videos

  • Básicamente ya hizo más de 5 videos sobre el mismo tema: la arquitectura transformer y su entrenamiento. Me pregunto qué tiene de diferente este video

  • Me encanta su serie de "let's build". Además del contenido avanzado, también terminas aprendiendo trucos geniales de Python

  • Me frustra no poder concentrarme en videos de formato largo. Hay muchas probabilidades de que estos videos sean mucho mejores que los cortos

  • Todavía recuerdo cómo hacer backpropagation usando listas de Python como parte del proyecto de CS231n. Lo sorprendente es que no fui a Stanford

  • Gracias, Andrej. Tengo una comprensión bastante buena de cómo funcionan y se entrenan los LLM, pero muchos de mis amigos no. Este video y sus charlas les dan alguna idea

  • Ojalá hubiera otras formas de distribuir videos. El contenido termina desapareciendo en YouTube. Creo que este contenido es importante. Cuanta más gente sepa cómo funciona la IA, más fuerte será la sociedad

  • Vi todo completo... se me durmió la mejilla, pero valió la pena. Gracias, Andrej

  • Soy una persona simple. Veo un video de Karpathy, le doy clic, lo veo y lo disfruto