Resumen del video "Análisis profundo de los LLM como ChatGPT" de Andrej Karpathy

(anfalmushtaq.com)

2 puntos por GN⁺ 2025-02-11 | 1 comentarios | Compartir por WhatsApp

¿Para quién es este análisis profundo?

Comprender cómo funcionan realmente los LLM: para quienes quieren entender los principios de funcionamiento de los LLM más allá de una comprensión superficial.
Entender la terminología confusa del fine-tuning: para quienes quieren entender términos como chat_template y ChatML.
Mejorar la ingeniería de prompts: para quienes quieren entender qué prompts funcionan mejor.
Reducir las alucinaciones: para quienes quieren evitar que los LLM generen información incorrecta.
Entender la importancia de DeepSeek-R1: para quienes quieren comprender la relevancia de DeepSeek-R1, que actualmente está llamando la atención.

Datos de preentrenamiento

Internet

Los LLM construyen enormes conjuntos de datos de texto rastreando internet.
Los datos sin procesar están llenos de contenido duplicado, texto de baja calidad e información irrelevante, por lo que requieren un filtrado exhaustivo antes del entrenamiento.
Por ejemplo, el dataset FineWeb incluye más de 1.2 mil millones de páginas web.

Tokenización

La tokenización es la forma en que el modelo divide el texto en partes pequeñas (tokens) antes de procesarlo.
Se utilizan técnicas como Byte Pair Encoding (BPE).
GPT-4 usa 100,277 tokens.

Entrada y salida de la red neuronal

Los datos tokenizados se introducen en la red neuronal.
El modelo predice el siguiente token con base en los patrones que aprendió.
Los pesos se ajustan para reducir los errores.

Interior de la red neuronal

Dentro del modelo, miles de millones de parámetros interactúan con los tokens de entrada para generar una distribución de probabilidad del siguiente token.
La arquitectura del modelo está diseñada para equilibrar velocidad, precisión y paralelización.

Inferencia

Los LLM no generan salidas deterministas; son probabilísticos.
La salida varía ligeramente en cada ejecución.
Debido a esta aleatoriedad, los LLM pueden ser creativos, pero a veces también generan información incorrecta.

GPT-2

GPT-2, publicado por OpenAI en 2019, es un ejemplo de los primeros LLM basados en transformers.
Fue entrenado con 1.6 mil millones de parámetros, una longitud de contexto de 1024 tokens y alrededor de 100 mil millones de tokens.
Andrej Karpathy reprodujo GPT-2 por $672 usando llm.c.

Modelos base de código abierto

Algunas empresas entrenan LLM a gran escala y publican gratis sus modelos base.
Los modelos base se entrenan con texto crudo de internet y generan completions, pero no entienden la intención humana.
OpenAI publicó GPT-2 como código abierto.
Meta publicó Llama 3.1 (405B parámetros) como código abierto.

Del preentrenamiento al postentrenamiento

Los modelos base generan muchas alucinaciones.
El postentrenamiento ajusta finamente el modelo para que responda mejor.
El postentrenamiento es mucho más barato que el preentrenamiento.

Fine-tuning supervisado (SFT)

Conversaciones de datos

Después de entrenarse con datos de internet, el modelo base se postentrena con conversaciones entre humanos y asistentes.
Se usan plantillas de conversación para ayudar al modelo a entender la estructura del diálogo.

Alucinaciones, uso de herramientas y memoria

El principal problema de los LLM son las alucinaciones.
Meta explica en el paper de Llama 3 cómo mejorar la factualidad.
También hay formas de reducir las alucinaciones usando herramientas.

Aprendizaje por refuerzo

Después de entrenarse con datos de internet, el modelo no sabe cómo usar su conocimiento de forma efectiva.
El aprendizaje por refuerzo (RL) mejora el modelo mediante prueba y error.

Cómo funciona RL

RL permite que el modelo pruebe distintas soluciones y encuentre la óptima.
Por ejemplo, genera 15 soluciones y solo 4 aciertan la respuesta correcta.

Aprendizaje por refuerzo con retroalimentación humana (RLHF)

En dominios que no se pueden verificar, es necesario incluir a humanos.
RLHF usa retroalimentación humana para mejorar el modelo.

Perspectivas a futuro

Capacidades multimodales: entender y generar no solo texto, sino también imágenes, audio y video.
Modelos basados en agentes: más allá de tareas únicas, con memoria de largo plazo, razonamiento y capacidad de corregir errores.
IA universal e invisible: integrada de forma natural en los flujos de trabajo.
IA que usa computadoras: interactúa con software y realiza tareas más allá de generar texto.

Cómo encontrar LLM

Modelos propietarios: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), etc.
Modelos de pesos abiertos: DeepSeek, Meta (Llama), etc.
Ejecución local: usar Ollama o LM Studio.
Modelos base: explorar Hyperbolic.

1 comentarios

GN⁺ 2025-02-11

Opiniones de Hacker News

Estoy buscando un buen lugar para debatir, incluso después de que el video original desapareció de la portada de Hacker News
Me surgieron algunas dudas mientras veía el video
- Matemáticas y LLMs
  - Me pregunto por qué la mayoría de los ejemplos que Andrej presentó sobre LLM son problemas de cálculo
  - Creo que la capacidad de cálculo de los LLM se está volviendo poderosa y útil, pero no es una capacidad fundamental
  - Me gustaría distinguir entre prompts que muestran la capacidad central de los LLM y el cálculo matemático
  - Sería bueno tener buenas referencias sobre la discusión de las capacidades matemáticas o sobre la conveniencia de que los LLM hagan matemáticas
- Meta
  - Andrej mencionó brevemente situaciones en las que un LLM se usa para entrenar y evaluar a otro LLM, pero no hubo mucha discusión al respecto
  - Quiero saber más sobre las limitaciones y riesgos de usar LLM para entrenar/evaluar otros LLM
  - Siento que los resultados iniciales y los avances se retroalimentan de inmediato en el desarrollo de tecnologías más poderosas, algo parecido al Proyecto Manhattan y las armas nucleares
Es interesante el enfoque de Meta para resolver el problema de las alucinaciones
- Extraen parte de los datos de entrenamiento y usan Llama 3 para generar preguntas fácticas
- Llama 3 genera respuestas y las comparan con los datos originales para asignar una puntuación
- Si está mal, entrenan al modelo para que reconozca la respuesta incorrecta y la rechace
- Esto va en contra de la tendencia natural de los ingenieros de ML, y es importante enseñarle al modelo a reconocer lo que no sabe
El video de Andrej es excelente, pero la explicación de la parte de RL se siente un poco ambigua
- Me pregunto cómo entrenan sobre respuestas correctas
- Me pregunto si recopilan el proceso de razonamiento y entrenan como aprendizaje supervisado, o si calculan una puntuación y la usan como función de pérdida
- La recompensa puede ser muy escasa, y me pregunto qué pasa si el problema es tan difícil que el LLM no puede generar la respuesta correcta
- Como la actualización de parámetros es secuencial, me pregunto cómo se puede paralelizar el entrenamiento de LLM
En el minuto 53 del video original se muestra la precisión con la que un LLM cita basándose en el texto que aprendió
- Me pregunto cómo las grandes empresas lograron convencer a los tribunales de que esto no es una infracción de copyright
- Si yo entrenara un modelo para dibujar personajes de Disney, imagino que me demandarían de inmediato
Para que un modelo sea "completamente" open source, además del modelo en sí y de cómo ejecutarlo, también se necesita el programa para entrenarlo con los datos
- Ver la definición de open source AI de la OSI
He leído muchos artículos sobre LLM y entiendo en general cómo funcionan, pero siempre me he preguntado por qué otros modelos no funcionan tan bien como los modelos SOTA
- Me interesa la historia y el porqué de la arquitectura actual de los modelos
Hoy vi un buen hilo: [enlace]
Es una pena que su LLC in C solo haya sido un trampolín para su curso
Probablemente sea un excelente resumen de una clase realmente excelente
- Estoy pensando si seguir el original
No vi el video, pero me dio curiosidad la parte de tokenización del TL;DR
- Si ves el texto tokenizado en el artículo enlazado, en realidad es una barra vertical "|", no "I View"
- En el paso 3 del enlace que @miletus publicó en un comentario de Hacker News, el texto tokenizado es "|Viewing Single (Post From) . . ."
- El uso de mayúsculas (View, Single) tiene más sentido al mirar esta parte de la oración

Resumen del video "Análisis profundo de los LLM como ChatGPT" de Andrej Karpathy

¿Para quién es este análisis profundo?

Datos de preentrenamiento

Internet

Tokenización

Entrada y salida de la red neuronal

Interior de la red neuronal

Inferencia

GPT-2

Modelos base de código abierto

Del preentrenamiento al postentrenamiento

Fine-tuning supervisado (SFT)

Conversaciones de datos

Alucinaciones, uso de herramientas y memoria

Aprendizaje por refuerzo

Cómo funciona RL

Aprendizaje por refuerzo con retroalimentación humana (RLHF)

Perspectivas a futuro

Cómo encontrar LLM

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News