¿Para quién es este análisis profundo?
- Comprender cómo funcionan realmente los LLM: para quienes quieren entender los principios de funcionamiento de los LLM más allá de una comprensión superficial.
- Entender la terminología confusa del fine-tuning: para quienes quieren entender términos como
chat_template y ChatML.
- Mejorar la ingeniería de prompts: para quienes quieren entender qué prompts funcionan mejor.
- Reducir las alucinaciones: para quienes quieren evitar que los LLM generen información incorrecta.
- Entender la importancia de DeepSeek-R1: para quienes quieren comprender la relevancia de DeepSeek-R1, que actualmente está llamando la atención.
Datos de preentrenamiento
Internet
- Los LLM construyen enormes conjuntos de datos de texto rastreando internet.
- Los datos sin procesar están llenos de contenido duplicado, texto de baja calidad e información irrelevante, por lo que requieren un filtrado exhaustivo antes del entrenamiento.
- Por ejemplo, el dataset FineWeb incluye más de 1.2 mil millones de páginas web.
Tokenización
- La tokenización es la forma en que el modelo divide el texto en partes pequeñas (tokens) antes de procesarlo.
- Se utilizan técnicas como Byte Pair Encoding (BPE).
- GPT-4 usa 100,277 tokens.
Entrada y salida de la red neuronal
- Los datos tokenizados se introducen en la red neuronal.
- El modelo predice el siguiente token con base en los patrones que aprendió.
- Los pesos se ajustan para reducir los errores.
Interior de la red neuronal
- Dentro del modelo, miles de millones de parámetros interactúan con los tokens de entrada para generar una distribución de probabilidad del siguiente token.
- La arquitectura del modelo está diseñada para equilibrar velocidad, precisión y paralelización.
Inferencia
- Los LLM no generan salidas deterministas; son probabilísticos.
- La salida varía ligeramente en cada ejecución.
- Debido a esta aleatoriedad, los LLM pueden ser creativos, pero a veces también generan información incorrecta.
GPT-2
- GPT-2, publicado por OpenAI en 2019, es un ejemplo de los primeros LLM basados en transformers.
- Fue entrenado con 1.6 mil millones de parámetros, una longitud de contexto de 1024 tokens y alrededor de 100 mil millones de tokens.
- Andrej Karpathy reprodujo GPT-2 por $672 usando llm.c.
Modelos base de código abierto
- Algunas empresas entrenan LLM a gran escala y publican gratis sus modelos base.
- Los modelos base se entrenan con texto crudo de internet y generan completions, pero no entienden la intención humana.
- OpenAI publicó GPT-2 como código abierto.
- Meta publicó Llama 3.1 (405B parámetros) como código abierto.
Del preentrenamiento al postentrenamiento
- Los modelos base generan muchas alucinaciones.
- El postentrenamiento ajusta finamente el modelo para que responda mejor.
- El postentrenamiento es mucho más barato que el preentrenamiento.
Fine-tuning supervisado (SFT)
Conversaciones de datos
- Después de entrenarse con datos de internet, el modelo base se postentrena con conversaciones entre humanos y asistentes.
- Se usan plantillas de conversación para ayudar al modelo a entender la estructura del diálogo.
Alucinaciones, uso de herramientas y memoria
- El principal problema de los LLM son las alucinaciones.
- Meta explica en el paper de Llama 3 cómo mejorar la factualidad.
- También hay formas de reducir las alucinaciones usando herramientas.
Aprendizaje por refuerzo
- Después de entrenarse con datos de internet, el modelo no sabe cómo usar su conocimiento de forma efectiva.
- El aprendizaje por refuerzo (RL) mejora el modelo mediante prueba y error.
Cómo funciona RL
- RL permite que el modelo pruebe distintas soluciones y encuentre la óptima.
- Por ejemplo, genera 15 soluciones y solo 4 aciertan la respuesta correcta.
Aprendizaje por refuerzo con retroalimentación humana (RLHF)
- En dominios que no se pueden verificar, es necesario incluir a humanos.
- RLHF usa retroalimentación humana para mejorar el modelo.
Perspectivas a futuro
- Capacidades multimodales: entender y generar no solo texto, sino también imágenes, audio y video.
- Modelos basados en agentes: más allá de tareas únicas, con memoria de largo plazo, razonamiento y capacidad de corregir errores.
- IA universal e invisible: integrada de forma natural en los flujos de trabajo.
- IA que usa computadoras: interactúa con software y realiza tareas más allá de generar texto.
Cómo encontrar LLM
- Modelos propietarios: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), etc.
- Modelos de pesos abiertos: DeepSeek, Meta (Llama), etc.
- Ejecución local: usar Ollama o LM Studio.
- Modelos base: explorar Hyperbolic.
1 comentarios
Opiniones de Hacker News
Estoy buscando un buen lugar para debatir, incluso después de que el video original desapareció de la portada de Hacker News
Me surgieron algunas dudas mientras veía el video
Es interesante el enfoque de Meta para resolver el problema de las alucinaciones
El video de Andrej es excelente, pero la explicación de la parte de RL se siente un poco ambigua
En el minuto 53 del video original se muestra la precisión con la que un LLM cita basándose en el texto que aprendió
Para que un modelo sea "completamente" open source, además del modelo en sí y de cómo ejecutarlo, también se necesita el programa para entrenarlo con los datos
He leído muchos artículos sobre LLM y entiendo en general cómo funcionan, pero siempre me he preguntado por qué otros modelos no funcionan tan bien como los modelos SOTA
Hoy vi un buen hilo: [enlace]
Es una pena que su LLC in C solo haya sido un trampolín para su curso
Probablemente sea un excelente resumen de una clase realmente excelente
No vi el video, pero me dio curiosidad la parte de tokenización del TL;DR