2 puntos por GN⁺ 2025-02-11 | 1 comentarios | Compartir por WhatsApp

¿Para quién es este análisis profundo?

  • Comprender cómo funcionan realmente los LLM: para quienes quieren entender los principios de funcionamiento de los LLM más allá de una comprensión superficial.
  • Entender la terminología confusa del fine-tuning: para quienes quieren entender términos como chat_template y ChatML.
  • Mejorar la ingeniería de prompts: para quienes quieren entender qué prompts funcionan mejor.
  • Reducir las alucinaciones: para quienes quieren evitar que los LLM generen información incorrecta.
  • Entender la importancia de DeepSeek-R1: para quienes quieren comprender la relevancia de DeepSeek-R1, que actualmente está llamando la atención.

Datos de preentrenamiento

Internet

  • Los LLM construyen enormes conjuntos de datos de texto rastreando internet.
  • Los datos sin procesar están llenos de contenido duplicado, texto de baja calidad e información irrelevante, por lo que requieren un filtrado exhaustivo antes del entrenamiento.
  • Por ejemplo, el dataset FineWeb incluye más de 1.2 mil millones de páginas web.

Tokenización

  • La tokenización es la forma en que el modelo divide el texto en partes pequeñas (tokens) antes de procesarlo.
  • Se utilizan técnicas como Byte Pair Encoding (BPE).
  • GPT-4 usa 100,277 tokens.

Entrada y salida de la red neuronal

  • Los datos tokenizados se introducen en la red neuronal.
  • El modelo predice el siguiente token con base en los patrones que aprendió.
  • Los pesos se ajustan para reducir los errores.

Interior de la red neuronal

  • Dentro del modelo, miles de millones de parámetros interactúan con los tokens de entrada para generar una distribución de probabilidad del siguiente token.
  • La arquitectura del modelo está diseñada para equilibrar velocidad, precisión y paralelización.

Inferencia

  • Los LLM no generan salidas deterministas; son probabilísticos.
  • La salida varía ligeramente en cada ejecución.
  • Debido a esta aleatoriedad, los LLM pueden ser creativos, pero a veces también generan información incorrecta.

GPT-2

  • GPT-2, publicado por OpenAI en 2019, es un ejemplo de los primeros LLM basados en transformers.
  • Fue entrenado con 1.6 mil millones de parámetros, una longitud de contexto de 1024 tokens y alrededor de 100 mil millones de tokens.
  • Andrej Karpathy reprodujo GPT-2 por $672 usando llm.c.

Modelos base de código abierto

  • Algunas empresas entrenan LLM a gran escala y publican gratis sus modelos base.
  • Los modelos base se entrenan con texto crudo de internet y generan completions, pero no entienden la intención humana.
  • OpenAI publicó GPT-2 como código abierto.
  • Meta publicó Llama 3.1 (405B parámetros) como código abierto.

Del preentrenamiento al postentrenamiento

  • Los modelos base generan muchas alucinaciones.
  • El postentrenamiento ajusta finamente el modelo para que responda mejor.
  • El postentrenamiento es mucho más barato que el preentrenamiento.

Fine-tuning supervisado (SFT)

Conversaciones de datos

  • Después de entrenarse con datos de internet, el modelo base se postentrena con conversaciones entre humanos y asistentes.
  • Se usan plantillas de conversación para ayudar al modelo a entender la estructura del diálogo.

Alucinaciones, uso de herramientas y memoria

  • El principal problema de los LLM son las alucinaciones.
  • Meta explica en el paper de Llama 3 cómo mejorar la factualidad.
  • También hay formas de reducir las alucinaciones usando herramientas.

Aprendizaje por refuerzo

  • Después de entrenarse con datos de internet, el modelo no sabe cómo usar su conocimiento de forma efectiva.
  • El aprendizaje por refuerzo (RL) mejora el modelo mediante prueba y error.

Cómo funciona RL

  • RL permite que el modelo pruebe distintas soluciones y encuentre la óptima.
  • Por ejemplo, genera 15 soluciones y solo 4 aciertan la respuesta correcta.

Aprendizaje por refuerzo con retroalimentación humana (RLHF)

  • En dominios que no se pueden verificar, es necesario incluir a humanos.
  • RLHF usa retroalimentación humana para mejorar el modelo.

Perspectivas a futuro

  • Capacidades multimodales: entender y generar no solo texto, sino también imágenes, audio y video.
  • Modelos basados en agentes: más allá de tareas únicas, con memoria de largo plazo, razonamiento y capacidad de corregir errores.
  • IA universal e invisible: integrada de forma natural en los flujos de trabajo.
  • IA que usa computadoras: interactúa con software y realiza tareas más allá de generar texto.

Cómo encontrar LLM

  • Modelos propietarios: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), etc.
  • Modelos de pesos abiertos: DeepSeek, Meta (Llama), etc.
  • Ejecución local: usar Ollama o LM Studio.
  • Modelos base: explorar Hyperbolic.

1 comentarios

 
GN⁺ 2025-02-11
Opiniones de Hacker News
  • Estoy buscando un buen lugar para debatir, incluso después de que el video original desapareció de la portada de Hacker News

  • Me surgieron algunas dudas mientras veía el video

    • Matemáticas y LLMs
      • Me pregunto por qué la mayoría de los ejemplos que Andrej presentó sobre LLM son problemas de cálculo
      • Creo que la capacidad de cálculo de los LLM se está volviendo poderosa y útil, pero no es una capacidad fundamental
      • Me gustaría distinguir entre prompts que muestran la capacidad central de los LLM y el cálculo matemático
      • Sería bueno tener buenas referencias sobre la discusión de las capacidades matemáticas o sobre la conveniencia de que los LLM hagan matemáticas
    • Meta
      • Andrej mencionó brevemente situaciones en las que un LLM se usa para entrenar y evaluar a otro LLM, pero no hubo mucha discusión al respecto
      • Quiero saber más sobre las limitaciones y riesgos de usar LLM para entrenar/evaluar otros LLM
      • Siento que los resultados iniciales y los avances se retroalimentan de inmediato en el desarrollo de tecnologías más poderosas, algo parecido al Proyecto Manhattan y las armas nucleares
  • Es interesante el enfoque de Meta para resolver el problema de las alucinaciones

    • Extraen parte de los datos de entrenamiento y usan Llama 3 para generar preguntas fácticas
    • Llama 3 genera respuestas y las comparan con los datos originales para asignar una puntuación
    • Si está mal, entrenan al modelo para que reconozca la respuesta incorrecta y la rechace
    • Esto va en contra de la tendencia natural de los ingenieros de ML, y es importante enseñarle al modelo a reconocer lo que no sabe
  • El video de Andrej es excelente, pero la explicación de la parte de RL se siente un poco ambigua

    • Me pregunto cómo entrenan sobre respuestas correctas
    • Me pregunto si recopilan el proceso de razonamiento y entrenan como aprendizaje supervisado, o si calculan una puntuación y la usan como función de pérdida
    • La recompensa puede ser muy escasa, y me pregunto qué pasa si el problema es tan difícil que el LLM no puede generar la respuesta correcta
    • Como la actualización de parámetros es secuencial, me pregunto cómo se puede paralelizar el entrenamiento de LLM
  • En el minuto 53 del video original se muestra la precisión con la que un LLM cita basándose en el texto que aprendió

    • Me pregunto cómo las grandes empresas lograron convencer a los tribunales de que esto no es una infracción de copyright
    • Si yo entrenara un modelo para dibujar personajes de Disney, imagino que me demandarían de inmediato
  • Para que un modelo sea "completamente" open source, además del modelo en sí y de cómo ejecutarlo, también se necesita el programa para entrenarlo con los datos

    • Ver la definición de open source AI de la OSI
  • He leído muchos artículos sobre LLM y entiendo en general cómo funcionan, pero siempre me he preguntado por qué otros modelos no funcionan tan bien como los modelos SOTA

    • Me interesa la historia y el porqué de la arquitectura actual de los modelos
  • Hoy vi un buen hilo: [enlace]

  • Es una pena que su LLC in C solo haya sido un trampolín para su curso

  • Probablemente sea un excelente resumen de una clase realmente excelente

    • Estoy pensando si seguir el original
  • No vi el video, pero me dio curiosidad la parte de tokenización del TL;DR

    • Si ves el texto tokenizado en el artículo enlazado, en realidad es una barra vertical "|", no "I View"
    • En el paso 3 del enlace que @miletus publicó en un comentario de Hacker News, el texto tokenizado es "|Viewing Single (Post From) . . ."
    • El uso de mayúsculas (View, Single) tiene más sentido al mirar esta parte de la oración