1 puntos por GN⁺ 2024-09-01 | 1 comentarios | Compartir por WhatsApp
  • Si quieres dedicar unas horas del fin de semana a entender los modelos de lenguaje grandes (LLM), se preparó una presentación de un taller práctico de programación de 3 horas sobre implementación, entrenamiento y uso.
  • Abajo está el índice que muestra lo que se cubre en el video (el video en sí tiene marcas de capítulo clicables para ir directamente a los temas que te interesen).

Índice

  • 0:00 – Resumen del taller

  • 2:17 – Parte 1: Introducción a los LLM

  • 9:14 – Materiales del taller

  • 10:48 – Parte 2: Entender los datos de entrada de los LLM

  • 23:25 – Clase simple de tokenizador

  • 41:03 – Parte 3: Programar la arquitectura de un LLM

  • 45:01 – GPT-2 y Llama 2

  • 1:07:11 – Parte 4: Preentrenamiento

  • 1:29:37 – Parte 5.1: Carga de pesos preentrenados

  • 1:45:12 – Parte 5.2: Pesos preentrenados mediante LitGPT

  • 1:53:09 – Parte 6.1: Ajuste fino por instrucciones

  • 2:08:21 – Parte 6.2: Ajuste fino por instrucciones mediante LitGPT

  • 2:26:45 – Parte 6.3: Evaluación con benchmarks

  • 2:36:55 – Parte 6.4: Evaluación del desempeño conversacional

  • 2:42:40 – Conclusión

  • Es un formato un poco diferente al contenido habitual basado en texto, pero como tuvo una respuesta muy buena cuando se hizo hace unos meses, pareció buena idea repetirlo una vez más.

  • ¡Que lo disfrutes!

Materiales de referencia

  1. Libro Build an LLM from Scratch
  2. Repositorio de GitHub de Build an LLM from Scratch
  3. Repositorio de GitHub con el código del taller
  4. Lightning Studio para este taller
  5. Repositorio de GitHub de LitGPT

Suscripción a Ahead of AI

  • Proyecto que Sebastian Raschka comenzó hace 2 años
  • Ahead AI se especializa en investigación de machine learning e IA, y lo leen decenas de miles de investigadores y profesionales que quieren mantenerse a la vanguardia en un campo que cambia constantemente

Resumen de GN⁺

  • Este taller es muy útil para quienes quieren aprender a implementar y entrenar un LLM desde cero
  • Cubre modelos como GPT-2 y Llama 2, y explica cómo cargar pesos preentrenados y realizar ajuste fino por instrucciones
  • Puede ser muy interesante y útil para personas interesadas en la investigación de machine learning e IA
  • Otros proyectos con funcionalidades similares incluyen la biblioteca Transformers de Hugging Face y los modelos GPT de OpenAI

1 comentarios

 
GN⁺ 2024-09-01
Opiniones en Hacker News
  • Agradece que lo hayan compartido y comenta que “siempre es bueno volver a lo básico”

  • Pregunta: “Perdón por mi ignorancia, pero me pregunto si esto es diferente del de Andrej Karpathy: https://www.youtube.com/watch?v=kCc8FmEb1nY

    • Comenta también que “de todos modos, planea verlo esta noche antes de dormir”
  • Dice que “el artículo de Sebastian es bueno” y que espera con ganas el libro

    • Señala que hay muchos detalles sobre la composición de los LLM y le gustaría que ampliara más sobre cómo Llama y OpenAI organizan y estructuran los datos de entrenamiento
    • Opina que “esta parece ser una batalla importante a largo plazo”