8 puntos por GN⁺ 2024-01-28 | 1 comentarios | Compartir por WhatsApp

Crear un modelo de lenguaje a gran escala (desde cero)

  • Un libro para descubrir el funcionamiento interno de los modelos de lenguaje a gran escala (Large Language Models, LLMs)
  • Explica cómo crear tu propio LLM paso a paso con texto claro, diagramas y ejemplos
  • La forma de entrenar y desarrollar un modelo pequeño pero funcional con fines educativos refleja el enfoque para crear grandes modelos fundacionales como ChatGPT

Índice

  • El archivo Readme.md es un archivo Markdown, y se recomienda verlo correctamente usando un editor o vista previa de Markdown
  • Los títulos de cada capítulo, el código principal y el código complementario están resumidos en el índice
  • Incluye un apéndice de introducción a PyTorch e instrucciones adicionales sobre la instalación de Python y paquetes de Python

Opinión de GN⁺:

  • Este libro explica en detalle el proceso de crear modelos de lenguaje a gran escala desde cero, y es muy útil para ingenieros de software principiantes interesados en el campo de la inteligencia artificial.
  • Ofrece contenido interesante para lectores que quieran entender las bases de tecnologías innovadoras como ChatGPT.
  • La guía paso a paso con ejemplos de código reales ayudará a los estudiantes a aplicar la teoría en la práctica.

1 comentarios

 
GN⁺ 2024-01-28
Comentarios de Hacker News
  • El autor está escribiendo una guía complementaria, que se encuentra en varias etapas de avance. Hasta ahora, la guía de ajuste fino es el mejor material.

  • Esta guía se ve increíble. Mi duda es si el objetivo principal es ayudar a entender y desmitificar el tema, o si busca animar a la gente a crear por sí misma modelos pequeños adaptados a sus propias necesidades.

  • Escribir un libro técnico en público debe venir acompañado de un nivel de ansiedad imposible de imaginar, así que mis respetos para el autor.

  • Me pregunto si se puede usar la información de este libro para aprender sobre aprendizaje por refuerzo. La meta sería aprender a aterrizar algo como un módulo lunar. Empezar de forma simple a 100 pies, impulsándose en una sola dirección e intentándolo hasta no dejar cráteres. Luego ir agregando variables, por ejemplo moverse horizontalmente mientras se añaden propulsores horizontales, etc. Me pregunto si este libro ayudaría con ese ML más "tradicional".

  • Como se puede ver en el primer ejemplo de código, no empieza completamente desde cero.

    import torch
    
  • Pensé que este material sería gratuito y me fui a Github. Con todo mi respeto por el trabajo del autor, me pregunto qué materiales gratuitos se pueden usar y recomiendan para empezar "desde cero" de verdad.

  • La arquitectura del modelo en sí no es tan compleja, especialmente cuando se usa torch. Todo el proceso es un proyecto bastante simple y realizable.

  • Esto probablemente encajaría mejor como "Show HN".

  • Gracias por este trabajo. ¿Hay una fecha estimada para terminar el libro?

  • ¡Compré una copia! Tengo ganas de leerlo. :) ¿Hay alguna forma en que los lectores puedan dar retroalimentación mientras escribes el libro?