Implementar paso a paso un LLM similar a ChatGPT desde cero
(github.com/rasbt)Crear un modelo de lenguaje a gran escala (desde cero)
- Un libro para descubrir el funcionamiento interno de los modelos de lenguaje a gran escala (Large Language Models, LLMs)
- Explica cómo crear tu propio LLM paso a paso con texto claro, diagramas y ejemplos
- La forma de entrenar y desarrollar un modelo pequeño pero funcional con fines educativos refleja el enfoque para crear grandes modelos fundacionales como ChatGPT
Índice
- El archivo
Readme.mdes un archivo Markdown, y se recomienda verlo correctamente usando un editor o vista previa de Markdown - Los títulos de cada capítulo, el código principal y el código complementario están resumidos en el índice
- Incluye un apéndice de introducción a PyTorch e instrucciones adicionales sobre la instalación de Python y paquetes de Python
Opinión de GN⁺:
- Este libro explica en detalle el proceso de crear modelos de lenguaje a gran escala desde cero, y es muy útil para ingenieros de software principiantes interesados en el campo de la inteligencia artificial.
- Ofrece contenido interesante para lectores que quieran entender las bases de tecnologías innovadoras como ChatGPT.
- La guía paso a paso con ejemplos de código reales ayudará a los estudiantes a aplicar la teoría en la práctica.
1 comentarios
Comentarios de Hacker News
El autor está escribiendo una guía complementaria, que se encuentra en varias etapas de avance. Hasta ahora, la guía de ajuste fino es el mejor material.
Esta guía se ve increíble. Mi duda es si el objetivo principal es ayudar a entender y desmitificar el tema, o si busca animar a la gente a crear por sí misma modelos pequeños adaptados a sus propias necesidades.
Escribir un libro técnico en público debe venir acompañado de un nivel de ansiedad imposible de imaginar, así que mis respetos para el autor.
Me pregunto si se puede usar la información de este libro para aprender sobre aprendizaje por refuerzo. La meta sería aprender a aterrizar algo como un módulo lunar. Empezar de forma simple a 100 pies, impulsándose en una sola dirección e intentándolo hasta no dejar cráteres. Luego ir agregando variables, por ejemplo moverse horizontalmente mientras se añaden propulsores horizontales, etc. Me pregunto si este libro ayudaría con ese ML más "tradicional".
Como se puede ver en el primer ejemplo de código, no empieza completamente desde cero.
Pensé que este material sería gratuito y me fui a Github. Con todo mi respeto por el trabajo del autor, me pregunto qué materiales gratuitos se pueden usar y recomiendan para empezar "desde cero" de verdad.
La arquitectura del modelo en sí no es tan compleja, especialmente cuando se usa torch. Todo el proceso es un proyecto bastante simple y realizable.
Esto probablemente encajaría mejor como "Show HN".
Gracias por este trabajo. ¿Hay una fecha estimada para terminar el libro?
¡Compré una copia! Tengo ganas de leerlo. :) ¿Hay alguna forma en que los lectores puedan dar retroalimentación mientras escribes el libro?