Cómo construir un tokenizador GPT por Andrej Karpathy [Video]

(youtube.com)

23 puntos por GN⁺ 2024-02-21 | 2 comentarios | Compartir por WhatsApp

El tokenizador es un componente esencial y muy utilizado de los modelos de lenguaje grandes (LLM), y convierte entre cadenas y tokens (fragmentos de texto)
El tokenizador es una etapa completamente separada dentro del pipeline de un LLM:
- tiene su propio conjunto de entrenamiento y su propio algoritmo de entrenamiento (Byte Pair Encoding)
- después del entrenamiento, implementa dos funciones básicas:
  - convertir de cadenas a tokens con encode(),
  - y volver a convertir de tokens a cadenas con decode()
En esta clase se construye desde cero el tokenizador usado en la serie GPT de OpenAI
En el proceso, verás que muchos comportamientos extraños y problemas de los LLM en realidad se deben a la tokenización
Se revisarán estos problemas y se discutirá por qué la tokenización es la causa, y por qué alguien debería encontrar una forma de eliminar por completo esta etapa

2 comentarios

GN⁺ 2024-02-21

Comentarios de Hacker News

El video de Andrej Karpathy sobre cómo construir GPT nano es un excelente tutorial que explica todos los pasos necesarios para desarrollar los modelos de lenguaje grandes modernos (Large Language Models, LLM).
- La serie "zero to hero" permite entender las ideas y ver su simplicidad mediante implementaciones reales y explicaciones con analogías, sin usar comparaciones que hagan que los conceptos complejos parezcan intimidantes o excesivamente complicados.
- Al principio la curva de aprendizaje es pronunciada, pero resulta satisfactorio porque realmente se adquiere la capacidad de comprender y discutir las razones detrás de ello.
Andrej Karpathy habla tan rápido que hubo que revisar la velocidad de reproducción. Suena como si hablara a 1.25x.
Incluso pagando, es difícil conseguir contenido de tan alta calidad como este.
Sobre la expresión "cuando es el huevo del universo, es un solo token", no está claro que la tripulación de la nave "Nostromo" estuviera de acuerdo. (Esta parte es una broma que hace referencia a la nave espacial "Nostromo" de la película Alien, y para entender completamente el contexto del comentario se necesita conocer esa película).

El resumen anterior fue escrito para condensar cada comentario de forma neutral y con oraciones terminadas en forma nominal, agregando contexto de fondo de manera concisa para que incluso un ingeniero de software principiante pueda entenderlo.

wooseop 2024-02-21

Parece que el prompt era: "resume cada comentario en una oración neutral que termine en un sustantivo y agrega contexto de fondo de forma concisa para que incluso un ingeniero de software principiante pueda entenderlo"

Cómo construir un tokenizador GPT por Andrej Karpathy [Video]

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News