Entendiendo el tokenizador de GPT

xguru · 2023-06-12T10:57:14+09:00

Los modelos LLM como GPT/LLaMA/PaLM funcionan sobre la base de tokens Reciben texto, lo convierten en tokens (integers) y predicen qué token vendrá después OpenAI publicó su Tokenizer, pero el autor también publicó su propia versión en un cuaderno de Observable (basada en GPT-2 y con fines educativos) Soporta conversión de texto a tokens, de tokens a texto y búsqueda en la tabla completa de tokens The dog eats the apples El perro come las manzanas 片仮名 Explica usando el resultado de convertir esas oraciones en tokens The y the son tokens distintos Muchas palabras tienen tokens que incluyen un espacio al inicio (mucho más eficiente para codificar oraciones completas) Las palabras que no son inglés se tokenizan de forma ineficiente

(simonwillison.net)

15 puntos por xguru 2023-06-12 | Aún no hay comentarios. | Compartir por WhatsApp

Los modelos LLM como GPT/LLaMA/PaLM funcionan sobre la base de tokens
Reciben texto, lo convierten en tokens (integers) y predicen qué token vendrá después
OpenAI publicó su Tokenizer, pero el autor también publicó su propia versión en un cuaderno de Observable (basada en GPT-2 y con fines educativos)
- Soporta conversión de texto a tokens, de tokens a texto y búsqueda en la tabla completa de tokens
The dog eats the apples
El perro come las manzanas
片仮名
Explica usando el resultado de convertir esas oraciones en tokens
- The y the son tokens distintos
- Muchas palabras tienen tokens que incluyen un espacio al inicio (mucho más eficiente para codificar oraciones completas)
- Las palabras que no son inglés se tokenizan de forma ineficiente

Entendiendo el tokenizador de GPT

Lecturas relacionadas

Aún no hay comentarios.