Entendiendo el tokenizador de GPT
(simonwillison.net)- Los modelos LLM como GPT/LLaMA/PaLM funcionan sobre la base de tokens
- Reciben texto, lo convierten en tokens (integers) y predicen qué token vendrá después
- OpenAI publicó su Tokenizer, pero el autor también publicó su propia versión en un cuaderno de Observable (basada en GPT-2 y con fines educativos)
- Soporta conversión de texto a tokens, de tokens a texto y búsqueda en la tabla completa de tokens
-
The dog eats the apples
El perro come las manzanas
片仮名 - Explica usando el resultado de convertir esas oraciones en tokens
Theytheson tokens distintos- Muchas palabras tienen tokens que incluyen un espacio al inicio (mucho más eficiente para codificar oraciones completas)
- Las palabras que no son inglés se tokenizan de forma ineficiente
Aún no hay comentarios.