15 puntos por xguru 2023-06-12 | Aún no hay comentarios. | Compartir por WhatsApp
  • Los modelos LLM como GPT/LLaMA/PaLM funcionan sobre la base de tokens
  • Reciben texto, lo convierten en tokens (integers) y predicen qué token vendrá después
  • OpenAI publicó su Tokenizer, pero el autor también publicó su propia versión en un cuaderno de Observable (basada en GPT-2 y con fines educativos)
    • Soporta conversión de texto a tokens, de tokens a texto y búsqueda en la tabla completa de tokens
  • The dog eats the apples
    El perro come las manzanas
    片仮名

  • Explica usando el resultado de convertir esas oraciones en tokens
    • The y the son tokens distintos
    • Muchas palabras tienen tokens que incluyen un espacio al inicio (mucho más eficiente para codificar oraciones completas)
    • Las palabras que no son inglés se tokenizan de forma ineficiente

Aún no hay comentarios.

Aún no hay comentarios.