- Un tokenizador de alto rendimiento 100% compatible con TikToken de OpenAI que ofrece más del doble de rendimiento y una tokenización de código 4 veces más rápida en el procesamiento de texto a gran escala
- Motor de parsing de expresiones regulares de alta velocidad basado en PCRE2 para maximizar la velocidad de coincidencia de patrones de tokens
- Algoritmo BPE simplificado para minimizar la degradación del rendimiento al manejar grandes volúmenes de tokens especiales
- En benchmarks reales, la tokenización de código es más de 4 veces más rápida, y puede usarse como reemplazo directo del código existente que utiliza TikToken
- Compatible con Python 3.8+, se puede instalar fácilmente desde PyPI con
pip install tokendagger y tiene una dependencia de PCRE2
1 comentarios
Comentarios de Hacker News