- El tamaño de instalación base es de 21 MB, entre 80 y 171 MB más pequeño que bibliotecas alternativas
- La velocidad de fragmentación por tokens es 33 veces más rápida que la de otras bibliotecas populares
- Soporta diversas estrategias de fragmentación como tokens, palabras, oraciones, semántica y SDPM
- Compatible con los principales tokenizadores como transformers, tokenizers y tiktoken
- No tiene dependencias externas para las funciones básicas
Optimizaciones técnicas
- Usa tiktoken con soporte de multihilo para una tokenización más rápida
- Implementa caché agresiva y precálculo
- Usa Running Mean Pooling para una fragmentación semántica eficiente
- Sistema modular de dependencias que permite instalar solo lo necesario
Aún no hay comentarios.