- Convierte redes neuronales profundas en código C++ CUDA (GPU de NVIDIA) / HIP (GPU de AMD) para inferencia rápida
- En modelos principales como ResNet, BERT, VisionTransformer y Stable Diffusion, se acerca al rendimiento de roofline fp16 de TensorCore/MatrixCore
- Open source unificado, abierto y flexible
- Excelente compatibilidad hacia atrás (sin dependencias de bibliotecas/runtime de terceros). Cada modelo se compila como un binario portable
- Horizontal Fusion / Vertical Fusion / Memory Fusion
- Funciona con y sin PyTorch
Aún no hay comentarios.