- Tesla presentó como código abierto Tesla Transport Protocol over Ethernet (TTPoE) en HotChips 2024
- Tesla se unió al Ultra Ethernet Consortium (UEC) para compartir este protocolo y trabajar en la estandarización de una nueva fabric de alta velocidad y baja latencia para AI/ML/centros de datos
- TTPoE busca ser no propietario, de bajo costo, con control de congestión distribuido, tramas EthernetII estándar y un protocolo de interconexión no centralizado
- Características de TTPoE
- Al igual que TCP, permite pérdida de paquetes y retransmisión, pero garantiza la transferencia completa
- La implementación inicial de TTPoE se realizó en el proyecto Tesla Dojo v1
- El protocolo corre completamente en hardware y fue desplegado en una supercomputadora multiexaflop (fp16) de escala masiva con decenas de miles de endpoints simultáneos
- Este protocolo puede establecer y operar enlaces sin intervención de la CPU ni del OS
- Este protocolo no es complejo ni pretende ser "inteligente", sino que se basa en principios fundamentales
- La transmisión por Ethernet consiste esencialmente en mover datos de A a B, y solo debería estar limitada por las restricciones físicas
- En sistemas de escala muy grande, la gestión centralizada de congestión es un intento absurdo; cada endpoint debe ser resiliente y autoadministrado
Opinión de GN⁺
- TTPoE es un intento interesante de superar las limitaciones del protocolo TCP existente en entornos de computación de alto rendimiento
- Su objetivo principal parece ser minimizar la latencia y maximizar el throughput mediante hardware offloading y una máquina de estados simplificada
- TTPoE tiene potencial para mejorar la velocidad de transferencia de datos y la latencia en los campos de AI y ML
- Que Tesla haya publicado este protocolo como código abierto ayudará a acelerar la innovación en el campo de HPC
- Aun así, parece difícil que TTPoE reemplace por completo a TCP en redes de propósito general; es una solución optimizada para redes dedicadas de alta calidad. Para que TTPoE sea adoptado ampliamente, serán importantes la estandarización y la construcción de un ecosistema
- Protocolos con funciones similares incluyen RoCE (RDMA over Converged Ethernet) y NVLink
1 comentarios
Hay otro artículo que explica TTPoE con un poco más de detalle.
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications
Panorama general de TTPoE
Necesidad de TTPoE
Características de TTPoE
Control de congestión de TTPoE
Implementación de hardware de TTPoE
Mojo NIC
Resumen