Escalar Kubernetes hasta 7,500 nodos
(openai.com)-
OpenAI comparte su experiencia escalando k8s para GPT-3, DALL·E y otros
-
Normalmente no se escala un clúster único hasta 7,500 nodos, así que se requiere una gestión especial, pero hacerlo permite tener una infraestructura más simple y escalar cómodamente sin cambios de código
-
La aplicación y el hardware son un poco distintos al entorno de una empresa común
→ La GPU debe usar por completo el hardware del nodo mediante NVLink, GPUDirect, etc.
→ Por eso, normalmente un solo Pod ocupa todo el nodo
→ Es decir, aunque hay muchos nodos, la carga para el scheduler es relativamente baja
- Redes
→ Como aumentó mucho la cantidad de pods/nodos, cambiaron a Native Pod Networking
→ Cambiaron el manejo de direcciones IP a uno basado en alias, para poder usar 200,000 IP en cualquier momento
- API Server
→ Usan el dashboard de Grafana que ofrece kube-prometheus
→ Es útil alertar sobre HTTP 429 (Too Many Requests) y 5xx (Server Error) como señales de problemas de alto nivel
→ El servidor API siempre se ejecuta fuera del clúster
1 comentarios
Es un texto bastante largo... como no creo que vaya a tener que armar un clúster de esta escala, solo trasladé un resumen breve.