4 puntos por xguru 2021-01-27 | 1 comentarios | Compartir por WhatsApp
  • OpenAI comparte su experiencia escalando k8s para GPT-3, DALL·E y otros

  • Normalmente no se escala un clúster único hasta 7,500 nodos, así que se requiere una gestión especial, pero hacerlo permite tener una infraestructura más simple y escalar cómodamente sin cambios de código

  • La aplicación y el hardware son un poco distintos al entorno de una empresa común

→ La GPU debe usar por completo el hardware del nodo mediante NVLink, GPUDirect, etc.

→ Por eso, normalmente un solo Pod ocupa todo el nodo

→ Es decir, aunque hay muchos nodos, la carga para el scheduler es relativamente baja

  • Redes

→ Como aumentó mucho la cantidad de pods/nodos, cambiaron a Native Pod Networking

→ Cambiaron el manejo de direcciones IP a uno basado en alias, para poder usar 200,000 IP en cualquier momento

  • API Server

→ Usan el dashboard de Grafana que ofrece kube-prometheus

→ Es útil alertar sobre HTTP 429 (Too Many Requests) y 5xx (Server Error) como señales de problemas de alto nivel

→ El servidor API siempre se ejecuta fuera del clúster

1 comentarios

 
xguru 2021-01-27

Es un texto bastante largo... como no creo que vaya a tener que armar un clúster de esta escala, solo trasladé un resumen breve.