Velocidad, escalabilidad y confiabilidad: 25 años de evolución del networking de centros de datos de Google
(cloud.google.com)- La red de Google no se construyó de la noche a la mañana, sino que evolucionó durante 25 años de innovación en ingeniería e hitos hasta llegar a la arquitectura de red de centros de datos Jupiter de quinta generación actual
- Actualmente, la red Jupiter puede escalar hasta 13 petabits por segundo de ancho de banda bidireccional. Eso equivale a que los 8 mil millones de personas en la Tierra pudieran hacer videollamadas simultáneamente (@1.5Mb/s)
Principios clave
- Cualquier cosa, en cualquier lugar: la red de centros de datos de Google permite ubicar trabajos a gran escala en cualquiera de más de 100 mil servidores dentro del mismo fabric de red. Esta escala mejora el rendimiento de las aplicaciones para cargas de trabajo internas y externas, y elimina la fragmentación interna
- Latencia baja y predecible: se prioriza un rendimiento consistente y la minimización de la latencia de cola mediante el aprovisionamiento de holgura de ancho de banda, el mantenimiento de una disponibilidad de red de 99.999% y la gestión anticipada de la congestión a través de la colaboración entre los hosts finales y el fabric
- Definido por software y centrado en el sistema: para lograr flexibilidad y agilidad, se aprovecha el software-defined networking (SDN) para validar decenas de nuevas funciones cada dos semanas en la red global y lanzarlas a nivel mundial
- Evolución gradual y topología dinámica: la evolución gradual permite renovar la red en detalle sin interrumpirla por completo, y la topología dinámica ayuda a adaptarse continuamente a las cambiantes demandas de las cargas de trabajo. La combinación de optical circuit switching y SDN permite actualizaciones físicas y una red heterogénea en constante evolución que soporta múltiples generaciones de hardware dentro de un solo fabric
- Ingeniería de tráfico y QoS centrada en la aplicación: optimizar los flujos de tráfico y garantizar la calidad del servicio ayuda a personalizar la red según las necesidades de cada aplicación
- La red Jupiter de SDN propia de Google ofrece más de 50 veces la confiabilidad de la generación anterior
Historia de la evolución
2015 - Jupiter, la primera red de petabit
- Google mostró que la red de centros de datos Jupiter escalaba a un ancho de banda total de 1.3 Pb/s aprovechando silicio de switching comercial, topología Clos y software-defined networking (SDN)
- En ese momento, la velocidad de transferencia de datos de un solo centro de datos de Google era mayor que la velocidad total estimada del tráfico global de datos IP en Internet
2022 - Soporte para 6 petabits por segundo
- Google anunció que la red Jupiter escalaba a más de 6Pb/s mediante una profunda integración de optical circuit switching (OCS), wavelength division multiplexing (WDM) y el controlador SDN Orion, altamente escalable
- Estas tecnologías permitieron múltiples avances, incluyendo despliegue incremental de la red, mejor rendimiento, reducción de costos, menor consumo energético, gestión dinámica del tráfico y actualizaciones sin interrupciones
2023 - Red de 13 petabits por segundo
- Google mejoró aún más Jupiter para soportar una velocidad de enlace base de 400Gb/s en el núcleo de la red
- El componente básico de la red Jupiter (llamado bloque de agregación) ahora consta de 512 puertos que soportan 400Gb/s de ancho de banda bidireccional non-blocking para los hosts finales y el resto del centro de datos
- Soporta 64 de estos bloques para un ancho de banda total bidireccional de 64*204.8 Tb/s = 13.1 Pb/s
- Esta tecnología ya lleva más de un año impulsando los centros de datos de producción de Google y está acelerando el rápido avance de la inteligencia artificial, el machine learning, la búsqueda web y otras aplicaciones intensivas en datos
2024 en adelante - Networking extremo para la era de la IA
- Google ya ha definido la dirección de la infraestructura de red de próxima generación que dará soporte a la IA en el futuro
- Está trabajando en los requisitos de infraestructura de red para la VM A3 Ultra de próxima generación basada en GPU, con networking NVIDIA ConnectX-7
- Esto soporta 3.2 Tbps non-blocking por servidor para tráfico entre GPU a través de RoCE(RDMA over converged ethernet)
- También se está trabajando en futuros productos basados en NVIDIA GB200 NVL72
En los próximos años, se espera dar soporte a aplicaciones y servicios transformadores mediante avances significativos en el ancho de banda por puerto y en toda la red, la escala, una mayor integración con el host final, ingeniería de topología en tiempo real, integración profunda con el stack de cómputo/almacenamiento y mejoras en el balanceo de carga basado en host
Aún no hay comentarios.