Diseño de enfriamiento a 45°C reduce casi a cero el uso de agua en centros de datos
(blogs.nvidia.com)- A medida que aumenta la densidad de potencia de los servidores de IA, el enfriamiento se ha convertido en un cuello de botella clave para los costos y el uso de agua en los centros de datos, y NVIDIA propone en la generación Rubin un diseño que opera el refrigerante hasta 45°C
- La infraestructura de IA de la generación Rubin adopta una arquitectura de enfriamiento 100% líquido que enfría sin ventiladores incluso los chips y los componentes de red, con un enfoque centrado en un circuito cerrado y dry coolers
- En climas favorables, puede reducir casi a cero los cerca de 2.6 millones de galones de agua por megavatio al año que consumían los sistemas tradicionales basados en torres de enfriamiento, logrando hasta 100% de ahorro
- El refrigerante a 45°C absorbe el calor del chip y, aunque sale a unos 55°C, se mantiene dentro de los límites operativos validados, por lo que el servidor depende menos del aire frío
- El enfriamiento totalmente líquido reduce ventiladores, pasillos fríos y calientes, y el espacio de infraestructura de aire, además de aumentar la densidad de racks para aliviar la carga de costos de enfriamiento derivada del crecimiento de la demanda de cómputo de IA
Enfriamiento 100% líquido en la generación Rubin
- Los servidores de IA más recientes de NVIDIA pueden operar con refrigerante de hasta 45°C, es decir, 113°F
- La infraestructura de IA de NVIDIA de la generación Rubin logra un enfriamiento 100% líquido para todos los chips y componentes de red
- No hay ventiladores en ninguna parte del sistema
- El enfriamiento ocurre dentro de un circuito cerrado
- Este enfoque está incluido en el diseño de referencia de fábrica de IA NVIDIA DSX, que reúne mejores prácticas de diseño, construcción y operación para la pila de infraestructura de fábricas de IA
- A medida que cada generación mejora el rendimiento de cómputo por watt, una infraestructura de cómputo de IA con enfriamiento totalmente líquido puede reducir significativamente el consumo de energía para enfriamiento en centros de datos hyperscale
Una arquitectura para reducir el uso de agua y electricidad
- El diseño de referencia de fábrica de IA NVIDIA DSX apunta a consumo de agua cero y busca reducir tanto el alto uso de electricidad como casi todo el uso de agua
- El diseño basado en dry coolers usa un sistema de circuito cerrado, por lo que no utiliza enfriamiento evaporativo por agua
- En algunos climas, podría requerirse un chiller solo alrededor de 1% del año
- Históricamente, el enfriamiento ha representado hasta 40% del consumo eléctrico de un centro de datos
- Según estimaciones de la industria, aumentar en 1°C la temperatura de una planta de chillers puede reducir en alrededor de 4% los costos energéticos de enfriamiento
- Una instalación hyperscale de 50MW puede ahorrar más de 4 millones de dólares al año en costos de energía y agua relacionados con el enfriamiento al cambiar a infraestructura de enfriamiento líquido
- En climas favorables, una arquitectura de enfriamiento líquido a 45°C permite operar sin chiller y reducir casi a cero el uso anual de cerca de 2.6 millones de galones de agua por megavatio de los sistemas tradicionales basados en torres de enfriamiento
Un centro de datos frío no siempre es más eficiente
- Durante mucho tiempo, en la industria se ha asumido que un centro de datos frío es eficiente
- En realidad, los chips pueden funcionar en entornos mucho más cálidos de lo que sugiere la intuición
- Cuando entra refrigerante a 45°C a un chip con enfriamiento totalmente líquido, absorbe el calor en la superficie del chip y sale a unos 55°C
- Incluso en ese proceso, el rendimiento no se degrada
- La cold plate de enfriamiento líquido mantiene la temperatura del dispositivo dentro de los límites operativos validados
- Aunque el refrigerante que entra al rack esté a 45°C, el procesador sigue funcionando al máximo rendimiento
- Como los servidores no dependen del aire frío, la temperatura ambiente del centro de datos puede configurarse con más flexibilidad
Una estructura de servidor con menos ventiladores y pasillos fríos/calientes
- Los centros de datos tradicionales dependen mucho del ruido de los ventiladores y de la gestión de pasillos fríos y calientes
- Los ventiladores de enfriamiento pueden elevar el ruido total a más de 85dB
- Ese nivel es lo bastante alto como para requerir equipo de protección auditiva
- La arquitectura Rubin cambia el enfoque del enfriamiento: del flujo de aire a un circuito líquido
- El refrigerante está compuesto por 75% agua y 25% propilenglicol
- Este refrigerante pasa por cold plates colocadas directamente sobre los procesadores y absorbe el calor desde la fuente
- Operar el refrigerante hasta 45°C permite, en muchos climas, que el circuito de la instalación expulse el calor sin chillers mecánicos ni ventiladores ruidosos
- En ubicaciones adecuadas, la unidad de distribución de enfriamiento captura el calor en la fuente y lo envía a dry coolers, que toman la forma de grandes serpentines radiadores fuera del edificio
- El circuito se llena una sola vez y luego opera cerrado durante toda la vida útil de la instalación
- Ocupa mucho menos espacio dentro de la fábrica de IA que la infraestructura tradicional de enfriamiento por aire
Condiciones climáticas y aprovechamiento del calor residual
- La ubicación geográfica es una restricción importante
- Un centro de datos en Scottish Highlands y otro en Phoenix, Arizona, enfrentan realidades de enfriamiento diferentes
- Incluso en climas cálidos, el refrigerante a 45°C acerca más la operación sin chiller
- El chiller podría encenderse solo durante unos pocos días en que la temperatura exterior lo requiera
- El nuevo modelo de fábrica de IA también ofrece la posibilidad de recuperación de calor residual
- El calor sobrante de la operación de una fábrica de IA puede reutilizarse para calefacción en edificios comerciales o residenciales cercanos
Cambios de ingeniería para lograr enfriamiento totalmente líquido
- Los servidores anteriores con enfriamiento líquido usaban una estructura híbrida
- GPU y CPU utilizaban cold plates
- El resto del sistema dependía de disipadores tipo aleta y enfriamiento por aire
- En un servidor con enfriamiento totalmente líquido, fue necesario rediseñar esos componentes para enfriarlos con líquido
- El equipo de ingeniería térmica de NVIDIA simplificó la forma de suministrar líquido a varios chips de alta potencia
- Enruta el líquido a múltiples chips de la placa con una única entrada y salida
- Esto da lugar a una arquitectura de enfriamiento a nivel de bandeja más limpia
- También cambian la forma del servidor y la densidad de instalación
- Los servidores Rubin tienen un panel frontal limpio y sellado en lugar del bisel perforado de los servidores con enfriamiento por aire
- Los servidores con enfriamiento totalmente líquido permiten una mayor densidad de rack que los de aire
- Un sistema que antes ocupaba 6U ahora cabe en 2U, ofreciendo más cómputo en menos espacio y con menos ruido
Escalado de infraestructura de IA y eficiencia de enfriamiento
- Las cargas de trabajo de IA no se están volviendo más ligeras
- La demanda de cómputo que impulsa la construcción de centros de datos crece más rápido que casi cualquier otra categoría de inversión en infraestructura
- Sin mejoras de eficiencia en la forma de enfriar el cómputo, los costos energéticos de las operaciones de IA a gran escala crecerán junto con el aumento del hardware
- El enfriamiento líquido de hasta 45°C se convierte en una herramienta para reducir la brecha entre la expansión del hardware y los costos de enfriamiento
1 comentarios
Comentarios en Hacker News
La condición de “regiones donde el aire exterior es establemente fresco” es justo la trampa
Suena como decir: “construyamos centros de datos en lugares fríos para ahorrar recursos de enfriamiento, y tiremos todo el calor residual al entorno para contaminarlo”
Casi pensé que Nvidia había hecho algo bueno
Bajas temperaturas, mucho espacio vacío, pocos grandes problemas ambientales naturales, y aunque los hubiera, no habría muchos ciudadanos protestando
Si se necesitara más agua para enfriar, probablemente podrían sacar suficiente del hielo que se derrite
Calefacción gratis suena bien, ¿no?
Hasta Linus calienta su piscina con el calor sobrante de la CPU
La clave es no asustarse y usarlo con inteligencia; la IA y los centros de datos van a seguir ahí, así que en vez de pelear, se puede monetizar el calor residual
Solo había escuchado que el calor residual de las plantas nucleares es un problema cuando descargan el agua de enfriamiento directamente a ríos en vez de al mar
Por ejemplo, se puede usar para calefacción residencial
Se crea una sinergia interesante: calefacción distrital
45°C es bajo, pero no tanto como para que no pueda usarse en una red de circulación de calefacción distrital, y si un centro de datos ofreciera ese calor gratis, podría hacerle una propuesta bastante buena a la comunidad local
El valor comunitario de un centro de datos cercano podría pasar de casi 0 a varios millones de dólares al año
El verano sigue siendo un problema, pero también podrían existir soluciones interesantes
Si las condiciones geológicas son adecuadas, parecería posible calentar espacios subterráneos en verano y recuperar parte de ese calor en invierno
En muchas zonas climáticas, a menos que la gente use tragaluces de forma tonta, el costo anual de calefacción es mucho mayor que el de refrigeración [0]
[0] En un cálculo aproximado, la carga de calefacción y refrigeración por conducción e intercambio de aire es proporcional a la diferencia de temperatura entre el interior y el exterior
Temperaturas exteriores invernales de -10°F a 30°F no son raras, y eso implica una diferencia de 40°F a 80°F respecto a un interior de 70°F
En cambio, en verano, en este tipo de climas, es raro que la temperatura exterior supere los 95°F y normalmente es más baja, así que la diferencia para refrigeración ronda entre 15°F y 25°F
Las bombas de calor también son más eficientes cuanto menor es la diferencia de temperatura
La calefacción por radiación es un tema completamente distinto
En las nuevas construcciones, lo habitual ya es usar bombas de calor [1]
El centro de datos de 75MW en Mäntsälä ha suministrado durante 10 años dos tercios de la calefacción del pueblo, es decir, el equivalente a 2,500 hogares [2]
Las bombas de calor son realmente impresionantes
El almacenamiento térmico estacional también es una tecnología que ya se usa, y cerca de Espoo hay depósitos con capacidad de decenas de GWh, además de un nuevo almacenamiento en caverna de 90GWh en desarrollo
No sé si esos sistemas están conectados entre sí
También me pareció interesante que el artículo dijera que este problema de ingeniería nunca se había resuelto antes
Google ya había sido pionera en operar chips a temperaturas más altas que antes, y la refrigeración líquida existe en PCs de consumo desde hace muchísimo tiempo
Al menos 30 años
Lo nuevo, según parece, es que conectaron todos los chips al circuito de circulación, pero no pude encontrar cómo resolvieron el tema de la PSU
Y que luego regresara por debajo de 45°C
Probablemente también en la mayoría de los centros de datos del hemisferio norte donde hay inviernos fríos
Puede que se me esté escapando algo, pero no termino de ver cuál es la innovación aquí
Entiendo que usan un líquido refrigerante a una temperatura más alta de lo habitual, pero no sé por qué antes no se podía hacer
La comparación del artículo es sobre todo con centros de datos con refrigeración por aire, pero ¿cómo queda frente a otros centros de datos con refrigeración líquida?
En diseños anteriores de centros de datos, seguramente alguien ya había calculado la temperatura de operación necesaria, el consumo de energía, la cantidad de calor generada, etc.
Edit: acabo de ver esta parte
“Los servidores tradicionales con refrigeración líquida eran híbridos. GPU y CPU llevaban cold plates, pero el resto del sistema seguía refrigerado por aire, y los disipadores con aletas estaban diseñados para extraer calor con aire en movimiento. En un servidor totalmente refrigerado por líquido, hubo que rediseñar por completo la refrigeración de esos componentes para que fuera totalmente basada en líquido.”
Lo demás suena más a marketing
Las supercomputadoras Cray ya usaban refrigeración por fluido en los años 80, y por toda la placa circulaba un líquido inerte
Subir un poco más a partir de ahí quizá no sea fascinante, pero igual puede considerarse una innovación
Hay una compensación entre el costo de refrigeración y la tasa de fallas / la inversión de capital
Estos componentes pueden superar fácilmente los 100°C, así que mantener estable un circuito de circulación a 55°C probablemente requiere bastante trabajo
La innovación podría estar en qué tan rápido y en qué volumen hacen circular el refrigerante por distintas partes del centro de datos para controlar la temperatura
Claro, eso también incluye rediseñar todos los componentes para que sean compatibles con una arquitectura sin ventiladores
Da la impresión de que Nvidia pudo hacerlo porque hoy está mucho más integrada verticalmente que antes
Pero de algún modo el enfoque moderno se consolidó en torno a usar y descargar agua
Parece que los centros de datos, igual que otras instalaciones industriales, buscan ciudades, condados o estados donde los dejen hacer lo que quieran, operan a su conveniencia y luego eso termina viéndose como si fuera la única forma posible
Aunque varias comunidades se han opuesto y denunciado daños ambientales, se las ignoró; pero si se presenta como una especificación técnica, quizá sí se acepte
Dice “la arquitectura de refrigeración líquida a 45 grados de Nvidia en climas favorables…”, pero claro, me quedé con la duda de qué se considera exactamente un clima favorable fuera de Greenland
El texto se queda muy corto en la relación entre temperatura exterior y eficiencia/costo
Me habría gustado al menos una explicación general
En Alemania la temperatura puede subir bastante, pero según el personal técnico, solo hace falta refrigeración activa, o sea tipo aire acondicionado, cuando se llega a valores de finales de los 30 °C
La tecnología en sí es bastante interesante
https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
Para garantizar una temperatura de salida de 45°C, el aire exterior tendría que estar aproximadamente en 37°C o menos
En la mayoría de los lugares, durante parte del tiempo igual se necesitarían torres de enfriamiento o compresores, así que habría que construir toda esa infraestructura de todos modos
Aun así, con solo reducir el uso ya se puede ahorrar mucha agua o energía
Por ejemplo, uno podría pensar que las afueras de London son bastante templadas, pero solo esta semana probablemente habría hecho falta refrigeración auxiliar
En los centros de datos de aquí, los sistemas de enfriamiento se diseñan para aguantar temperaturas exteriores de más de 40°C, y ese valor ya ni siquiera es una suposición conservadora
Además, aunque Nvidia esté conforme con un suministro de agua a 45°C, es muy posible que la vida útil del hardware sea mayor a temperaturas más bajas, como 35°C
Las GPU son caras, y prolongar su vida útil podría valer más que gastar un poco más de agua o energía
En la práctica, probablemente también haya sistemas refrigerados por aire “al lado” del equipo de cómputo para IA, como servidores de almacenamiento, equipos adicionales de cómputo con CPU o switches de red
Así que quizá igual hagan falta espacios y sistemas de refrigeración separados
Aun así, es un gran avance
Incluso después de leer esto, no entiendo por qué sería un avance decisivo
Parece lo mismo que un circuito cerrado de refrigeración que ya existe en la mayoría de las aplicaciones comerciales e industriales de enfriamiento
El artículo dice que, en un clima adecuado, se puede poner afuera un radiador para disipar el calor del circuito de agua/glicol
Entonces, ¿eso no significa que fuera del Ártico igual hace falta un circuito de condensación?
¿Qué me estoy perdiendo?
La Modular Supercomputing Facility del NASA Ames Research Center es muy eficiente en términos de consumo eléctrico y de agua
Esta instalación no usa aire acondicionado
Los chips se refrigeran por líquido y, por lo que sé, la temperatura de entrada del agua también es bastante alta; creo que ronda los 90°F
https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...
¿No se supone que el ejército de EE. UU. y la NASA ya usan el sistema métrico?
Para resumirlo para quienes se decepcionaron con ese horrible texto escrito por IA, esto trata sobre un diseño de centro de datos totalmente refrigerado por agua
La forma habitual de enfriar servidores es como en una desktop o laptop: se ponen disipadores en el hardware caliente y se enfría con aire
Cuanto más denso y potente se vuelve el hardware, más grandes deben ser los disipadores y más frío debe ser el aire
Llega un punto en que, por limitaciones de espacio, ya no se pueden agrandar más los disipadores, y por ruido y eficiencia tampoco se puede soplar el aire más rápido
Entonces se termina usando enfriadores que evaporan agua para enfriar el aire de entrada
Ahí es donde aparece ese enorme consumo de agua que queremos evitar
El siguiente paso lógico es la refrigeración líquida
Esto también se parece a una desktop gamer de gama alta
En el interior, donde el espacio es limitado, se transfiere mucho calor a un medio líquido mediante un pequeño intercambiador de calor, y afuera se puede disipar el calor con un intercambiador enorme aunque la diferencia de temperatura entre el refrigerante y el aire exterior sea pequeña
Este artículo trata sobre un sistema que usa refrigeración líquida total para CPU, GPU, memoria y redes
Esa es justamente la parte genial
Además, esta solución está optimizada para operar con el refrigerante a una temperatura bastante alta
Eso limita el flujo de calor del lado del hardware, pero permite operar el intercambiador de calor externo en modo “seco” y evitar desperdiciar el calor latente del agua
Comparado con muchos otros usos, el consumo de agua de los centros de datos ya era casi cero
Siempre me deprime ver tanto esfuerzo y tanta publicidad vendiendo como “solución de un problema” algo que desde el principio se parecía más a un tema de PR o de imagen
Por qué exactamente 45°C y por qué refrigeración por agua
Parece una elección rara diseñar todo para temperatura ambiente o para aire apenas más frío
Ya estamos alrededor de 290K~300K, así que básicamente están diciendo que ahora funciona bien incluso a 320K o 330K, ¿no?
Me preguntaba por qué no diseñarlo simplemente para operar cerca de 200°C y usar enfriamiento libre empujando aire ambiente
¿Por qué los centros de datos no tienen forma de gallinero?
¿Hay algo que se derrite?
¿Aparecen más errores de otro tipo a altas temperaturas?
Son materiales que pueden pasar de aislantes a conductores con muy poca energía adicional
En cambio, los buenos aislantes se queman o se convierten en plasma antes de empezar a conducir
Al final, energía es energía, así que si el calor del entorno es lo bastante alto, la pequeña banda prohibida puede empujar electrones a órbitas más altas
Esto también ocurre a temperaturas ambiente normales, pero los electrones no llegan lejos y no son muchos
A 200°C, una compuerta cerrada ya no puede bloquear suficientemente el movimiento de electrones
Esa es una explicación técnica bastante aproximada, y en YouTube Project in Flight tiene un video que explica bien cómo funcionan los semiconductores
Las propiedades eléctricas de los semiconductores cambian mucho con la temperatura
Harían falta chips completamente distintos y un proceso de fabricación completamente diferente