La refrigeración líquida de Google: presentada en Hot Chips 2025
(chipsandcheese.com)- La refrigeración líquida se está expandiendo rápidamente para resolver los problemas de calor de los chips de alta potencia en los centros de datos
- Tiene una conductividad térmica unas 4,000 veces mayor que el aire, y Google la está adoptando de forma activa especialmente para responder a la demanda de enfriamiento de TPU impulsada por el boom de la IA
- Google opera bucles de refrigeración líquida a nivel de rack basados en CDU (Coolant Distribution Unit), lo que mejora el mantenimiento y la escalabilidad
- Aplica a escala de centro de datos técnicas del mercado de PC de alto rendimiento, como split-flow cold plate y refrigeración bare-die (TPUv4)
- La refrigeración líquida es eficiente, con un consumo eléctrico inferior al 5% frente a los ventiladores, y para enfrentar problemas como fugas o crecimiento microbiano, Google combina validación rigurosa, sistemas de alerta y mantenimiento preventivo
- NVIDIA, Rebellions AI y otras también están adoptando refrigeración líquida, lo que acelera la estandarización de la refrigeración en centros de datos
Necesidad y contexto de la refrigeración líquida
- La refrigeración líquida es familiar entre los entusiastas de PC y también tiene una larga historia en entornos de cómputo empresarial
- Recientemente, el aumento del consumo energético de las cargas de trabajo de IA y aprendizaje automático ha ampliado de forma importante la relevancia de la refrigeración líquida en los centros de datos
- Google puso atención en que la conductividad térmica del agua es unas 4,000 veces mayor que la del aire, y la adoptó como respuesta al alto calor de los chips más recientes
- En Hot Chips 2025, Google presentó un enfoque de refrigeración líquida a nivel de centro de datos relacionado con el enfriamiento de las TPU, sus aceleradores de aprendizaje automático
Estructura del sistema de refrigeración líquida de Google
- Google aplica refrigeración líquida a las TPU desde 2018, pasando por diversos experimentos y mejoras
- La solución de refrigeración más reciente no se limita al interior del servidor, sino que aplica un bucle de refrigeración líquida a todo el rack
- Un rack de refrigeración está compuesto por 6 CDU (Coolant Distribution Unit), que cumplen una función similar a la de un combo radiador+bomba en una PC
- La incorporación de mangueras flexibles y acoples de desconexión rápida mejora la facilidad de mantenimiento y la tolerancia durante la instalación
- Incluso con solo 5 de las 6 CDU en operación, el sistema puede enfriar lo suficiente, por lo que no es necesario detener toda la operación durante el mantenimiento de una unidad
Intercambio de calor y disposición de los chips
- La CDU intercambia únicamente calor entre el refrigerante interno y el agua de suministro externo del centro de datos; los dos líquidos no se mezclan directamente
- El refrigerante que sale de la CDU se distribuye a múltiples servidores TPU a través de un manifold
- La conexión de los chips TPU sigue una estructura secuencial (en serie), y el presupuesto total de refrigeración se calcula con base en la demanda térmica del último chip del bucle
Optimización de la tecnología de refrigeración
- Se aplica una estructura de split-flow cold plate, con mejor rendimiento de enfriamiento que los diseños lineales tradicionales
- Además, se emplea refrigeración bare-die (en TPUv4; la TPUv3 anterior usaba lidded), similar al ‘delidding’ que suelen usar los entusiastas de PC de gama alta para mejorar la transferencia térmica
- TPUv4 requiere este método adicional de enfriamiento porque consume 1.6 veces más energía que la v3
Eficiencia energética y transferencia de calor
- El consumo eléctrico de las bombas de refrigeración líquida es inferior al 5% del consumo de los ventiladores de los sistemas tradicionales por aire
- El sistema de Google utiliza un esquema de intercambio de calor agua a agua, por lo que la fuerza real de enfriamiento recae principalmente en las bombas
- En el entorno de los entusiastas de PC aún predominan las combinaciones de ventilador y radiador, por lo que la ventaja energética no es tan grande como en los centros de datos
Mantenimiento, confiabilidad y seguridad
- Desde la perspectiva del mantenimiento, riesgos comunes de los sistemas de refrigeración por agua como la proliferación microbiana o las fugas también existen a escala de centro de datos
- Con fittings de desconexión rápida, CDU de respaldo y otros mecanismos pensados para el mantenimiento, se busca una gestión a gran escala sin tiempo de inactividad
- Google ha establecido mantenimiento preventivo, pruebas de fugas, detección de señales anómalas y protocolos de respuesta sistemáticos para asegurar consistencia y confiabilidad a nivel organizacional
- Esto contrasta con las prácticas informales de mantenimiento de los entusiastas individuales de PC
Tendencias de la industria y auge de la IA
- NVIDIA, Rebellions AI y otras también mostraron diversos sistemas externos de refrigeración líquida en la exhibición de Hot Chips 2025
- Servidor NVIDIA GB300: incorpora juntos puertos externos de refrigeración líquida y ventiladores
- Rebellions AI, empresa coreana, demostró el prototipo de su nuevo acelerador de ML ‘REBEL Quad’ con un enfoque similar que combina cooler y chiller
- Se espera que el aumento de las cargas de trabajo de IA acelere aún más la demanda y la adopción de la refrigeración líquida para centros de datos
1 comentarios
Comentarios en Hacker News
Recuerdo haber visto hace tiempo una entrevista con el SVP a cargo de la construcción de centros de datos de Azure; se me quedó grabado cuando dijo que, en cierto punto, se dio cuenta de que ya no trabajaba en el negocio de las computadoras sino en el de la refrigeración industrial, y que eso le hizo el trabajo mucho más fácil. Al leer este artículo, pensé inmediatamente en esa historia.
Los mainframes (S/3x0, Cray, etc.) han usado refrigeración por agua de forma extensiva durante más de 50 años, y los centros de datos HPC de nivel supercomputadora también han usado refrigeración líquida por al menos 20 años, así que comparar el diseño de un centro de datos del nivel de Google con la refrigeración de entusiastas de PC se siente un poco raro; es olvidar el pasado o usar un punto de comparación completamente equivocado.
per-row cooling).En teoría, la refrigeración de un centro de datos es simple. Un CPU opera a 60-70 °C y la temperatura exterior normalmente está por debajo de 30 °C, así que con un poco de ayuda de ventiladores y bombas, el calor “fluye hacia abajo” de forma natural. El problema de la refrigeración por aire es que el personal de la instalación tiene que respirar el mismo aire usado para enfriar las computadoras. Si subes la temperatura del enfriamiento, no es bueno para la salud del personal (nosotros operamos los pasillos calientes a unos 100 °F incluso en invierno, y enfriamos con intercambiadores de calor cada tres racks usando agua helada externa). Cuando sube la temperatura exterior, el fluido de enfriamiento también tiene que estar más caliente para poder sacar el calor fuera del edificio, y ahí un chiller se vuelve indispensable. En épocas de mucho calor, el consumo energético también aumenta bastante. Si un centro de datos completo pasara a refrigeración líquida, parecería posible subir mucho más la temperatura del refrigerante que sale de los racks y aun así disipar calor sin chiller incluso en los días más calientes. Ahora mismo solo enfriamos algunas partes con líquido, y la temperatura del refrigerante está limitada para coincidir con la del pasillo caliente. Incluso así, ya se siente bastante caliente.
En el artículo se mencionaba que conectan chips TPU en serie haciendo pasar el circuito de refrigeración, y dimensionan la capacidad con base en la temperatura del último chip. Si cuatro chips disipan 250 W cada uno y la bomba empuja 1 litro de agua por minuto, la salida necesariamente estará 14 °C más caliente que la entrada. Eso es igual tanto en serie como en paralelo (por el calor específico del agua).
Ya no tengo grandes expectativas con la infraestructura de Google como antes. Google ha seguido avanzando en direcciones que dañan la libertad en internet, y eso hizo que mi simpatía por la empresa cayera mucho. Así que ahora cosas como el sistema de refrigeración líquida que introducen ya no me generan mucha emoción. Dependiendo de los detalles, seguro no es fácil, pero tampoco me parece algo especialmente innovador. Si algún empleado de Google lee esto y le molesta, para mí el problema no es la persona sino Google como entidad. Tal vez valdría la pena considerar hacer cosas geniales en otro lugar.
Esto me recordó un caso interesante que vi en B1M: dicen que una piscina olímpica en París se calienta con el calor de internet. Video de YouTube
A menudo veo comentarios de que la IA desperdicia agua, y me pregunto si este caso será así también. Me interesa saber si la CDU usa agua de la instalación para enfriamiento evaporativo.
Me da curiosidad la economía de la refrigeración por agua: si se volvió ventajosa porque los chips son tan caros que hay que hacerlos correr más rápido, o porque el espacio en centros de datos es tan caro que hay que subir la densidad, o porque reducir la distancia de señal (1 pie = 1 nanosegundo) mejora en esa proporción la eficiencia de cómputo.
En teoría, un usuario de PC también podría hacer circular el agua de disipación por el tanque del inodoro y enfriar eficientemente cada vez que descarga. El futuro está aquí.
Trabajé con frecuencia en centros de datos entre 2006 y 2012, y muchas veces tenía que ir tarde en la noche. Son entornos peores de lo que uno imagina. Ojalá la refrigeración hubiera sido más silenciosa y menos extrema. La razón por la que los puertos y demás están en la parte trasera es justamente que ese lado es la toma de aire. Recuerdo tener que ir al lado caliente para calentarme las manos.