4 puntos por GN⁺ 2025-08-26 | 1 comentarios | Compartir por WhatsApp
  • La refrigeración líquida se está expandiendo rápidamente para resolver los problemas de calor de los chips de alta potencia en los centros de datos
  • Tiene una conductividad térmica unas 4,000 veces mayor que el aire, y Google la está adoptando de forma activa especialmente para responder a la demanda de enfriamiento de TPU impulsada por el boom de la IA
  • Google opera bucles de refrigeración líquida a nivel de rack basados en CDU (Coolant Distribution Unit), lo que mejora el mantenimiento y la escalabilidad
  • Aplica a escala de centro de datos técnicas del mercado de PC de alto rendimiento, como split-flow cold plate y refrigeración bare-die (TPUv4)
  • La refrigeración líquida es eficiente, con un consumo eléctrico inferior al 5% frente a los ventiladores, y para enfrentar problemas como fugas o crecimiento microbiano, Google combina validación rigurosa, sistemas de alerta y mantenimiento preventivo
  • NVIDIA, Rebellions AI y otras también están adoptando refrigeración líquida, lo que acelera la estandarización de la refrigeración en centros de datos

Necesidad y contexto de la refrigeración líquida

  • La refrigeración líquida es familiar entre los entusiastas de PC y también tiene una larga historia en entornos de cómputo empresarial
  • Recientemente, el aumento del consumo energético de las cargas de trabajo de IA y aprendizaje automático ha ampliado de forma importante la relevancia de la refrigeración líquida en los centros de datos
  • Google puso atención en que la conductividad térmica del agua es unas 4,000 veces mayor que la del aire, y la adoptó como respuesta al alto calor de los chips más recientes
  • En Hot Chips 2025, Google presentó un enfoque de refrigeración líquida a nivel de centro de datos relacionado con el enfriamiento de las TPU, sus aceleradores de aprendizaje automático

Estructura del sistema de refrigeración líquida de Google

  • Google aplica refrigeración líquida a las TPU desde 2018, pasando por diversos experimentos y mejoras
  • La solución de refrigeración más reciente no se limita al interior del servidor, sino que aplica un bucle de refrigeración líquida a todo el rack
  • Un rack de refrigeración está compuesto por 6 CDU (Coolant Distribution Unit), que cumplen una función similar a la de un combo radiador+bomba en una PC
  • La incorporación de mangueras flexibles y acoples de desconexión rápida mejora la facilidad de mantenimiento y la tolerancia durante la instalación
  • Incluso con solo 5 de las 6 CDU en operación, el sistema puede enfriar lo suficiente, por lo que no es necesario detener toda la operación durante el mantenimiento de una unidad

Intercambio de calor y disposición de los chips

  • La CDU intercambia únicamente calor entre el refrigerante interno y el agua de suministro externo del centro de datos; los dos líquidos no se mezclan directamente
  • El refrigerante que sale de la CDU se distribuye a múltiples servidores TPU a través de un manifold
  • La conexión de los chips TPU sigue una estructura secuencial (en serie), y el presupuesto total de refrigeración se calcula con base en la demanda térmica del último chip del bucle

Optimización de la tecnología de refrigeración

  • Se aplica una estructura de split-flow cold plate, con mejor rendimiento de enfriamiento que los diseños lineales tradicionales
  • Además, se emplea refrigeración bare-die (en TPUv4; la TPUv3 anterior usaba lidded), similar al ‘delidding’ que suelen usar los entusiastas de PC de gama alta para mejorar la transferencia térmica
  • TPUv4 requiere este método adicional de enfriamiento porque consume 1.6 veces más energía que la v3

Eficiencia energética y transferencia de calor

  • El consumo eléctrico de las bombas de refrigeración líquida es inferior al 5% del consumo de los ventiladores de los sistemas tradicionales por aire
  • El sistema de Google utiliza un esquema de intercambio de calor agua a agua, por lo que la fuerza real de enfriamiento recae principalmente en las bombas
  • En el entorno de los entusiastas de PC aún predominan las combinaciones de ventilador y radiador, por lo que la ventaja energética no es tan grande como en los centros de datos

Mantenimiento, confiabilidad y seguridad

  • Desde la perspectiva del mantenimiento, riesgos comunes de los sistemas de refrigeración por agua como la proliferación microbiana o las fugas también existen a escala de centro de datos
  • Con fittings de desconexión rápida, CDU de respaldo y otros mecanismos pensados para el mantenimiento, se busca una gestión a gran escala sin tiempo de inactividad
  • Google ha establecido mantenimiento preventivo, pruebas de fugas, detección de señales anómalas y protocolos de respuesta sistemáticos para asegurar consistencia y confiabilidad a nivel organizacional
  • Esto contrasta con las prácticas informales de mantenimiento de los entusiastas individuales de PC

Tendencias de la industria y auge de la IA

  • NVIDIA, Rebellions AI y otras también mostraron diversos sistemas externos de refrigeración líquida en la exhibición de Hot Chips 2025
    • Servidor NVIDIA GB300: incorpora juntos puertos externos de refrigeración líquida y ventiladores
    • Rebellions AI, empresa coreana, demostró el prototipo de su nuevo acelerador de ML ‘REBEL Quad’ con un enfoque similar que combina cooler y chiller
  • Se espera que el aumento de las cargas de trabajo de IA acelere aún más la demanda y la adopción de la refrigeración líquida para centros de datos

1 comentarios

 
GN⁺ 2025-08-26
Comentarios en Hacker News
  • Recuerdo haber visto hace tiempo una entrevista con el SVP a cargo de la construcción de centros de datos de Azure; se me quedó grabado cuando dijo que, en cierto punto, se dio cuenta de que ya no trabajaba en el negocio de las computadoras sino en el de la refrigeración industrial, y que eso le hizo el trabajo mucho más fácil. Al leer este artículo, pensé inmediatamente en esa historia.

  • Los mainframes (S/3x0, Cray, etc.) han usado refrigeración por agua de forma extensiva durante más de 50 años, y los centros de datos HPC de nivel supercomputadora también han usado refrigeración líquida por al menos 20 años, así que comparar el diseño de un centro de datos del nivel de Google con la refrigeración de entusiastas de PC se siente un poco raro; es olvidar el pasado o usar un punto de comparación completamente equivocado.

    • Gracias a lo que señaló bri3d, entendí que este caso de Google es menos nuevo de lo que pensé al principio. El punto innovador no es “usar agua”, sino que los chillers que enfrían los servidores están instalados fuera de la instalación. La mayoría de los mainframes también usan refrigeración por agua para mover el calor interno hacia afuera, donde un disipador o ventilador expulsa ese calor, pero Google hace circular refrigerante directamente a cada servidor usando grandes chillers para toda la instalación en lugar de hacerlo dentro del edificio. Luego enfrían de nuevo el agua caliente de retorno en la torre de enfriamiento. En la práctica, la refrigeración por aire queda completamente eliminada salvo en la torre de enfriamiento. No es algo que se haga solo para algunos servidores o racks, sino para todo el centro de datos al mismo tiempo. Me pregunto qué pasa cuando hay que dar mantenimiento a los chillers o falla una bomba; supongo que habrá una redundancia enorme para evitar interrupciones. AWS también adoptó un sistema similar, y sus imágenes explicativas son bastante claras: artículo sobre refrigeración líquida en centros de datos de AWS
    • Google tiene una historia basada en hardware commodity barato, así que este cambio no resulta tan sorprendente. Es parecido a cómo los servidores x86 tardaron décadas en absorber capacidades de los mainframes, como la virtualización: blog relacionado
    • El artículo decía que “la refrigeración líquida es familiar para los entusiastas de PC y es un concepto antiguo en cómputo empresarial”. También en centros de datos la tendencia había sido ir hacia enfriamiento pasivo por servidor y temperaturas operativas más altas, pero esto es un caso que revierte con fuerza esa tendencia. Tal vez la causa principal sea la refrigeración por fila (per-row cooling).
    • Dijeron que los centros de datos HPC han usado refrigeración líquida por más de 20 años, pero me pregunto si en muchos casos no se aplicaba principalmente en partes como las puertas del rack. Parece que recién desde servidores de segunda generación empezó a aplicarse de verdad la refrigeración líquida directa (DLC) dentro del servidor, en parte obligados por los CPU de gama alta de Intel. Fue un dolor de cabeza introducirla en centros de datos existentes, y hasta tuvimos que abrir varios tickets de servicio por fugas en las bolsas de enfriamiento (fabricante no revelado).
    • Los centros de datos hiperescalables normalmente no necesitan maximizar la densidad de potencia, y al aumentarla aparecen varios problemas que los diseñadores suelen preferir evitar. Que los clústeres HPC modernos estén tan enfocados en la densidad podría ser, en realidad, una forma equivocada de verlo. Dicho eso, en cargas de trabajo de ML sí hay una ventaja en colocar las cosas físicamente más cerca, porque mejora la eficiencia de interconexión.
  • En teoría, la refrigeración de un centro de datos es simple. Un CPU opera a 60-70 °C y la temperatura exterior normalmente está por debajo de 30 °C, así que con un poco de ayuda de ventiladores y bombas, el calor “fluye hacia abajo” de forma natural. El problema de la refrigeración por aire es que el personal de la instalación tiene que respirar el mismo aire usado para enfriar las computadoras. Si subes la temperatura del enfriamiento, no es bueno para la salud del personal (nosotros operamos los pasillos calientes a unos 100 °F incluso en invierno, y enfriamos con intercambiadores de calor cada tres racks usando agua helada externa). Cuando sube la temperatura exterior, el fluido de enfriamiento también tiene que estar más caliente para poder sacar el calor fuera del edificio, y ahí un chiller se vuelve indispensable. En épocas de mucho calor, el consumo energético también aumenta bastante. Si un centro de datos completo pasara a refrigeración líquida, parecería posible subir mucho más la temperatura del refrigerante que sale de los racks y aun así disipar calor sin chiller incluso en los días más calientes. Ahora mismo solo enfriamos algunas partes con líquido, y la temperatura del refrigerante está limitada para coincidir con la del pasillo caliente. Incluso así, ya se siente bastante caliente.

    • La idea de que “el CPU está a 60-70 °C y afuera está a menos de 30 °C, así que el calor baja solo” no es correcta. En la práctica, hay que transferir el calor generado por la potencia de operación del CPU hacia el exterior, y si la impedancia térmica es alta, el CPU puede sobrecalentarse y fallar.
    • Hace 15 años, un supercomputador que IBM instaló en ETH Zurich usaba agua caliente de 60 °C como refrigerante y estaba conectado directamente al sistema de agua caliente del edificio a través de radiadores: introducción a Aquasar
    • Me pregunto si algún día, para maximizar la eficiencia del enfriamiento, el personal que entra a centros de datos tendrá que usar algo como trajes térmicos o de disipación de calor.
  • En el artículo se mencionaba que conectan chips TPU en serie haciendo pasar el circuito de refrigeración, y dimensionan la capacidad con base en la temperatura del último chip. Si cuatro chips disipan 250 W cada uno y la bomba empuja 1 litro de agua por minuto, la salida necesariamente estará 14 °C más caliente que la entrada. Eso es igual tanto en serie como en paralelo (por el calor específico del agua).

    • En una conexión en serie, la eficiencia de transferencia térmica en el último chip puede ser menor que en paralelo, porque el agua llega a ese último chip ya más caliente que al primero. Como la diferencia de temperatura es menor, el calor se extrae más lentamente.
    • En la práctica, según si la estructura es en serie o en paralelo, hay que calcular velocidades de flujo distintas. Desde el punto de vista de ingeniería sí hay una diferencia real.
    • Si subes lo suficiente la presión, puedes lograr caudales muy por encima de 1 litro por minuto. A escala de escritorio se habla de 18 W, pero en servidores es más o menos 10 veces eso.
    • Si la conexión es en serie, algunos chips quedan “sobreenfriados”, y si quieres ajustarlo al chip más caliente, necesitas más refrigerante.
  • Ya no tengo grandes expectativas con la infraestructura de Google como antes. Google ha seguido avanzando en direcciones que dañan la libertad en internet, y eso hizo que mi simpatía por la empresa cayera mucho. Así que ahora cosas como el sistema de refrigeración líquida que introducen ya no me generan mucha emoción. Dependiendo de los detalles, seguro no es fácil, pero tampoco me parece algo especialmente innovador. Si algún empleado de Google lee esto y le molesta, para mí el problema no es la persona sino Google como entidad. Tal vez valdría la pena considerar hacer cosas geniales en otro lugar.

  • Esto me recordó un caso interesante que vi en B1M: dicen que una piscina olímpica en París se calienta con el calor de internet. Video de YouTube

  • A menudo veo comentarios de que la IA desperdicia agua, y me pregunto si este caso será así también. Me interesa saber si la CDU usa agua de la instalación para enfriamiento evaporativo.

    • La CDU se instala dentro del centro de datos y solo transfiere el calor del refrigerante del rack al refrigerante de la instalación. Afuera hay infraestructura de intercambio térmico, y en ese proceso a menudo se rocía agua en torres de enfriamiento para hacer enfriamiento evaporativo. La forma exacta varía entre centros de datos, pero el enfriamiento de la instalación como tal siempre existe. La discusión de que la IA “desperdicia agua” ya cansa un poco; el agua solo se mueve dentro de un sistema de recirculación hacia donde resulta más eficiente. Sería una conversación más útil si en el mercado se reflejaran de verdad los costos del agua y sus externalidades. En EE. UU., el problema es que el precio del agua, los derechos sobre ella y su utilidad real no están bien vinculados.
    • AWS también publicó hace poco un artículo parecido: artículo sobre refrigeración líquida en centros de datos de AWS. Aun así, todavía no he visto una explicación clara de cómo enfrían el agua caliente expulsada para reutilizarla; esa es justo la parte que más me interesa.
    • Casi no veo cifras concretas ni conversaciones específicas sobre el uso de agua por la IA; más bien veo comentarios vagos del estilo “usa agua como los autos usan carreteras”. Eso deja la impresión de que se está desperdiciando agua, pero si hubiera datos claros no haría falta insinuarlo de forma ambigua. Si el agua realmente se consume, tendría que estar quedando en un estado no apto para beber, evaporándose como vapor o atrapada en lodos, etc., de forma que ya no pueda recuperarse. Quisiera saber si eso realmente está ocurriendo y si de verdad es un problema. Frustra ver circular cifras sin sentido sin datos detrás.
    • Hay un artículo relacionado: centros de datos de IA en Texas y el tema del desperdicio de agua
  • Me da curiosidad la economía de la refrigeración por agua: si se volvió ventajosa porque los chips son tan caros que hay que hacerlos correr más rápido, o porque el espacio en centros de datos es tan caro que hay que subir la densidad, o porque reducir la distancia de señal (1 pie = 1 nanosegundo) mejora en esa proporción la eficiencia de cómputo.

    • Una parte importante de la energía total de un centro de datos se consume en enfriamiento. Mejorar la eficiencia de enfriamiento reduce costos de inmediato.
    • El impacto de la distancia del cableado en realidad es muy pequeño. Incluso los mejores fabrics de interconexión tienen tiempos de ida y vuelta (solicitud/respuesta) del orden de 1 microsegundo, así que cambios de longitud de unos pocos pies solo representan decenas de nanosegundos. Incluso si duplicas la densidad en un clúster grande, el aumento del retardo de ida y vuelta sería de unos 60 nanosegundos (menos de 6 % sobre 1 microsegundo). En aplicaciones reales, el impacto no es grande. Eso sí, una mayor densidad sí ayuda cuando quieres conectar más chips directamente mediante backplanes o conectores de cobre.
    • En realidad, es una mezcla de las razones 2 y 3. Los chips son cada vez más pequeños y consumen más energía, así que también generan más calor, y las enormes cantidades de ventiladores añaden todavía más consumo. La refrigeración líquida va directo de chip→líquido, por lo que reduce el costo adicional de ventiladores, aire acondicionado y circulación extra. Ver también este artículo de ServeTheHome: análisis del impacto en consumo eléctrico de la refrigeración líquida de Supermicro
    • No sé mucho sobre cargas clásicas de cómputo, pero para operaciones centradas en memoria como las de TPU sí creo que la diferencia en distancia de cableado importa bastante.
    • Es importante aumentar la densidad porque los chips tienen que estar conectados mediante redes ultrarrápidas.
  • En teoría, un usuario de PC también podría hacer circular el agua de disipación por el tanque del inodoro y enfriar eficientemente cada vez que descarga. El futuro está aquí.

  • Trabajé con frecuencia en centros de datos entre 2006 y 2012, y muchas veces tenía que ir tarde en la noche. Son entornos peores de lo que uno imagina. Ojalá la refrigeración hubiera sido más silenciosa y menos extrema. La razón por la que los puertos y demás están en la parte trasera es justamente que ese lado es la toma de aire. Recuerdo tener que ir al lado caliente para calentarme las manos.