- La refrigeración líquida se está expandiendo rápidamente para resolver los problemas de calor de los chips de alta potencia en los centros de datos
- Tiene una conductividad térmica unas 4,000 veces mayor que el aire, y Google la está adoptando de forma activa especialmente para responder a la demanda de enfriamiento de TPU impulsada por el boom de la IA
- Google opera bucles de refrigeración líquida a nivel de rack basados en CDU (Coolant Distribution Unit), lo que mejora el mantenimiento y la escalabilidad
- Aplica a escala de centro de datos técnicas del mercado de PC de alto rendimiento, como split-flow cold plate y refrigeración bare-die (TPUv4)
- La refrigeración líquida es eficiente, con un consumo eléctrico inferior al 5% frente a los ventiladores, y para enfrentar problemas como fugas o crecimiento microbiano, Google combina validación rigurosa, sistemas de alerta y mantenimiento preventivo
- NVIDIA, Rebellions AI y otras también están adoptando refrigeración líquida, lo que acelera la estandarización de la refrigeración en centros de datos
Necesidad y contexto de la refrigeración líquida
- La refrigeración líquida es familiar entre los entusiastas de PC y también tiene una larga historia en entornos de cómputo empresarial
- Recientemente, el aumento del consumo energético de las cargas de trabajo de IA y aprendizaje automático ha ampliado de forma importante la relevancia de la refrigeración líquida en los centros de datos
- Google puso atención en que la conductividad térmica del agua es unas 4,000 veces mayor que la del aire, y la adoptó como respuesta al alto calor de los chips más recientes
- En Hot Chips 2025, Google presentó un enfoque de refrigeración líquida a nivel de centro de datos relacionado con el enfriamiento de las TPU, sus aceleradores de aprendizaje automático
Estructura del sistema de refrigeración líquida de Google
- Google aplica refrigeración líquida a las TPU desde 2018, pasando por diversos experimentos y mejoras
- La solución de refrigeración más reciente no se limita al interior del servidor, sino que aplica un bucle de refrigeración líquida a todo el rack
- Un rack de refrigeración está compuesto por 6 CDU (Coolant Distribution Unit), que cumplen una función similar a la de un combo radiador+bomba en una PC
- La incorporación de mangueras flexibles y acoples de desconexión rápida mejora la facilidad de mantenimiento y la tolerancia durante la instalación
- Incluso con solo 5 de las 6 CDU en operación, el sistema puede enfriar lo suficiente, por lo que no es necesario detener toda la operación durante el mantenimiento de una unidad
Intercambio de calor y disposición de los chips
- La CDU intercambia únicamente calor entre el refrigerante interno y el agua de suministro externo del centro de datos; los dos líquidos no se mezclan directamente
- El refrigerante que sale de la CDU se distribuye a múltiples servidores TPU a través de un manifold
- La conexión de los chips TPU sigue una estructura secuencial (en serie), y el presupuesto total de refrigeración se calcula con base en la demanda térmica del último chip del bucle
Optimización de la tecnología de refrigeración
- Se aplica una estructura de split-flow cold plate, con mejor rendimiento de enfriamiento que los diseños lineales tradicionales
- Además, se emplea refrigeración bare-die (en TPUv4; la TPUv3 anterior usaba lidded), similar al ‘delidding’ que suelen usar los entusiastas de PC de gama alta para mejorar la transferencia térmica
- TPUv4 requiere este método adicional de enfriamiento porque consume 1.6 veces más energía que la v3
Eficiencia energética y transferencia de calor
- El consumo eléctrico de las bombas de refrigeración líquida es inferior al 5% del consumo de los ventiladores de los sistemas tradicionales por aire
- El sistema de Google utiliza un esquema de intercambio de calor agua a agua, por lo que la fuerza real de enfriamiento recae principalmente en las bombas
- En el entorno de los entusiastas de PC aún predominan las combinaciones de ventilador y radiador, por lo que la ventaja energética no es tan grande como en los centros de datos
Mantenimiento, confiabilidad y seguridad
- Desde la perspectiva del mantenimiento, riesgos comunes de los sistemas de refrigeración por agua como la proliferación microbiana o las fugas también existen a escala de centro de datos
- Con fittings de desconexión rápida, CDU de respaldo y otros mecanismos pensados para el mantenimiento, se busca una gestión a gran escala sin tiempo de inactividad
- Google ha establecido mantenimiento preventivo, pruebas de fugas, detección de señales anómalas y protocolos de respuesta sistemáticos para asegurar consistencia y confiabilidad a nivel organizacional
- Esto contrasta con las prácticas informales de mantenimiento de los entusiastas individuales de PC
Tendencias de la industria y auge de la IA
- NVIDIA, Rebellions AI y otras también mostraron diversos sistemas externos de refrigeración líquida en la exhibición de Hot Chips 2025
- Servidor NVIDIA GB300: incorpora juntos puertos externos de refrigeración líquida y ventiladores
- Rebellions AI, empresa coreana, demostró el prototipo de su nuevo acelerador de ML ‘REBEL Quad’ con un enfoque similar que combina cooler y chiller
- Se espera que el aumento de las cargas de trabajo de IA acelere aún más la demanda y la adopción de la refrigeración líquida para centros de datos
Aún no hay comentarios.