4 puntos por GN⁺ 2025-08-26 | Aún no hay comentarios. | Compartir por WhatsApp
  • La refrigeración líquida se está expandiendo rápidamente para resolver los problemas de calor de los chips de alta potencia en los centros de datos
  • Tiene una conductividad térmica unas 4,000 veces mayor que el aire, y Google la está adoptando de forma activa especialmente para responder a la demanda de enfriamiento de TPU impulsada por el boom de la IA
  • Google opera bucles de refrigeración líquida a nivel de rack basados en CDU (Coolant Distribution Unit), lo que mejora el mantenimiento y la escalabilidad
  • Aplica a escala de centro de datos técnicas del mercado de PC de alto rendimiento, como split-flow cold plate y refrigeración bare-die (TPUv4)
  • La refrigeración líquida es eficiente, con un consumo eléctrico inferior al 5% frente a los ventiladores, y para enfrentar problemas como fugas o crecimiento microbiano, Google combina validación rigurosa, sistemas de alerta y mantenimiento preventivo
  • NVIDIA, Rebellions AI y otras también están adoptando refrigeración líquida, lo que acelera la estandarización de la refrigeración en centros de datos

Necesidad y contexto de la refrigeración líquida

  • La refrigeración líquida es familiar entre los entusiastas de PC y también tiene una larga historia en entornos de cómputo empresarial
  • Recientemente, el aumento del consumo energético de las cargas de trabajo de IA y aprendizaje automático ha ampliado de forma importante la relevancia de la refrigeración líquida en los centros de datos
  • Google puso atención en que la conductividad térmica del agua es unas 4,000 veces mayor que la del aire, y la adoptó como respuesta al alto calor de los chips más recientes
  • En Hot Chips 2025, Google presentó un enfoque de refrigeración líquida a nivel de centro de datos relacionado con el enfriamiento de las TPU, sus aceleradores de aprendizaje automático

Estructura del sistema de refrigeración líquida de Google

  • Google aplica refrigeración líquida a las TPU desde 2018, pasando por diversos experimentos y mejoras
  • La solución de refrigeración más reciente no se limita al interior del servidor, sino que aplica un bucle de refrigeración líquida a todo el rack
  • Un rack de refrigeración está compuesto por 6 CDU (Coolant Distribution Unit), que cumplen una función similar a la de un combo radiador+bomba en una PC
  • La incorporación de mangueras flexibles y acoples de desconexión rápida mejora la facilidad de mantenimiento y la tolerancia durante la instalación
  • Incluso con solo 5 de las 6 CDU en operación, el sistema puede enfriar lo suficiente, por lo que no es necesario detener toda la operación durante el mantenimiento de una unidad

Intercambio de calor y disposición de los chips

  • La CDU intercambia únicamente calor entre el refrigerante interno y el agua de suministro externo del centro de datos; los dos líquidos no se mezclan directamente
  • El refrigerante que sale de la CDU se distribuye a múltiples servidores TPU a través de un manifold
  • La conexión de los chips TPU sigue una estructura secuencial (en serie), y el presupuesto total de refrigeración se calcula con base en la demanda térmica del último chip del bucle

Optimización de la tecnología de refrigeración

  • Se aplica una estructura de split-flow cold plate, con mejor rendimiento de enfriamiento que los diseños lineales tradicionales
  • Además, se emplea refrigeración bare-die (en TPUv4; la TPUv3 anterior usaba lidded), similar al ‘delidding’ que suelen usar los entusiastas de PC de gama alta para mejorar la transferencia térmica
  • TPUv4 requiere este método adicional de enfriamiento porque consume 1.6 veces más energía que la v3

Eficiencia energética y transferencia de calor

  • El consumo eléctrico de las bombas de refrigeración líquida es inferior al 5% del consumo de los ventiladores de los sistemas tradicionales por aire
  • El sistema de Google utiliza un esquema de intercambio de calor agua a agua, por lo que la fuerza real de enfriamiento recae principalmente en las bombas
  • En el entorno de los entusiastas de PC aún predominan las combinaciones de ventilador y radiador, por lo que la ventaja energética no es tan grande como en los centros de datos

Mantenimiento, confiabilidad y seguridad

  • Desde la perspectiva del mantenimiento, riesgos comunes de los sistemas de refrigeración por agua como la proliferación microbiana o las fugas también existen a escala de centro de datos
  • Con fittings de desconexión rápida, CDU de respaldo y otros mecanismos pensados para el mantenimiento, se busca una gestión a gran escala sin tiempo de inactividad
  • Google ha establecido mantenimiento preventivo, pruebas de fugas, detección de señales anómalas y protocolos de respuesta sistemáticos para asegurar consistencia y confiabilidad a nivel organizacional
  • Esto contrasta con las prácticas informales de mantenimiento de los entusiastas individuales de PC

Tendencias de la industria y auge de la IA

  • NVIDIA, Rebellions AI y otras también mostraron diversos sistemas externos de refrigeración líquida en la exhibición de Hot Chips 2025
    • Servidor NVIDIA GB300: incorpora juntos puertos externos de refrigeración líquida y ventiladores
    • Rebellions AI, empresa coreana, demostró el prototipo de su nuevo acelerador de ML ‘REBEL Quad’ con un enfoque similar que combina cooler y chiller
  • Se espera que el aumento de las cargas de trabajo de IA acelere aún más la demanda y la adopción de la refrigeración líquida para centros de datos

Aún no hay comentarios.

Aún no hay comentarios.