6 puntos por GN⁺ 2025-04-10 | 1 comentarios | Compartir por WhatsApp
  • Google presentó Ironwood, la TPU (Tensor Processing Unit) de 7ª generación
  • Ironwood es la primera TPU diseñada específicamente para la inferencia de IA y, hasta ahora, el modelo más potente y eficiente en consumo energético
  • Está diseñada para ejecutar modelos de IA de alto rendimiento como los modelos de lenguaje grandes (LLM) y Mixture of Experts (MoE)
  • Puede escalar hasta 9,216 chips y ofrecer 42.5 exaflops de capacidad de cómputo
  • Esto representa más de 24 veces el rendimiento de El Capitan, la supercomputadora más rápida del mundo

La era de la inferencia que hace posible Ironwood

  • Si la IA tradicional respondía a las solicitudes de los usuarios, Ironwood sienta las bases para una era de IA que interpreta activamente los datos y genera conocimientos
  • En esta era de la inferencia, la IA recopila y analiza datos en lugar del usuario para producir resultados más profundos
  • Para responder a estas nuevas exigencias de la IA, Ironwood incorpora capacidades de procesamiento paralelo a gran escala y acceso rápido a los datos

Configuración de hardware y rendimiento de Ironwood

  • En una configuración de pod de TPU con 9,216 chips, ofrece 42.5 exaflops de rendimiento
  • Cada chip alcanza 4,614 TFLOPs y admite entrenamiento e inferencia de LLM y modelos MoE a gran escala
  • Con mejoras en SparseCore, acelera el procesamiento de embeddings de tamaño masivo y puede aplicarse en áreas como finanzas y ciencia
  • Mediante el software Pathways, es posible gestionar de forma eficiente decenas de miles de chips Ironwood

Principales características técnicas de Ironwood

  • La relación entre rendimiento y eficiencia energética mejoró 2 veces frente a la generación anterior
    • Aproximadamente 30 veces más eficiencia energética que Trillium
    • Mantiene un rendimiento estable incluso en cargas sostenidas de alta exigencia gracias a tecnología avanzada de refrigeración líquida
  • La capacidad de memoria de alto ancho de banda (HBM) aumentó de forma significativa
    • 192 GB por chip, 6 veces más que Trillium
    • Ventajoso para procesar modelos grandes y conjuntos de datos extensos
  • Mejora en el ancho de banda de memoria HBM
    • 7.2 TBps por chip, 4.5 veces más que Trillium
  • Mejora en el ancho de banda de Inter-Chip Interconnect (ICI)
    • 1.2 Tbps bidireccional, 1.5 veces más que Trillium
    • La comunicación rápida entre chips lo hace adecuado para entrenamiento e inferencia distribuidos a gran escala

Impacto y posibilidades de uso de Ironwood

  • Ironwood es un componente central de la arquitectura Google Cloud Hypercomputer, optimizado para las exigencias de la IA generativa de próxima generación
  • Modelos recientes de IA como Gemini 2.5 y AlphaFold también se ejecutan sobre TPU
  • Los clientes de Google Cloud podrán procesar cargas de trabajo de IA con alto rendimiento, baja latencia y mayor eficiencia energética mediante Ironwood
  • Estará disponible para clientes dentro de 2025 y se espera que sirva como base para impulsar nuevas innovaciones en investigación y aplicaciones reales de IA

1 comentarios

 
iwanhae 2025-04-10

Últimamente pensaba que Gemini tenía una velocidad de time to first token abrumadoramente rápida, así que resulta que había una razón para eso...