Ironwood: el primer TPU de Google para la era de la inferencia

(blog.google)

6 puntos por GN⁺ 2025-04-10 | 1 comentarios | Compartir por WhatsApp

Google presentó Ironwood, la TPU (Tensor Processing Unit) de 7ª generación
Ironwood es la primera TPU diseñada específicamente para la inferencia de IA y, hasta ahora, el modelo más potente y eficiente en consumo energético
Está diseñada para ejecutar modelos de IA de alto rendimiento como los modelos de lenguaje grandes (LLM) y Mixture of Experts (MoE)
Puede escalar hasta 9,216 chips y ofrecer 42.5 exaflops de capacidad de cómputo
Esto representa más de 24 veces el rendimiento de El Capitan, la supercomputadora más rápida del mundo

Si la IA tradicional respondía a las solicitudes de los usuarios, Ironwood sienta las bases para una era de IA que interpreta activamente los datos y genera conocimientos
En esta era de la inferencia, la IA recopila y analiza datos en lugar del usuario para producir resultados más profundos
Para responder a estas nuevas exigencias de la IA, Ironwood incorpora capacidades de procesamiento paralelo a gran escala y acceso rápido a los datos

En una configuración de pod de TPU con 9,216 chips, ofrece 42.5 exaflops de rendimiento
Cada chip alcanza 4,614 TFLOPs y admite entrenamiento e inferencia de LLM y modelos MoE a gran escala
Con mejoras en SparseCore, acelera el procesamiento de embeddings de tamaño masivo y puede aplicarse en áreas como finanzas y ciencia
Mediante el software Pathways, es posible gestionar de forma eficiente decenas de miles de chips Ironwood

La relación entre rendimiento y eficiencia energética mejoró 2 veces frente a la generación anterior
- Aproximadamente 30 veces más eficiencia energética que Trillium
- Mantiene un rendimiento estable incluso en cargas sostenidas de alta exigencia gracias a tecnología avanzada de refrigeración líquida
La capacidad de memoria de alto ancho de banda (HBM) aumentó de forma significativa
- 192 GB por chip, 6 veces más que Trillium
- Ventajoso para procesar modelos grandes y conjuntos de datos extensos
Mejora en el ancho de banda de memoria HBM
- 7.2 TBps por chip, 4.5 veces más que Trillium
Mejora en el ancho de banda de Inter-Chip Interconnect (ICI)
- 1.2 Tbps bidireccional, 1.5 veces más que Trillium
- La comunicación rápida entre chips lo hace adecuado para entrenamiento e inferencia distribuidos a gran escala

Ironwood es un componente central de la arquitectura Google Cloud Hypercomputer, optimizado para las exigencias de la IA generativa de próxima generación
Modelos recientes de IA como Gemini 2.5 y AlphaFold también se ejecutan sobre TPU
Los clientes de Google Cloud podrán procesar cargas de trabajo de IA con alto rendimiento, baja latencia y mayor eficiencia energética mediante Ironwood
Estará disponible para clientes dentro de 2025 y se espera que sirva como base para impulsar nuevas innovaciones en investigación y aplicaciones reales de IA

1 comentarios

iwanhae 2025-04-10

Últimamente pensaba que Gemini tenía una velocidad de time to first token abrumadoramente rápida, así que resulta que había una razón para eso...