- Google presentó Ironwood, la TPU (Tensor Processing Unit) de 7ª generación
- Ironwood es la primera TPU diseñada específicamente para la inferencia de IA y, hasta ahora, el modelo más potente y eficiente en consumo energético
- Está diseñada para ejecutar modelos de IA de alto rendimiento como los modelos de lenguaje grandes (LLM) y Mixture of Experts (MoE)
- Puede escalar hasta 9,216 chips y ofrecer 42.5 exaflops de capacidad de cómputo
- Esto representa más de 24 veces el rendimiento de El Capitan, la supercomputadora más rápida del mundo
La era de la inferencia que hace posible Ironwood
- Si la IA tradicional respondía a las solicitudes de los usuarios, Ironwood sienta las bases para una era de IA que interpreta activamente los datos y genera conocimientos
- En esta era de la inferencia, la IA recopila y analiza datos en lugar del usuario para producir resultados más profundos
- Para responder a estas nuevas exigencias de la IA, Ironwood incorpora capacidades de procesamiento paralelo a gran escala y acceso rápido a los datos
Configuración de hardware y rendimiento de Ironwood
- En una configuración de pod de TPU con 9,216 chips, ofrece 42.5 exaflops de rendimiento
- Cada chip alcanza 4,614 TFLOPs y admite entrenamiento e inferencia de LLM y modelos MoE a gran escala
- Con mejoras en SparseCore, acelera el procesamiento de embeddings de tamaño masivo y puede aplicarse en áreas como finanzas y ciencia
- Mediante el software Pathways, es posible gestionar de forma eficiente decenas de miles de chips Ironwood
Principales características técnicas de Ironwood
- La relación entre rendimiento y eficiencia energética mejoró 2 veces frente a la generación anterior
- Aproximadamente 30 veces más eficiencia energética que Trillium
- Mantiene un rendimiento estable incluso en cargas sostenidas de alta exigencia gracias a tecnología avanzada de refrigeración líquida
- La capacidad de memoria de alto ancho de banda (HBM) aumentó de forma significativa
- 192 GB por chip, 6 veces más que Trillium
- Ventajoso para procesar modelos grandes y conjuntos de datos extensos
- Mejora en el ancho de banda de memoria HBM
- 7.2 TBps por chip, 4.5 veces más que Trillium
- Mejora en el ancho de banda de Inter-Chip Interconnect (ICI)
- 1.2 Tbps bidireccional, 1.5 veces más que Trillium
- La comunicación rápida entre chips lo hace adecuado para entrenamiento e inferencia distribuidos a gran escala
Impacto y posibilidades de uso de Ironwood
- Ironwood es un componente central de la arquitectura Google Cloud Hypercomputer, optimizado para las exigencias de la IA generativa de próxima generación
- Modelos recientes de IA como Gemini 2.5 y AlphaFold también se ejecutan sobre TPU
- Los clientes de Google Cloud podrán procesar cargas de trabajo de IA con alto rendimiento, baja latencia y mayor eficiencia energética mediante Ironwood
- Estará disponible para clientes dentro de 2025 y se espera que sirva como base para impulsar nuevas innovaciones en investigación y aplicaciones reales de IA
1 comentarios
Últimamente pensaba que Gemini tenía una velocidad de time to first token abrumadoramente rápida, así que resulta que había una razón para eso...