- El Google TPU es un chip ASIC dedicado diseñado para manejar cargas masivas de inferencia de IA, con ventajas de eficiencia y costo frente a las GPU
- Su principal diferenciador es la arquitectura Systolic Array, que minimiza el acceso a memoria y maximiza la eficiencia computacional (operaciones por joule)
- El más reciente TPUv7 (Ironwood) mejora drásticamente el rendimiento y el ancho de banda de memoria frente a generaciones anteriores, alcanzando un nivel de desempeño similar al de las GPU Blackwell de Nvidia
- Las limitaciones del ecosistema de TPU y su modelo de disponibilidad exclusiva en GCP son los principales obstáculos para su adopción masiva, aunque Google está reorganizándose para ampliar el soporte y atraer más clientes externos
- Mediante chips propios para recuperar márgenes en la nube y reforzar su competitividad, Google podría convertirse a largo plazo en uno de los grandes ganadores del mercado de infraestructura de IA
Historia del TPU y contexto de su desarrollo
- En 2013, Google calculó que el aumento en el uso de la búsqueda por voz implicaría duplicar la capacidad de sus centros de datos
- Con las CPU y GPU existentes, era difícil procesar eficientemente las operaciones de deep learning (multiplicación de matrices a gran escala)
- Por eso, Google decidió desarrollar un ASIC especializado para redes neuronales de TensorFlow y logró desplegar el silicio en sus centros de datos en apenas 15 meses
- Para 2015, los TPU ya se usaban en servicios clave como Google Maps, Photos y Translate
- En 2016 se presentaron oficialmente en Google I/O, y desde entonces los TPU evolucionaron como infraestructura clave para reducir el costo de la inferencia de IA
Diferencias estructurales entre TPU y GPU
- La GPU es un procesador paralelo de propósito general, mientras que el TPU es una arquitectura especializada por dominio
- Las GPU fueron diseñadas para gráficos, por lo que incluyen lógica de control compleja como caché y predicción de saltos
- El TPU elimina esa complejidad y reduce el movimiento de datos mediante una estructura Systolic Array
- El Systolic Array del TPU carga los datos una vez y luego los transmite en un flujo continuo de cómputo, mitigando el cuello de botella de Von Neumann
- Mejoras de Ironwood (7.ª generación)
- Refuerzo de SparseCore para mejorar la eficiencia en el procesamiento de embeddings a gran escala
- Aumento a 192 GB de HBM y 7,370 GB/s de ancho de banda
- Mejoras en el Inter-Chip Interconnect (ICI), con hasta 1.2 TB/s de ancho de banda
- Google construye grandes TPU Pod con Optical Circuit Switch (OCS) y una red 3D torus
- La eficiencia energética es alta, aunque la flexibilidad es menor que con InfiniBand
Comparación de rendimiento: TPU vs GPU
- TPUv7 (BF16 4,614 TFLOPS) vs TPUv5p (459 TFLOPS), lo que representa una mejora de rendimiento de alrededor de 10 veces
- Resumen de entrevistas de la industria
- El TPU tiene ventaja en eficiencia energética por rendimiento y eficiencia de costos
- En ciertas aplicaciones, logra hasta 1.4 veces más rendimiento por dólar
- El TPUv6 tiene una ventaja de eficiencia de 60% a 65% frente a las GPU; en la generación anterior era de 40% a 45%
- El TPU genera menos calor y consume menos energía, con menor carga ambiental
- Algunos clientes pueden reducir los costos hasta una quinta parte al usar TPU Pod
- Gracias a su estructura ASIC, se menciona una reducción de 30% en tamaño y 50% en consumo energético
- Según material interno de Google, el TPUv7 duplica el rendimiento por watt frente al TPUv6e
- El propio CEO de Nvidia, Jensen Huang, describió al TPU como un “caso especial”, reconociendo su relevancia
Problemas que frenan la adopción del TPU
- La primera barrera es el ecosistema (dominio de CUDA)
- Tanto en universidades como en la industria, la formación y el desarrollo giran alrededor de CUDA
- El TPU se centra en JAX y TensorFlow, y el soporte para PyTorch se fortaleció relativamente tarde
- La expansión de las estrategias multicloud también limita su adopción
- Como la mayoría de las empresas tienen sus datos repartidos entre AWS, Azure y GCP, las cargas basadas en GPU resultan más flexibles debido al alto costo de mover datos (egress)
- El TPU es exclusivo de GCP, mientras que Nvidia está disponible en las tres grandes nubes
- Si una empresa elige TPU y luego cambian los precios o el entorno, el costo de reescritura puede ser muy alto
- Google apenas recientemente comenzó a ampliar su organización para vender y expandir el TPU hacia afuera, y algunos empleados y ex empleados mencionan la posibilidad futura de suministro externo a través de neoclouds y otros canales
Valor estratégico del TPU para Google Cloud
- En la era de la IA, la industria cloud está pasando de una estructura de alto margen (50%–70%) a una de bajo margen (20%–35%)
- La causa es la presión de costos derivada del margen de 75% de Nvidia
- Solo los proveedores con ASIC propios, especialmente TPU, podrían volver a márgenes cloud tradicionales (alrededor de 50%)
- Factores de ventaja de Google
- El TPU es el ASIC para la nube más maduro
- Google realiza internamente la mayor parte del frontend del diseño del chip, incluido RTL
- Broadcom solo se encarga del diseño físico (backend), con una estructura de márgenes menor que la de Nvidia, lo que mejora la competitividad en costos del TPU
- Google posee toda la pila de optimización de software, lo que maximiza el rendimiento del hardware
- Modelos clave como Gemini 3 se entrenan y ejecutan inferencia sobre TPU
- Google también está ampliando el uso de TPU en todos sus servicios internos de IA
- SemiAnalysis evaluó que “el TPU de 7.ª generación de Google está al nivel de Nvidia Blackwell”
- El TPU se considera tanto una ventaja competitiva de largo plazo para GCP como un motor clave para ganar cuota en el mercado de infraestructura de IA
1 comentarios
Opiniones de Hacker News
La verdadera arma de Google no es el silicio TPU en sí, sino la escalabilidad masiva en paralelo mediante la interconexión OCS (Optical Circuit Switch)
Según una cita de The Next Platform, se pueden conectar 9,216 TPU Ironwood para aprovechar 1.77 PB de memoria HBM. Esto es una escala aplastantemente mayor que la de los sistemas a escala de rack basados en GPU Blackwell de Nvidia (20.7 TB de HBM)
Nvidia destaca a nivel de chip individual, pero en entrenamiento o inferencia distribuida a gran escala no tiene nada comparable a la escalabilidad con conmutación óptica de Google
La mayoría de las empresas no necesita comprar hardware directamente ni entrenar modelos; les basta con usar un servicio tipo tienda de apps de IA ofrecido por Google
Por ejemplo, los modelos Mixture of Experts requieren mucha comunicación all-to-all, así que NVLink resulta mucho más eficiente en ese caso
Enlace al tuit oficial de Nvidia
Para el paralelismo de modelo conviene una red rápida y pequeña; para el paralelismo de datos conviene una red grande. Por ese equilibrio, Nvidia va ganando
Gemini 3 Pro ya está cerca de quedar viejo. Google tiene muchos más recursos que Anthropic, pero si el hardware fuera el arma secreta, ya debería haber dominado el mercado
Pero la realidad es otra
Hay quien opina que CUDA es importante para el entrenamiento, pero menos importante en la etapa de inferencia
Pero la inferencia es un proceso simple de aplicar repetidamente pesos fijos, así que TPU podría ser más eficiente
No hay razón por la que Nvidia no pueda fabricar chips especializados como TPU
Nvidia subcontrata la fabricación a TSMC y vende caro, mientras que Google ahorra margen al usarlo internamente
Hay un reporte de Reuters que dice que Meta está negociando invertir miles de millones de dólares en chips de Google
Los ASIC para LLM son mucho más complejos que los ASIC para criptomonedas. En cripto solo hay que procesar un algoritmo hash fijo, pero los LLM siguen evolucionando
No queda claro qué significa TPU en ese contexto
Ojalá hubiera más opciones de TPU independiente para uso personal. Hoy, la única opción es Coral de 2019
Este debate es académico, como RISC vs CISC. Al final, las GPU de Nvidia también están siendo diseñadas para hacer lo mismo que TPU
Incluso dentro de Google, en cinco años quizá ya no haya una gran diferencia
Google obtiene beneficios con TPU, pero para los desarrolladores externos no hay una ventaja directa
Microsoft con Maia, los chips para centros de datos de AMD/NVIDIA, y la compra de empresas especializadas en redes muestran que todos van en la misma dirección
Google va adelante, pero al final será una competencia por convergencia
Los modelos dispersos (sparse models) pueden reducir 16 veces el cómputo y el espacio de almacenamiento manteniendo la misma calidad
TPU es débil para procesar matrices dispersas, pero fuerte para entrenar modelos densos (dense)
Documento de arquitectura del sistema TPU
Introducción a OpenXLA SparseCore
Al final, queda la pregunta de dónde está la meta en esta competencia, o incluso dónde está el piso