- La TPU es el acelerador especializado por dominio de Google que deja solo los cálculos indispensables para el deep learning y descarta con decisión todo lo demás
- Comenzó a raíz de los límites de expansión de los centros de datos en 2013 y, en 12 años, evolucionó hasta la séptima generación, ‘Ironwood’
- A medida que terminó la era en la que el rendimiento de los semiconductores mejoraba automáticamente, la estrategia de no esperar y diseñar directamente se volvió una opción clave
- La TPU no es un solo chip, sino un sistema co-diseñado de hardware, compilador, red y software operativo
- Con cada generación, el foco del diseño se desplazó de la competencia por rendimiento hacia la energía, el despliegue y el costo operativo total (TCO)
- La competitividad de la TPU no está en una sola tecnología, sino en la suma de más de 10 años de experiencia acumulada en diseño y operación
Something New
- La TPU no es un arma secreta, sino el resultado de un trabajo refinado durante mucho tiempo mediante investigación pública e iteración interna
- En lugar de seguir ampliando sus centros de datos, Google eligió el camino de cambiar de raíz la forma de computar
- Alrededor de 2013, la presión por duplicar la capacidad del centro de datos y las restricciones de tiempo llevaron al nacimiento de la TPU en solo 15 meses
- En abril de 2025, en Google Cloud Next, se presentó la TPU Ironwood de séptima generación, con cifras de 9,216 chips por pod, 42.5 exaflops y 10 MW
- La GPU no fue creada para deep learning, y la TPU fue diseñada desde el inicio pensando en el cálculo de redes neuronales
- Esta decisión aseguró una ventaja estructural no solo en rendimiento de cómputo, sino también en eficiencia energética y estabilidad operativa
- No fue “casualidad”, sino un resultado acumulado de repetidas iteraciones de restricciones, trade-offs y co-diseño
Slowing Down
- Con el debilitamiento de la Ley de Moore y el escalado de Dennard, antes bastaba con esperar a una nueva CPU para que los programas fueran más rápidos, pero esa premisa se rompió
- El número de transistores sigue aumentando, pero los límites de energía y calor frenan las mejoras de rendimiento
- Al mismo tiempo, las redes neuronales exigen más datos y modelos más grandes, por lo que la demanda de cómputo se disparó
- Por eso, más que un “chip que hace un poco bien de todo”, se volvió necesario un “chip que hace extremadamente bien una sola tarea”
- El hecho de que el núcleo del cómputo de redes neuronales sea una operación repetitiva centrada en multiplicación de matrices hizo posible un diseño especializado
The Inference Chip
- La primera TPU se centró no en entrenamiento, sino en inferencia (Inference), es decir, la ejecución de modelos ya entrenados
- La TPUv1 eliminó caché, predicción de saltos y multithreading para minimizar el costo de control
- En cambio, concentró todos sus recursos en el Systolic Array (MXU) que procesa grandes multiplicaciones de matrices sin pausa
- No toma decisiones durante la ejecución, sino que sigue tal cual el orden de ejecución fijado en tiempo de compilación
- Como resultado, con la misma energía procesa muchísimo más trabajo de inferencia que una GPU o CPU
The Training Chip
- El entrenamiento requiere mucho más cómputo que la inferencia y un rango mucho más amplio de representación numérica
- A partir de la TPUv2, se añadió flexibilidad para entrenamiento más allá de una arquitectura exclusiva para inferencia
- El cambio clave fue la separación de roles entre matriz (MXU), vector (VPU) y control (Scalar Unit)
- El flujo de ejecución es calculado y decidido de antemano por el compilador XLA, y el chip simplemente lo ejecuta
- También se diseñó en conjunto una interconexión dedicada de alta velocidad (ICI) para que varias TPU funcionen como un solo dispositivo
Scaling Up
- A medida que el sistema creció, la pregunta pasó de “qué tan rápido es” a “durante cuánto tiempo puede operar, y a qué costo”
- Para ello, se colocó una gran memoria on-chip (CMEM) cerca de las unidades de cómputo para reducir accesos a DRAM, que es más lenta
- También se introdujeron unidades dedicadas como SparseCore para cargas con muchos datos dispersos, como los sistemas de recomendación
- Al separar la comunicación dentro del chip y entre chips, se alivian estructuralmente la complejidad del cableado y los cuellos de botella
- Más que las cifras de rendimiento, la eficiencia operativa pasó a dominar todo el diseño
Island Hopping
- En un entorno que usa miles de TPU, la falla no es una excepción, sino una premisa
- El objetivo es un sistema que no se detenga, es decir, una estructura capaz de absorber fallas parciales
- Las tareas se ejecutan distribuidas entre varias TPU, pero se gestionan para que parezcan un solo programa
- Cuando surge un problema, en vez de detenerlo todo, se opta por reubicación y reinicio rápidos
- La mayor parte de este proceso complejo la maneja automáticamente el software operativo
Expansión de la Datacenter Network
- Cuando un solo grupo de TPU ya no basta, hay que conectar varios grupos
- Como las redes convencionales tienen límites, se introdujo la conmutación basada en óptica (OCS)
- Gracias a ello, todo el centro de datos puede configurarse como si fuera un único recurso de cómputo gigantesco
- Coexisten tanto la forma de ampliar el modelo de ejecución existente como un modelo de ejecución asíncrono completamente nuevo (Pathways)
- Esto permite soportar modelos más grandes y patrones de comunicación más complejos
Ceci n’est pas une TPU
- Aunque las TPU más recientes impresionan por sus cifras, los principios clave siguen siendo los mismos que al principio
- Se mantiene la dirección de concentrarse en los cálculos necesarios y eliminar la complejidad innecesaria
- Este sistema no puede replicarse solo con especificaciones de hardware
- Deben funcionar juntos el compilador (XLA), la interconexión dedicada (ICI), la conmutación óptica (OCS) y el scheduler operativo
- La TPU no es una sola invención, sino el resultado acumulado de cientos de decisiones ordinarias
Algunas tecnologías clave que vale la pena recordar
- Systolic Array (MXU): el corazón de la TPU que procesa multiplicaciones de matrices con alta eficiencia
- Compilador XLA: calcula de antemano el orden de ejecución para eliminar el costo de control
- BF16: formato numérico que reduce el costo de hardware manteniendo el rango necesario para entrenamiento
- ICI / OCS: estructura de comunicación dedicada que une chips, racks y centros de datos como uno solo
- Diseño centrado en TCO: una forma de pensar que optimiza el costo operativo de largo plazo por encima del rendimiento instantáneo
3 comentarios
Tengo un deseo personal:
por favor, ojalá las TPU se masifiquen mucho y llegue el día en que las empresas no usen GPU.
Así NVIDIA volvería a enfocarse en las GPU para consumidores particulares.....
El texto original es demasiado técnico y, si lo resumiera tal cual, sería solo una lista de términos técnicos, así que lo organicé un poco para que sea más fácil entender cómo ha evolucionado. Si tienen curiosidad por los detalles técnicos, consulten el texto original, que los explica junto con imágenes.
Comentarios en Hacker News