Entendiendo la Tensor Processing Unit de Google

(considerthebulldog.com)

26 puntos por GN⁺ 2025-12-15 | 3 comentarios | Compartir por WhatsApp

La TPU es el acelerador especializado por dominio de Google que deja solo los cálculos indispensables para el deep learning y descarta con decisión todo lo demás
Comenzó a raíz de los límites de expansión de los centros de datos en 2013 y, en 12 años, evolucionó hasta la séptima generación, ‘Ironwood’
A medida que terminó la era en la que el rendimiento de los semiconductores mejoraba automáticamente, la estrategia de no esperar y diseñar directamente se volvió una opción clave
La TPU no es un solo chip, sino un sistema co-diseñado de hardware, compilador, red y software operativo
Con cada generación, el foco del diseño se desplazó de la competencia por rendimiento hacia la energía, el despliegue y el costo operativo total (TCO)
La competitividad de la TPU no está en una sola tecnología, sino en la suma de más de 10 años de experiencia acumulada en diseño y operación

Something New

La TPU no es un arma secreta, sino el resultado de un trabajo refinado durante mucho tiempo mediante investigación pública e iteración interna
En lugar de seguir ampliando sus centros de datos, Google eligió el camino de cambiar de raíz la forma de computar
Alrededor de 2013, la presión por duplicar la capacidad del centro de datos y las restricciones de tiempo llevaron al nacimiento de la TPU en solo 15 meses
En abril de 2025, en Google Cloud Next, se presentó la TPU Ironwood de séptima generación, con cifras de 9,216 chips por pod, 42.5 exaflops y 10 MW
La GPU no fue creada para deep learning, y la TPU fue diseñada desde el inicio pensando en el cálculo de redes neuronales
Esta decisión aseguró una ventaja estructural no solo en rendimiento de cómputo, sino también en eficiencia energética y estabilidad operativa
No fue “casualidad”, sino un resultado acumulado de repetidas iteraciones de restricciones, trade-offs y co-diseño

Slowing Down

Con el debilitamiento de la Ley de Moore y el escalado de Dennard, antes bastaba con esperar a una nueva CPU para que los programas fueran más rápidos, pero esa premisa se rompió
El número de transistores sigue aumentando, pero los límites de energía y calor frenan las mejoras de rendimiento
Al mismo tiempo, las redes neuronales exigen más datos y modelos más grandes, por lo que la demanda de cómputo se disparó
Por eso, más que un “chip que hace un poco bien de todo”, se volvió necesario un “chip que hace extremadamente bien una sola tarea”
El hecho de que el núcleo del cómputo de redes neuronales sea una operación repetitiva centrada en multiplicación de matrices hizo posible un diseño especializado

The Inference Chip

La primera TPU se centró no en entrenamiento, sino en inferencia (Inference), es decir, la ejecución de modelos ya entrenados
La TPUv1 eliminó caché, predicción de saltos y multithreading para minimizar el costo de control
En cambio, concentró todos sus recursos en el Systolic Array (MXU) que procesa grandes multiplicaciones de matrices sin pausa
No toma decisiones durante la ejecución, sino que sigue tal cual el orden de ejecución fijado en tiempo de compilación
Como resultado, con la misma energía procesa muchísimo más trabajo de inferencia que una GPU o CPU

The Training Chip

El entrenamiento requiere mucho más cómputo que la inferencia y un rango mucho más amplio de representación numérica
A partir de la TPUv2, se añadió flexibilidad para entrenamiento más allá de una arquitectura exclusiva para inferencia
El cambio clave fue la separación de roles entre matriz (MXU), vector (VPU) y control (Scalar Unit)
El flujo de ejecución es calculado y decidido de antemano por el compilador XLA, y el chip simplemente lo ejecuta
También se diseñó en conjunto una interconexión dedicada de alta velocidad (ICI) para que varias TPU funcionen como un solo dispositivo

Scaling Up

A medida que el sistema creció, la pregunta pasó de “qué tan rápido es” a “durante cuánto tiempo puede operar, y a qué costo”
Para ello, se colocó una gran memoria on-chip (CMEM) cerca de las unidades de cómputo para reducir accesos a DRAM, que es más lenta
También se introdujeron unidades dedicadas como SparseCore para cargas con muchos datos dispersos, como los sistemas de recomendación
Al separar la comunicación dentro del chip y entre chips, se alivian estructuralmente la complejidad del cableado y los cuellos de botella
Más que las cifras de rendimiento, la eficiencia operativa pasó a dominar todo el diseño

Island Hopping

En un entorno que usa miles de TPU, la falla no es una excepción, sino una premisa
El objetivo es un sistema que no se detenga, es decir, una estructura capaz de absorber fallas parciales
Las tareas se ejecutan distribuidas entre varias TPU, pero se gestionan para que parezcan un solo programa
Cuando surge un problema, en vez de detenerlo todo, se opta por reubicación y reinicio rápidos
La mayor parte de este proceso complejo la maneja automáticamente el software operativo

Expansión de la Datacenter Network

Cuando un solo grupo de TPU ya no basta, hay que conectar varios grupos
Como las redes convencionales tienen límites, se introdujo la conmutación basada en óptica (OCS)
Gracias a ello, todo el centro de datos puede configurarse como si fuera un único recurso de cómputo gigantesco
Coexisten tanto la forma de ampliar el modelo de ejecución existente como un modelo de ejecución asíncrono completamente nuevo (Pathways)
Esto permite soportar modelos más grandes y patrones de comunicación más complejos

Ceci n’est pas une TPU

Aunque las TPU más recientes impresionan por sus cifras, los principios clave siguen siendo los mismos que al principio
Se mantiene la dirección de concentrarse en los cálculos necesarios y eliminar la complejidad innecesaria
Este sistema no puede replicarse solo con especificaciones de hardware
Deben funcionar juntos el compilador (XLA), la interconexión dedicada (ICI), la conmutación óptica (OCS) y el scheduler operativo
La TPU no es una sola invención, sino el resultado acumulado de cientos de decisiones ordinarias

Algunas tecnologías clave que vale la pena recordar

Systolic Array (MXU): el corazón de la TPU que procesa multiplicaciones de matrices con alta eficiencia
Compilador XLA: calcula de antemano el orden de ejecución para eliminar el costo de control
BF16: formato numérico que reduce el costo de hardware manteniendo el rango necesario para entrenamiento
ICI / OCS: estructura de comunicación dedicada que une chips, racks y centros de datos como uno solo
Diseño centrado en TCO: una forma de pensar que optimiza el costo operativo de largo plazo por encima del rendimiento instantáneo

3 comentarios

crawler 2025-12-15

Tengo un deseo personal:
por favor, ojalá las TPU se masifiquen mucho y llegue el día en que las empresas no usen GPU.
Así NVIDIA volvería a enfocarse en las GPU para consumidores particulares.....

xguru 2025-12-15

El texto original es demasiado técnico y, si lo resumiera tal cual, sería solo una lista de términos técnicos, así que lo organicé un poco para que sea más fácil entender cómo ha evolucionado. Si tienen curiosidad por los detalles técnicos, consulten el texto original, que los explica junto con imágenes.

GN⁺ 2025-12-15

Comentarios en Hacker News

En el libro Scaling ML también hay una excelente sección sobre TPU: How to Think About TPUs
- Yo también leí con interés este artículo junto con el análisis profundo de TPU de Henry Ko. Lo que hacen XLA y el scheduler es realmente impresionante. Es una estructura mucho más compleja que Itanium, y aun así sorprende que el software pueda aprovechar de verdad este chip monstruoso. Ojalá XLA se adoptara más ampliamente. Es de código abierto, pero da pena la falta de interés de la industria. Parece que Nvidia apenas ahora está siguiendo una dirección similar con Tiles. Aun así, tengo entendido que XLA todavía no es muy útil para el scheduling entre varias máquinas
Me gustó la explicación estructural de este artículo. La mayoría de los textos sobre TPU se saltan la parte práctica, pero este conectó los conceptos con la realidad y eso hizo que se entendiera mucho mejor
El nivel en que la arquitectura de TPU está diseñada para su propósito no termina en una sola generación de diseño. Ironwood es la TPU de séptima generación, y su proceso de evolución es muy importante
Yo todavía creo que la ley de Moore no ha muerto. Si asumimos que de 1965 a 2025, durante 60 años, se duplicó cada 2 años, entonces hubo 30 duplicaciones. Teóricamente, para 2025 se esperarían unos 107 mil millones de transistores, y de hecho el Apple M1 Ultra tiene 114 mil millones
- Algunas personas interpretan la ley de Moore en el sentido fuerte de que “la velocidad de duplicación es constante”, pero eso terminó hace mucho. Sin embargo, si se ve esa velocidad como una constante que cambia gradualmente, sigue siendo válida. El problema es que si solo se observan los valores límite y se saca un promedio, no se refleja la tendencia reciente de cambio
Me sorprende que no haya sido una noticia más grande la idea de que China podría producir TPU a gran escala en unos pocos años. Eso podría golpear fuertemente a Google, NVIDIA y otros. También hubo un caso en 2022~2023 en el que ciudadanos chinos filtraron documentos de TPUv4 y v6. Ya startups chinas están construyendo sus propios clústeres de TPU y generando ingresos
- Pero la fabricación en sí es la parte más difícil. China tiene suficiente conocimiento de diseño, pero le falta capacidad para fabricar los chips reales. La manufactura de semiconductores requiere la “tecnología mágica” que tiene TSMC. Intel y Samsung también pueden hacerlo hasta cierto punto, pero la brecha sigue siendo grande
- La mitad del artículo trataba sobre la dependencia de software entre TPU, Borb, lilpunet, la red de switching óptico y otros componentes. Este tipo de sistemas complejos no son fáciles de replicar solo con capacidad de fabricación
- Google usa TPU para sus propios servicios, así que aunque otras empresas fabriquen chips parecidos, no sería un golpe tan grande. Más bien, lo más realista sería que se rompiera el dominio de mercado de NVIDIA. Las unidades FMA/MAC tienen un diseño simple, así que Apple, Qualcomm, AMD, Amazon, Huawei y casi todas las empresas ya están metiendo su propio “TPU”. Aunque Estados Unidos entrenara a 600 mil estudiantes chinos, el verdadero núcleo sigue estando en la fabricación y la tecnología de procesos
- No entiendo lo de “bases nucleares y fuerza laboral”. No sé qué relación tienen las bases nucleares con la fabricación de semiconductores. Y tampoco es que los 600 mil estudiantes estén aprendiendo todos diseño de chips
- Decir que da miedo que las TPU se vuelvan más baratas suena un poco a sarcasmo
Me pregunto si al usar TPU en GCP uno sigue atado a ese extraño sistema de buckets de Google. Antes eso era realmente incómodo