26 puntos por GN⁺ 2025-12-15 | 3 comentarios | Compartir por WhatsApp
  • La TPU es el acelerador especializado por dominio de Google que deja solo los cálculos indispensables para el deep learning y descarta con decisión todo lo demás
  • Comenzó a raíz de los límites de expansión de los centros de datos en 2013 y, en 12 años, evolucionó hasta la séptima generación, ‘Ironwood’
  • A medida que terminó la era en la que el rendimiento de los semiconductores mejoraba automáticamente, la estrategia de no esperar y diseñar directamente se volvió una opción clave
  • La TPU no es un solo chip, sino un sistema co-diseñado de hardware, compilador, red y software operativo
  • Con cada generación, el foco del diseño se desplazó de la competencia por rendimiento hacia la energía, el despliegue y el costo operativo total (TCO)
  • La competitividad de la TPU no está en una sola tecnología, sino en la suma de más de 10 años de experiencia acumulada en diseño y operación

Something New

  • La TPU no es un arma secreta, sino el resultado de un trabajo refinado durante mucho tiempo mediante investigación pública e iteración interna
  • En lugar de seguir ampliando sus centros de datos, Google eligió el camino de cambiar de raíz la forma de computar
  • Alrededor de 2013, la presión por duplicar la capacidad del centro de datos y las restricciones de tiempo llevaron al nacimiento de la TPU en solo 15 meses
  • En abril de 2025, en Google Cloud Next, se presentó la TPU Ironwood de séptima generación, con cifras de 9,216 chips por pod, 42.5 exaflops y 10 MW
  • La GPU no fue creada para deep learning, y la TPU fue diseñada desde el inicio pensando en el cálculo de redes neuronales
  • Esta decisión aseguró una ventaja estructural no solo en rendimiento de cómputo, sino también en eficiencia energética y estabilidad operativa
  • No fue “casualidad”, sino un resultado acumulado de repetidas iteraciones de restricciones, trade-offs y co-diseño

Slowing Down

  • Con el debilitamiento de la Ley de Moore y el escalado de Dennard, antes bastaba con esperar a una nueva CPU para que los programas fueran más rápidos, pero esa premisa se rompió
  • El número de transistores sigue aumentando, pero los límites de energía y calor frenan las mejoras de rendimiento
  • Al mismo tiempo, las redes neuronales exigen más datos y modelos más grandes, por lo que la demanda de cómputo se disparó
  • Por eso, más que un “chip que hace un poco bien de todo”, se volvió necesario un “chip que hace extremadamente bien una sola tarea”
  • El hecho de que el núcleo del cómputo de redes neuronales sea una operación repetitiva centrada en multiplicación de matrices hizo posible un diseño especializado

The Inference Chip

  • La primera TPU se centró no en entrenamiento, sino en inferencia (Inference), es decir, la ejecución de modelos ya entrenados
  • La TPUv1 eliminó caché, predicción de saltos y multithreading para minimizar el costo de control
  • En cambio, concentró todos sus recursos en el Systolic Array (MXU) que procesa grandes multiplicaciones de matrices sin pausa
  • No toma decisiones durante la ejecución, sino que sigue tal cual el orden de ejecución fijado en tiempo de compilación
  • Como resultado, con la misma energía procesa muchísimo más trabajo de inferencia que una GPU o CPU

The Training Chip

  • El entrenamiento requiere mucho más cómputo que la inferencia y un rango mucho más amplio de representación numérica
  • A partir de la TPUv2, se añadió flexibilidad para entrenamiento más allá de una arquitectura exclusiva para inferencia
  • El cambio clave fue la separación de roles entre matriz (MXU), vector (VPU) y control (Scalar Unit)
  • El flujo de ejecución es calculado y decidido de antemano por el compilador XLA, y el chip simplemente lo ejecuta
  • También se diseñó en conjunto una interconexión dedicada de alta velocidad (ICI) para que varias TPU funcionen como un solo dispositivo

Scaling Up

  • A medida que el sistema creció, la pregunta pasó de “qué tan rápido es” a “durante cuánto tiempo puede operar, y a qué costo”
  • Para ello, se colocó una gran memoria on-chip (CMEM) cerca de las unidades de cómputo para reducir accesos a DRAM, que es más lenta
  • También se introdujeron unidades dedicadas como SparseCore para cargas con muchos datos dispersos, como los sistemas de recomendación
  • Al separar la comunicación dentro del chip y entre chips, se alivian estructuralmente la complejidad del cableado y los cuellos de botella
  • Más que las cifras de rendimiento, la eficiencia operativa pasó a dominar todo el diseño

Island Hopping

  • En un entorno que usa miles de TPU, la falla no es una excepción, sino una premisa
  • El objetivo es un sistema que no se detenga, es decir, una estructura capaz de absorber fallas parciales
  • Las tareas se ejecutan distribuidas entre varias TPU, pero se gestionan para que parezcan un solo programa
  • Cuando surge un problema, en vez de detenerlo todo, se opta por reubicación y reinicio rápidos
  • La mayor parte de este proceso complejo la maneja automáticamente el software operativo

Expansión de la Datacenter Network

  • Cuando un solo grupo de TPU ya no basta, hay que conectar varios grupos
  • Como las redes convencionales tienen límites, se introdujo la conmutación basada en óptica (OCS)
  • Gracias a ello, todo el centro de datos puede configurarse como si fuera un único recurso de cómputo gigantesco
  • Coexisten tanto la forma de ampliar el modelo de ejecución existente como un modelo de ejecución asíncrono completamente nuevo (Pathways)
  • Esto permite soportar modelos más grandes y patrones de comunicación más complejos

Ceci n’est pas une TPU

  • Aunque las TPU más recientes impresionan por sus cifras, los principios clave siguen siendo los mismos que al principio
  • Se mantiene la dirección de concentrarse en los cálculos necesarios y eliminar la complejidad innecesaria
  • Este sistema no puede replicarse solo con especificaciones de hardware
  • Deben funcionar juntos el compilador (XLA), la interconexión dedicada (ICI), la conmutación óptica (OCS) y el scheduler operativo
  • La TPU no es una sola invención, sino el resultado acumulado de cientos de decisiones ordinarias

Algunas tecnologías clave que vale la pena recordar

  • Systolic Array (MXU): el corazón de la TPU que procesa multiplicaciones de matrices con alta eficiencia
  • Compilador XLA: calcula de antemano el orden de ejecución para eliminar el costo de control
  • BF16: formato numérico que reduce el costo de hardware manteniendo el rango necesario para entrenamiento
  • ICI / OCS: estructura de comunicación dedicada que une chips, racks y centros de datos como uno solo
  • Diseño centrado en TCO: una forma de pensar que optimiza el costo operativo de largo plazo por encima del rendimiento instantáneo

3 comentarios

 
crawler 2025-12-15

Tengo un deseo personal:
por favor, ojalá las TPU se masifiquen mucho y llegue el día en que las empresas no usen GPU.
Así NVIDIA volvería a enfocarse en las GPU para consumidores particulares.....

 
xguru 2025-12-15

El texto original es demasiado técnico y, si lo resumiera tal cual, sería solo una lista de términos técnicos, así que lo organicé un poco para que sea más fácil entender cómo ha evolucionado. Si tienen curiosidad por los detalles técnicos, consulten el texto original, que los explica junto con imágenes.

 
GN⁺ 2025-12-15
Comentarios en Hacker News
  • En el libro Scaling ML también hay una excelente sección sobre TPU: How to Think About TPUs
    • Yo también leí con interés este artículo junto con el análisis profundo de TPU de Henry Ko. Lo que hacen XLA y el scheduler es realmente impresionante. Es una estructura mucho más compleja que Itanium, y aun así sorprende que el software pueda aprovechar de verdad este chip monstruoso. Ojalá XLA se adoptara más ampliamente. Es de código abierto, pero da pena la falta de interés de la industria. Parece que Nvidia apenas ahora está siguiendo una dirección similar con Tiles. Aun así, tengo entendido que XLA todavía no es muy útil para el scheduling entre varias máquinas
  • Me gustó la explicación estructural de este artículo. La mayoría de los textos sobre TPU se saltan la parte práctica, pero este conectó los conceptos con la realidad y eso hizo que se entendiera mucho mejor
  • El nivel en que la arquitectura de TPU está diseñada para su propósito no termina en una sola generación de diseño. Ironwood es la TPU de séptima generación, y su proceso de evolución es muy importante
  • Yo todavía creo que la ley de Moore no ha muerto. Si asumimos que de 1965 a 2025, durante 60 años, se duplicó cada 2 años, entonces hubo 30 duplicaciones. Teóricamente, para 2025 se esperarían unos 107 mil millones de transistores, y de hecho el Apple M1 Ultra tiene 114 mil millones
    • Algunas personas interpretan la ley de Moore en el sentido fuerte de que “la velocidad de duplicación es constante”, pero eso terminó hace mucho. Sin embargo, si se ve esa velocidad como una constante que cambia gradualmente, sigue siendo válida. El problema es que si solo se observan los valores límite y se saca un promedio, no se refleja la tendencia reciente de cambio
  • Me sorprende que no haya sido una noticia más grande la idea de que China podría producir TPU a gran escala en unos pocos años. Eso podría golpear fuertemente a Google, NVIDIA y otros. También hubo un caso en 2022~2023 en el que ciudadanos chinos filtraron documentos de TPUv4 y v6. Ya startups chinas están construyendo sus propios clústeres de TPU y generando ingresos
    • Pero la fabricación en sí es la parte más difícil. China tiene suficiente conocimiento de diseño, pero le falta capacidad para fabricar los chips reales. La manufactura de semiconductores requiere la “tecnología mágica” que tiene TSMC. Intel y Samsung también pueden hacerlo hasta cierto punto, pero la brecha sigue siendo grande
    • La mitad del artículo trataba sobre la dependencia de software entre TPU, Borb, lilpunet, la red de switching óptico y otros componentes. Este tipo de sistemas complejos no son fáciles de replicar solo con capacidad de fabricación
    • Google usa TPU para sus propios servicios, así que aunque otras empresas fabriquen chips parecidos, no sería un golpe tan grande. Más bien, lo más realista sería que se rompiera el dominio de mercado de NVIDIA. Las unidades FMA/MAC tienen un diseño simple, así que Apple, Qualcomm, AMD, Amazon, Huawei y casi todas las empresas ya están metiendo su propio “TPU”. Aunque Estados Unidos entrenara a 600 mil estudiantes chinos, el verdadero núcleo sigue estando en la fabricación y la tecnología de procesos
    • No entiendo lo de “bases nucleares y fuerza laboral”. No sé qué relación tienen las bases nucleares con la fabricación de semiconductores. Y tampoco es que los 600 mil estudiantes estén aprendiendo todos diseño de chips
    • Decir que da miedo que las TPU se vuelvan más baratas suena un poco a sarcasmo
  • Me pregunto si al usar TPU en GCP uno sigue atado a ese extraño sistema de buckets de Google. Antes eso era realmente incómodo