- Google presentó dos TPU de octava generación que condensan más de 10 años de desarrollo de TPU, y adoptó arquitecturas especializadas para una TPU 8t dedicada al entrenamiento de modelos a gran escala y una TPU 8i dedicada a inferencia de alta velocidad
- TPU 8t escala un solo superpod hasta 9,600 chips y 121 ExaFlops, con una mejora de alrededor de 3 veces en capacidad de cómputo por pod frente a la generación anterior
- TPU 8i fue rediseñada para inferencia agéntica con foco en optimizar el ancho de banda de memoria y la latencia, y logra una mejora del 80% en rendimiento por costo gracias a una mayor SRAM on-chip, hosts con CPU Axion y mejoras de red para MoE
- Ambos chips funcionan con hosts de CPU Axion basadas en ARM diseñadas por Google, con hasta 2 veces mejor rendimiento por watt frente a la generación anterior
- Como estrategia de infraestructura que optimiza por separado entrenamiento e inferencia para una era en la que los agentes de IA razonan, planifican y ejecutan de forma continua, estarán disponibles de forma general en la segunda mitad de este año y podrán usarse como parte de Google AI Hypercomputer
Resumen de la TPU de octava generación
- En Google Cloud Next, Google anunció la Tensor Processor Unit (TPU) de octava generación, compuesta por dos arquitecturas: la TPU 8t para entrenamiento y la TPU 8i para inferencia
- Fue diseñada para impulsar supercomputadoras personalizadas y cubrir entrenamiento de modelos de frontera, desarrollo de agentes y cargas de trabajo de inferencia a gran escala
- Google ha impulsado durante años modelos fundacionales clave, incluido Gemini, con TPU, y la octava generación ofrece escala, eficiencia y rendimiento a la vez en entrenamiento, serving y cargas de trabajo agénticas
- En la era de los agentes de IA, los modelos deben ejecutar un ciclo continuo en el que razonan sobre problemas, ejecutan flujos de trabajo de múltiples pasos y aprenden de sus propias acciones, lo que crea nuevos requisitos para la infraestructura
- Fue diseñada en colaboración con Google DeepMind para manejar las cargas de trabajo de IA más exigentes y adaptarse a arquitecturas de modelos en evolución
Más de 10 años de filosofía de diseño
- Las TPU han marcado el estándar en componentes de supercomputación para ML como cómputo numérico personalizado, refrigeración líquida e interconexión personalizada, y la octava generación reúne más de una década de desarrollo
- Principio clave de diseño: codiseñar (co-design) el silicio junto con hardware, redes y software —incluyendo arquitecturas de modelos y requisitos de aplicaciones— para lograr mejoras drásticas tanto en eficiencia energética como en rendimiento absoluto
- Se menciona el caso de Citadel Securities, que eligió TPU para sus cargas de trabajo de IA, como ejemplo de una organización líder
Por qué separar entrenamiento e inferencia
- Como los ciclos de desarrollo de hardware son mucho más largos que los del software, al diseñar cada generación de TPU es necesario prever con anticipación la tecnología y la demanda del momento de lanzamiento
- Desde hace años, Google anticipaba un aumento de la demanda de inferencia por el despliegue en producción de modelos de IA de frontera
- Con el auge de los agentes de IA, los requisitos de entrenamiento y serving son distintos, por lo que concluyó que chips especializados por separado benefician a la comunidad
- La TPU 8t está optimizada para entrenamiento a gran escala con mayor throughput de cómputo y ancho de banda scale-up
- La TPU 8i está optimizada para cargas de inferencia sensibles a la latencia con más ancho de banda de memoria, porque las interacciones entre agentes amplifican incluso pequeñas ineficiencias a gran escala
- Ambos chips pueden ejecutar diversas cargas de trabajo, pero la especialización permite mejoras significativas de eficiencia
TPU 8t: una potencia dedicada al entrenamiento
- El objetivo es acortar el ciclo de desarrollo de modelos de frontera de meses a semanas
- Combina throughput de cómputo de primer nivel, memoria compartida y ancho de banda entre chips con una combinación equilibrada de eficiencia energética óptima y tiempo de cómputo productivo
- Ofrece una mejora de casi 3 veces en cómputo por pod frente a la generación anterior
-
Escala masiva (Massive Scale)
- Un solo superpod de TPU 8t escala hasta 9,600 chips y 2 petabytes de HBM compartida
- Duplica el ancho de banda entre chips respecto a la generación anterior
- Entrega 121 ExaFlops de capacidad de cómputo, permitiendo que los modelos más complejos aprovechen un único pool de memoria a gran escala
-
Utilización máxima (Maximum Utilization)
- Integra acceso a almacenamiento 10 veces más rápido
- Con TPUDirect, los datos se transfieren directamente a la TPU para garantizar la máxima utilización del sistema de extremo a extremo
-
Escalado casi lineal (Near-Linear Scaling)
- Al combinar la nueva Virgo Network con el software JAX y Pathways, puede escalar de forma casi lineal hasta 1 millón de chips en un solo clúster lógico
-
Confiabilidad y disponibilidad
- Objetivo de goodput (tiempo de cómputo productivo útil) superior al 97%
- Incluye funciones integrales de RAS (Reliability, Availability, Serviceability)
- Telemetría en tiempo real a través de decenas de miles de chips
- Detección automática de enlaces ICI defectuosos y redirección sin interrumpir el trabajo
- OCS (Optical Circuit Switching) para reconfigurar el hardware alrededor de fallas sin intervención humana
- A escala de entrenamiento de frontera, las fallas de hardware, la latencia de red y los reinicios desde checkpoints son tiempo no dedicado al entrenamiento, y una diferencia de 1 punto porcentual puede traducirse en varios días de entrenamiento
TPU 8i: motor de inferencia
- En la era agéntica, los usuarios esperan poder hacer preguntas, delegar tareas y recibir resultados, por lo que está optimizada para trabajos donde múltiples agentes especializados hacen swarming y colaboran en flujos complejos
- Google rediseñó el stack para eliminar el "efecto sala de espera" y aplicó cuatro innovaciones clave
-
Romper la barrera de memoria (Breaking the Memory Wall)
- Integra 288 GB de HBM y 384 MB de SRAM on-chip (3 veces más que la generación anterior)
- Mantiene todo el working set activo del modelo dentro del chip para evitar que el procesador quede inactivo
-
Eficiencia basada en Axion
- Duplica los hosts físicos de CPU por servidor y adopta la CPU Axion basada en ARM de Google
- Optimiza el rendimiento del sistema completo mediante aislamiento NUMA (Non-Uniform Memory Architecture)
-
Escalado de modelos MoE
- Para los modelos más recientes de Mixture of Expert (MoE), duplica el ancho de banda ICI hasta 19.2 Tb/s
- La nueva arquitectura Boardfly reduce el diámetro máximo de la red en más de 50%, funcionando como una sola unidad cohesiva de baja latencia
-
Eliminación de latencia (Eliminating Lag)
- El nuevo CAE (Collectives Acceleration Engine) on-chip descarga las operaciones globales y reduce la latencia on-chip hasta en 5 veces
-
Rendimiento por costo
- Mejora el rendimiento por dólar en 80% frente a la generación anterior, permitiendo atender casi el doble del volumen de clientes con el mismo costo
Codiseñada con Gemini y abierta para todos
- La TPU de octava generación es la expresión más reciente de una filosofía de codiseño en la que todas las especificaciones fueron definidas para resolver los mayores desafíos de la IA
- Topología Boardfly: diseñada según los requisitos de comunicación de los mejores modelos de inferencia actuales
- Capacidad de SRAM de la TPU 8i: dimensionada según la huella del caché KV de modelos de inferencia a escala de producción
- Objetivo de ancho de banda de Virgo Network: derivado de los requisitos de paralelización del entrenamiento con parámetros en escala de billones
- Ambos chips funcionan por primera vez sobre hosts con CPU Axion basadas en ARM diseñadas por Google, permitiendo optimizar no solo el chip sino todo el sistema
-
Frameworks y accesibilidad
- Soporte nativo para JAX, MaxText, PyTorch, SGLang, vLLM
- Acceso bare metal, con acceso directo al hardware sin sobrecarga de virtualización
- Contribuciones open source: la implementación de referencia MaxText, Tunix para aprendizaje por refuerzo y más, para cubrir la ruta crítica desde el desarrollo hasta el despliegue en producción
Diseño de eficiencia energética a gran escala
- Hoy, en los centros de datos, no solo el suministro de chips sino también la energía es una restricción vinculante
- Google optimiza la eficiencia en todo el stack y aplica gestión integrada de energía que ajusta dinámicamente el consumo según la demanda en tiempo real
- Tanto la TPU 8t como la TPU 8i mejoran hasta 2 veces el rendimiento por watt frente a la generación anterior (Ironwood)
- La eficiencia no es solo una métrica a nivel chip, sino un compromiso a nivel sistema desde el silicio hasta el centro de datos
- Al integrar la conectividad de red en el mismo chip que el cómputo, reduce de forma importante el costo energético del movimiento de datos dentro de los pods de TPU
- Los centros de datos también fueron codiseñados junto con las TPU, logrando una mejora de 6 veces en potencia de cómputo por unidad de energía frente a hace 5 años
- Ambos chips están respaldados por tecnología de refrigeración líquida de cuarta generación, manteniendo una densidad de rendimiento imposible con refrigeración por aire
- Al controlar todo el stack, desde los hosts Axion hasta los aceleradores, Google logra una optimización de eficiencia energética a nivel sistema que sería imposible si hosts y chips se diseñaran de forma independiente
Infraestructura para la era agéntica
- Toda gran transición computacional requiere innovación en infraestructura, y la era agéntica no es la excepción
- La infraestructura debe evolucionar para responder a las exigencias de agentes autónomos que ejecutan un ciclo continuo de razonamiento, planificación, ejecución y aprendizaje
- La TPU 8t y la TPU 8i son la respuesta a este desafío: dos arquitecturas especializadas que redefinen la construcción de los mejores modelos de IA, enjambres de agentes perfectamente orquestados y la gestión de las tareas de inferencia más complejas
- Ambos chips estarán en disponibilidad general en la segunda mitad de este año
- Podrán usarse como parte de Google AI Hypercomputer
- Un stack integrado que combina hardware especializado (cómputo, almacenamiento, red), software abierto (frameworks, motores de inferencia) y modelos flexibles de consumo (orquestación, gestión de clústeres, modelos de entrega)
1 comentarios
Opiniones de Hacker News
Sentí que Gemini 3 ya mostró hasta dónde se puede llegar con entrenamiento centrado en eficiencia. Estimo que Pro y Flash probablemente se ven entre 5 y 10 veces más pequeños que modelos del nivel de Opus o GPT-5 Las llamadas a herramientas se rompen seguido y en tareas agénticas en general se siente flojo, así que parece que todavía le falta pulir razonamiento y ejecución. Aun así, si uno mira solo la resolución pura de problemas sin herramientas ni búsqueda, da la impresión de estar a la altura de Opus y GPT, pero con un tamaño aparentemente mucho menor Creo que el día que Google termine con el prototipado en fase preview y saque un modelo formal de verdad, va a sorprender a todos con algo que supere en una generación al SOTA actual. Los modelos que han salido hasta ahora se sintieron más como prototipos empujados apresuradamente a GA para mostrárselos a inversionistas y meterlos como prueba de concepto dentro de la línea de productos
Creo que para hacer IA a gran escala ya prácticamente tienes que comprarle a NVidia o rentarle a Google. Y Google puede diseñar chip, motor y sistema desde una perspectiva de centro de datos completo, así que puede optimizar incluso las partes que un vendedor de chips no puede centralizar Por eso supongo que, mientras más grande sea la escala, el sistema de Google siempre será más rentable. Como referencia, yo estoy en posición larga en GOOG, en parte por esto
Mientras otras empresas se llevaban la atención del ciclo de noticias, Google parecía subirse silenciosamente a una racha de fortalecimiento y acumular participación de mercado en consumo Quizá por haber integrado verticalmente la IA desde el principio, tampoco parece tener casi problemas de infraestructura; hubo un momento en que parecía una empresa acabada, pero ahora da la sensación de crecer por todas partes como una marea
Desde la perspectiva de alguien que usa Gemini, ChatGPT y Claude, Gemini consistentemente usa muchísimos menos tokens que los otros dos Al final, parece que Gemini se queda en su nivel actual por tener un thinking budget más pequeño Google probablemente tenga el mayor cómputo y la estructura de costos más baja, así que me intriga por qué no está empujando el cómputo de razonamiento tan fuerte como las otras dos. No sé si sea por la carga de otros servicios o por una estrategia centrada en entrenamiento, pero me parece un punto bastante interesante
La explicación de que un solo superpod TPU 8t escala a 9,600 chips y hasta 2PB de memoria compartida de alto ancho de banda fue impresionante No conozco tan bien este campo, pero al menos a mis ojos parecía una ventaja competitiva bastante grande de Google
Lo de que TPU 8t y TPU 8i tienen hasta el doble de rendimiento por vatio frente a la generación anterior fue bastante impresionante En especial porque la generación anterior es tan reciente que es un producto de 2025. También llamó la atención que el hardware para entrenamiento y para inferencia esté separado, y me da curiosidad si las empresas que usan hardware de NV también lo separan así o si es más de propósito general
Yo uso Gemini junto con Junie de JetBrains, y aunque Junie en sí no es tan bueno como Claude Code, sí siento que va muchísimo más adelante que las herramientas actuales de Google Con esa combinación estoy obteniendo resultados consistentes bastante buenos y además a bajo costo
Entre los grandes proveedores de razonamiento, siento que Google está entre los más molestos en cuanto a su política de retiro de modelos Eliminan un modelo exactamente un año después del lanzamiento y te fuerzan a pasar a la siguiente generación; como usan silicio propio, yo habría esperado más estabilidad, pero resultó ser al revés. Además, el rate limiting es mucho más estricto que en OpenAI, así que me pregunto si eso es por las TPU o solo por decisiones de política raras
Si al final hay un ganador definitivo en IA, me cuesta imaginar otro escenario que no sea Google con el stack completo o Apple desplegando la mayor cantidad de sitios edge habilitados para IA
En este enlace estaba una explicación más detallada de la arquitectura. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive