Dos chips para la era de los agentes: la TPU de octava generación de Google

(blog.google)

6 puntos por GN⁺ 2026-04-23 | 1 comentarios | Compartir por WhatsApp

Google presentó dos TPU de octava generación que condensan más de 10 años de desarrollo de TPU, y adoptó arquitecturas especializadas para una TPU 8t dedicada al entrenamiento de modelos a gran escala y una TPU 8i dedicada a inferencia de alta velocidad
TPU 8t escala un solo superpod hasta 9,600 chips y 121 ExaFlops, con una mejora de alrededor de 3 veces en capacidad de cómputo por pod frente a la generación anterior
TPU 8i fue rediseñada para inferencia agéntica con foco en optimizar el ancho de banda de memoria y la latencia, y logra una mejora del 80% en rendimiento por costo gracias a una mayor SRAM on-chip, hosts con CPU Axion y mejoras de red para MoE
Ambos chips funcionan con hosts de CPU Axion basadas en ARM diseñadas por Google, con hasta 2 veces mejor rendimiento por watt frente a la generación anterior
Como estrategia de infraestructura que optimiza por separado entrenamiento e inferencia para una era en la que los agentes de IA razonan, planifican y ejecutan de forma continua, estarán disponibles de forma general en la segunda mitad de este año y podrán usarse como parte de Google AI Hypercomputer

Resumen de la TPU de octava generación

En Google Cloud Next, Google anunció la Tensor Processor Unit (TPU) de octava generación, compuesta por dos arquitecturas: la TPU 8t para entrenamiento y la TPU 8i para inferencia
Fue diseñada para impulsar supercomputadoras personalizadas y cubrir entrenamiento de modelos de frontera, desarrollo de agentes y cargas de trabajo de inferencia a gran escala
Google ha impulsado durante años modelos fundacionales clave, incluido Gemini, con TPU, y la octava generación ofrece escala, eficiencia y rendimiento a la vez en entrenamiento, serving y cargas de trabajo agénticas
En la era de los agentes de IA, los modelos deben ejecutar un ciclo continuo en el que razonan sobre problemas, ejecutan flujos de trabajo de múltiples pasos y aprenden de sus propias acciones, lo que crea nuevos requisitos para la infraestructura
Fue diseñada en colaboración con Google DeepMind para manejar las cargas de trabajo de IA más exigentes y adaptarse a arquitecturas de modelos en evolución

Más de 10 años de filosofía de diseño

Las TPU han marcado el estándar en componentes de supercomputación para ML como cómputo numérico personalizado, refrigeración líquida e interconexión personalizada, y la octava generación reúne más de una década de desarrollo
Principio clave de diseño: codiseñar (co-design) el silicio junto con hardware, redes y software —incluyendo arquitecturas de modelos y requisitos de aplicaciones— para lograr mejoras drásticas tanto en eficiencia energética como en rendimiento absoluto
Se menciona el caso de Citadel Securities, que eligió TPU para sus cargas de trabajo de IA, como ejemplo de una organización líder

Por qué separar entrenamiento e inferencia

Como los ciclos de desarrollo de hardware son mucho más largos que los del software, al diseñar cada generación de TPU es necesario prever con anticipación la tecnología y la demanda del momento de lanzamiento
Desde hace años, Google anticipaba un aumento de la demanda de inferencia por el despliegue en producción de modelos de IA de frontera
Con el auge de los agentes de IA, los requisitos de entrenamiento y serving son distintos, por lo que concluyó que chips especializados por separado benefician a la comunidad
La TPU 8t está optimizada para entrenamiento a gran escala con mayor throughput de cómputo y ancho de banda scale-up
La TPU 8i está optimizada para cargas de inferencia sensibles a la latencia con más ancho de banda de memoria, porque las interacciones entre agentes amplifican incluso pequeñas ineficiencias a gran escala
Ambos chips pueden ejecutar diversas cargas de trabajo, pero la especialización permite mejoras significativas de eficiencia

TPU 8t: una potencia dedicada al entrenamiento

El objetivo es acortar el ciclo de desarrollo de modelos de frontera de meses a semanas
Combina throughput de cómputo de primer nivel, memoria compartida y ancho de banda entre chips con una combinación equilibrada de eficiencia energética óptima y tiempo de cómputo productivo
Ofrece una mejora de casi 3 veces en cómputo por pod frente a la generación anterior
Escala masiva (Massive Scale)
- Un solo superpod de TPU 8t escala hasta 9,600 chips y 2 petabytes de HBM compartida
- Duplica el ancho de banda entre chips respecto a la generación anterior
- Entrega 121 ExaFlops de capacidad de cómputo, permitiendo que los modelos más complejos aprovechen un único pool de memoria a gran escala
Utilización máxima (Maximum Utilization)
- Integra acceso a almacenamiento 10 veces más rápido
- Con TPUDirect, los datos se transfieren directamente a la TPU para garantizar la máxima utilización del sistema de extremo a extremo
Escalado casi lineal (Near-Linear Scaling)
- Al combinar la nueva Virgo Network con el software JAX y Pathways, puede escalar de forma casi lineal hasta 1 millón de chips en un solo clúster lógico
Confiabilidad y disponibilidad
- Objetivo de goodput (tiempo de cómputo productivo útil) superior al 97%
- Incluye funciones integrales de RAS (Reliability, Availability, Serviceability)
  - Telemetría en tiempo real a través de decenas de miles de chips
  - Detección automática de enlaces ICI defectuosos y redirección sin interrumpir el trabajo
  - OCS (Optical Circuit Switching) para reconfigurar el hardware alrededor de fallas sin intervención humana
- A escala de entrenamiento de frontera, las fallas de hardware, la latencia de red y los reinicios desde checkpoints son tiempo no dedicado al entrenamiento, y una diferencia de 1 punto porcentual puede traducirse en varios días de entrenamiento

TPU 8i: motor de inferencia

En la era agéntica, los usuarios esperan poder hacer preguntas, delegar tareas y recibir resultados, por lo que está optimizada para trabajos donde múltiples agentes especializados hacen swarming y colaboran en flujos complejos
Google rediseñó el stack para eliminar el "efecto sala de espera" y aplicó cuatro innovaciones clave
Romper la barrera de memoria (Breaking the Memory Wall)
- Integra 288 GB de HBM y 384 MB de SRAM on-chip (3 veces más que la generación anterior)
- Mantiene todo el working set activo del modelo dentro del chip para evitar que el procesador quede inactivo
Eficiencia basada en Axion
- Duplica los hosts físicos de CPU por servidor y adopta la CPU Axion basada en ARM de Google
- Optimiza el rendimiento del sistema completo mediante aislamiento NUMA (Non-Uniform Memory Architecture)
Escalado de modelos MoE
- Para los modelos más recientes de Mixture of Expert (MoE), duplica el ancho de banda ICI hasta 19.2 Tb/s
- La nueva arquitectura Boardfly reduce el diámetro máximo de la red en más de 50%, funcionando como una sola unidad cohesiva de baja latencia
Eliminación de latencia (Eliminating Lag)
- El nuevo CAE (Collectives Acceleration Engine) on-chip descarga las operaciones globales y reduce la latencia on-chip hasta en 5 veces
Rendimiento por costo
- Mejora el rendimiento por dólar en 80% frente a la generación anterior, permitiendo atender casi el doble del volumen de clientes con el mismo costo

Codiseñada con Gemini y abierta para todos

La TPU de octava generación es la expresión más reciente de una filosofía de codiseño en la que todas las especificaciones fueron definidas para resolver los mayores desafíos de la IA
Topología Boardfly: diseñada según los requisitos de comunicación de los mejores modelos de inferencia actuales
Capacidad de SRAM de la TPU 8i: dimensionada según la huella del caché KV de modelos de inferencia a escala de producción
Objetivo de ancho de banda de Virgo Network: derivado de los requisitos de paralelización del entrenamiento con parámetros en escala de billones
Ambos chips funcionan por primera vez sobre hosts con CPU Axion basadas en ARM diseñadas por Google, permitiendo optimizar no solo el chip sino todo el sistema
Frameworks y accesibilidad
- Soporte nativo para JAX, MaxText, PyTorch, SGLang, vLLM
- Acceso bare metal, con acceso directo al hardware sin sobrecarga de virtualización
- Contribuciones open source: la implementación de referencia MaxText, Tunix para aprendizaje por refuerzo y más, para cubrir la ruta crítica desde el desarrollo hasta el despliegue en producción

Diseño de eficiencia energética a gran escala

Hoy, en los centros de datos, no solo el suministro de chips sino también la energía es una restricción vinculante
Google optimiza la eficiencia en todo el stack y aplica gestión integrada de energía que ajusta dinámicamente el consumo según la demanda en tiempo real
Tanto la TPU 8t como la TPU 8i mejoran hasta 2 veces el rendimiento por watt frente a la generación anterior (Ironwood)
La eficiencia no es solo una métrica a nivel chip, sino un compromiso a nivel sistema desde el silicio hasta el centro de datos
- Al integrar la conectividad de red en el mismo chip que el cómputo, reduce de forma importante el costo energético del movimiento de datos dentro de los pods de TPU
- Los centros de datos también fueron codiseñados junto con las TPU, logrando una mejora de 6 veces en potencia de cómputo por unidad de energía frente a hace 5 años
Ambos chips están respaldados por tecnología de refrigeración líquida de cuarta generación, manteniendo una densidad de rendimiento imposible con refrigeración por aire
Al controlar todo el stack, desde los hosts Axion hasta los aceleradores, Google logra una optimización de eficiencia energética a nivel sistema que sería imposible si hosts y chips se diseñaran de forma independiente

Infraestructura para la era agéntica

Toda gran transición computacional requiere innovación en infraestructura, y la era agéntica no es la excepción
La infraestructura debe evolucionar para responder a las exigencias de agentes autónomos que ejecutan un ciclo continuo de razonamiento, planificación, ejecución y aprendizaje
La TPU 8t y la TPU 8i son la respuesta a este desafío: dos arquitecturas especializadas que redefinen la construcción de los mejores modelos de IA, enjambres de agentes perfectamente orquestados y la gestión de las tareas de inferencia más complejas
Ambos chips estarán en disponibilidad general en la segunda mitad de este año
Podrán usarse como parte de Google AI Hypercomputer
- Un stack integrado que combina hardware especializado (cómputo, almacenamiento, red), software abierto (frameworks, motores de inferencia) y modelos flexibles de consumo (orquestación, gestión de clústeres, modelos de entrega)

1 comentarios

GN⁺ 2026-04-23

Opiniones de Hacker News

Sentí que Gemini 3 ya mostró hasta dónde se puede llegar con entrenamiento centrado en eficiencia. Estimo que Pro y Flash probablemente se ven entre 5 y 10 veces más pequeños que modelos del nivel de Opus o GPT-5 Las llamadas a herramientas se rompen seguido y en tareas agénticas en general se siente flojo, así que parece que todavía le falta pulir razonamiento y ejecución. Aun así, si uno mira solo la resolución pura de problemas sin herramientas ni búsqueda, da la impresión de estar a la altura de Opus y GPT, pero con un tamaño aparentemente mucho menor Creo que el día que Google termine con el prototipado en fase preview y saque un modelo formal de verdad, va a sorprender a todos con algo que supere en una generación al SOTA actual. Los modelos que han salido hasta ahora se sintieron más como prototipos empujados apresuradamente a GA para mostrárselos a inversionistas y meterlos como prueba de concepto dentro de la línea de productos
- Soy escéptico con esa estimación de 5 a 10 veces. Sobre todo en Pro; más bien creo que podría ser un modelo más grande corriendo más barato y más rápido gracias al hardware de Google Gemini 3 Pro se sintió en general como el modelo más cercano a una inteligencia humana. En especial es fuerte en humanidades, y su capacidad para producir texto natural en muchos idiomas humanos me parece prácticamente la número uno. Esa diferencia se vuelve aún mayor en idiomas de nicho, y eso me sugiere más bien un modelo más grande, no uno pequeño En matemáticas y tareas agénticas sí se siente claramente débil, y la app de Gemini también se ve tan rezagada que no difiere mucho del ChatGPT inicial de hace 3 años, lo cual le baja el rendimiento percibido
- Yo también estoy de acuerdo en esa parte. Gemini-cli me pareció realmente pésimo comparado con CC o Codex Aun así, creo que la prioridad de Google es hacer la mejor IA posible para reforzar o reemplazar la búsqueda tradicional. Ese es su negocio principal, y su posición para monetizarlo es muchísimo mejor que la de cualquiera. Ya tiene una enorme ventaja de distribución en base de usuarios y volumen de consultas Ojalá también le subieran la prioridad a Gemini-cli y empujaran más fuerte la competencia en esta área
- Según recuerdo, cuando salió Gemini 3 Pro al principio se le consideraba casi del mismo nivel que la versión de Claude de ese momento. Pero el Gemini 3 actual ya se siente bastante viejo Desde entonces han salido muchos modelos chinos y Claude tuvo varias actualizaciones, así que ahora parece que Google está un poco estancado en este campo. Igual creo que podrían sorprender pronto con una mejora grande
- Me parece que la nomenclatura preview de Google es bastante arbitraria. Es una forma de evitar compromisos sobre disponibilidad o permanencia, y se siente como una táctica de PR para luego escudarse en que era calidad beta si algo falla
- Siempre me he preguntado qué me estoy perdiendo con Gemini. Para mí, con suerte se siente como un modelo de segunda Para recopilar información medio sirve, pero para tareas agénticas es casi inútil y siempre parece como si estuviera borracho. Cuando se me acaban los créditos de Claude en Antigravity, siento que ese día simplemente se acabó Me dio risa eso de que usa muchos menos tokens, porque en mi experiencia se la pasa entrando en bucles mortales donde ni siquiera resuelve el problema
Creo que para hacer IA a gran escala ya prácticamente tienes que comprarle a NVidia o rentarle a Google. Y Google puede diseñar chip, motor y sistema desde una perspectiva de centro de datos completo, así que puede optimizar incluso las partes que un vendedor de chips no puede centralizar Por eso supongo que, mientras más grande sea la escala, el sistema de Google siempre será más rentable. Como referencia, yo estoy en posición larga en GOOG, en parte por esto
- Yo también querría apostar por Google, pero probablemente lo haría si la experiencia de Gemini CLI fuera siquiera parecida al nivel de Codex o Claude No importa qué tan bueno sea el hardware si tu agente principal de programación se queda atrapado en un loop buscando el token de fin de turno
- Me preguntaba si Amazon no está haciendo algo parecido con sus propios chips tipo TPU
- A mí me vino a la mente eso de no construir un castillo en el reino de otro Al final, comprarle a NVidia parece la única opción realista, y ni siquiera creo que sea la óptima
- Yo estoy más bien cerca del lado contrario de esa hipótesis. Por dos razones: primero, porque da la impresión de que Google ha limitado artificialmente la producción Segundo, porque TSMC va a favorecer a quien pueda pagar más por capacidad, así que creo que Nvidia se lleva los primeros slots en cada proceso nuevo Además, GCP tiene márgenes operativos más altos que Hetzner o lambdalabs, y sí existen rentas de GPU más baratas, así que estudiantes e investigadores pequeños al final terminan quedándose del lado de las GPU
- Yo habría apostado por Google si su directiva fuera un poco más inspiradora El Apple de Cook ya era más tibio que en tiempos de Jobs, pero Google se sintió como si se hubiera caído por un precipicio. Si OpenAI no hubiera lanzado ChatGPT, creo que esta tecnología quizá habría seguido guardada como experimento interno. Ahora eso más bien parece haberse vuelto el motor que empuja todo el I+D de chips
Mientras otras empresas se llevaban la atención del ciclo de noticias, Google parecía subirse silenciosamente a una racha de fortalecimiento y acumular participación de mercado en consumo Quizá por haber integrado verticalmente la IA desde el principio, tampoco parece tener casi problemas de infraestructura; hubo un momento en que parecía una empresa acabada, pero ahora da la sensación de crecer por todas partes como una marea
- Eso sí, el subreddit de Google Antigravity se veía como un completo caos https://www.reddit.com/r/GoogleAntigravityIDE/
- Creo que dentro de 1 o 2 años llegará el momento en que Google y Apple al final ganen ambos No están jugando ese juego de sacar cada mes productos sin pulir para duplicar su valuación; espero que tengan tiempo para observar, pensar y luego lanzar productos realmente bien terminados
- Creo que los últimos modelos abiertos de Google son bastante competitivos frente a otros modelos abiertos Sobre todo hay innovación en tamaños pequeños como 2~4GB, y siento que están ayudando a cerrar la brecha para acercar razonamiento de calidad realista a teléfonos y dispositivos aún más pequeños
- Quitando la exageración, OpenAI y Anthropic parecen dos empresas echándose dinero encima y prendiéndose fuego mutuamente para hacer una fogata más grande
- No creo que la adopción de IA sea un tema tan existencial para Google como sí lo es para OpenAI o Anthropic Además, diga lo que diga Google, le cuesta más generar hype que a las otras dos, y al final todo suena más fácilmente a frase de relaciones públicas corporativas
Desde la perspectiva de alguien que usa Gemini, ChatGPT y Claude, Gemini consistentemente usa muchísimos menos tokens que los otros dos Al final, parece que Gemini se queda en su nivel actual por tener un thinking budget más pequeño Google probablemente tenga el mayor cómputo y la estructura de costos más baja, así que me intriga por qué no está empujando el cómputo de razonamiento tan fuerte como las otras dos. No sé si sea por la carga de otros servicios o por una estrategia centrada en entrenamiento, pero me parece un punto bastante interesante
- Yo usé Gemini Pro durante unos meses con una suscripción de Google One de unos 20 dólares, y sentí que incluso hace menos búsquedas web para verificar información que ChatGPT 5.4 Pro También quise comparar programación, pero no pude porque el add-in de Gemini para VSCode no funcionaba Además había muchos bugs en Android y en la app web, incluso el historial del chat desaparecía al pasar entre hilos, así que este mes pienso cancelar mi suscripción de Google One
- No me queda claro cuál es la ventaja competitiva de usar Gemini en lugar de Claude o ChatGPT Siento que la calidad de salida no está ni cerca de la de esos dos
- Tengo esperanza de que la plataforma agéntica enterprise que acaban de anunciar hoy pueda convertirse en el pozo gravitacional donde las Fortune 500 monten sus cargas de trabajo de razonamiento
- Estoy medio convencido de que una de las razones principales por las que GLM-5 mejoró frente a GLM-4.7 fue que fue más agresivo con el uso de tokens En 4.7 costaba muchísimo hacer que leyera suficiente código fuente, y aun así, una vez que sí lo hacía, era bastante competente La frugalidad es una ventaja, pero también puede significar que no reflexiona lo suficiente, no considera suficientes elementos, o no lee suficiente código fuente. Al final, sigue siendo un terreno donde nadie sabe con certeza todavía cuál es el equilibrio entre ahorrar tokens y usar muchos
La explicación de que un solo superpod TPU 8t escala a 9,600 chips y hasta 2PB de memoria compartida de alto ancho de banda fue impresionante No conozco tan bien este campo, pero al menos a mis ojos parecía una ventaja competitiva bastante grande de Google
- Yo también creo que eso es cierto. Aun así, no creo que vayan a lograr AGI sin algún avance del lado de la separación entre instrucciones y datos
Lo de que TPU 8t y TPU 8i tienen hasta el doble de rendimiento por vatio frente a la generación anterior fue bastante impresionante En especial porque la generación anterior es tan reciente que es un producto de 2025. También llamó la atención que el hardware para entrenamiento y para inferencia esté separado, y me da curiosidad si las empresas que usan hardware de NV también lo separan así o si es más de propósito general
- Es bien sabido que el entrenamiento está limitado por cómputo y la inferencia por memoria, pero hasta donde sé, los despliegues de Nvidia normalmente no se especializan en uno u otro Muchas nubes y neoclouds no son dueñas de la carga de trabajo en sí, así que la flexibilidad importa, y si ya invirtieron en H200 carísimos junto con networking, necesitan poder vendérselos a distintos clientes Aun así, ya están apareciendo aceleradores dedicados a inferencia, como el Grok LPU de Vera Rubin o Cerebras, así que diría que esa tendencia de especialización ya empezó
- No puedo asegurarlo del lado de NVIDIA, pero AWS sí tiene chips separados para entrenamiento y para inferencia Aunque he oído rumores de que sus chips de inferencia son tan flojos que algunas empresas terminan haciendo inferencia también en los de entrenamiento
- El hardware dedicado en general da un rendimiento más rápido, así que a medida que un campo madura suele pasar que sistemas complejos y caros terminan bajando a chips comunes de 1 dólar Por eso me dio la impresión de que Google entiende su stack muchísimo mejor que las empresas montadas sobre NVidia. Google posee todo, desde el teclado hasta el silicio, así que parece haber aprendido iterativamente muy bien cómo separar funciones que de otro modo compiten por los mismos recursos
- Incluso los chips de entrenamiento al final podrían servir bastante bien para inferencia masiva lenta pero de alto throughput Para usos con baja sensibilidad al tiempo, creo que este enfoque se va a volver bastante común
- El simple hecho de que Vera Rubin incluya chips Groq para inferencia rápida ya parecía mostrar una tendencia Con una demanda energética tan alta, se siente natural perseguir toda optimización posible
Yo uso Gemini junto con Junie de JetBrains, y aunque Junie en sí no es tan bueno como Claude Code, sí siento que va muchísimo más adelante que las herramientas actuales de Google Con esa combinación estoy obteniendo resultados consistentes bastante buenos y además a bajo costo
- Incluso dentro del contexto del IDE de JetBrains y sus herramientas, me daba curiosidad si también lo ves como algo a la altura de la competencia
Entre los grandes proveedores de razonamiento, siento que Google está entre los más molestos en cuanto a su política de retiro de modelos Eliminan un modelo exactamente un año después del lanzamiento y te fuerzan a pasar a la siguiente generación; como usan silicio propio, yo habría esperado más estabilidad, pero resultó ser al revés. Además, el rate limiting es mucho más estricto que en OpenAI, así que me pregunto si eso es por las TPU o solo por decisiones de política raras
- La actitud de Google de dar de baja lanzamientos viejos de Gemini con tanta ligereza fue bastante frustrante Mi interpretación es que, como la mayoría de las herramientas usan solo el modelo más nuevo, el modelo nuevo se come rapidísimo más del 90% del volumen total, y entonces entra el clásico análisis costo-beneficio de Google y los modelos viejos se apagan sin mucho miramiento De hecho, me sorprendió que recientemente extendieran la fecha de EOL de Gemini 2.5; Google nunca me ha parecido una empresa especialmente obsesionada con el cliente
- Flash 2 ni siquiera llega a EOL hasta junio, pero durante el fin de semana me salieron 429 con una tasa de error del 90% Así que al final me cambié a GPT 5.4 nano
Si al final hay un ganador definitivo en IA, me cuesta imaginar otro escenario que no sea Google con el stack completo o Apple desplegando la mayor cantidad de sitios edge habilitados para IA
- Yo creo que el ganador también podría ser un wrapper de modelos locales que haga bien tareas específicas Me parece más probable uno diseñado para hacer bien cosas como búsqueda, en vez de un adulador antropomorfizado preocupado por agradarle a la gente
- También veo bastante posible que Google siga fallando del lado de producto Con su enorme poder de distribución igual puede aguantar, pero si sale un producto mejor, todavía queda margen para que sufra una transición disruptiva al estilo de IE frente a Chrome
En este enlace estaba una explicación más detallada de la arquitectura. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

Dos chips para la era de los agentes: la TPU de octava generación de Google

Resumen de la TPU de octava generación

Más de 10 años de filosofía de diseño

Por qué separar entrenamiento e inferencia

TPU 8t: una potencia dedicada al entrenamiento

Escala masiva (Massive Scale)

Utilización máxima (Maximum Utilization)

Escalado casi lineal (Near-Linear Scaling)

Confiabilidad y disponibilidad

TPU 8i: motor de inferencia

Romper la barrera de memoria (Breaking the Memory Wall)

Eficiencia basada en Axion

Escalado de modelos MoE

Eliminación de latencia (Eliminating Lag)

Rendimiento por costo

Codiseñada con Gemini y abierta para todos

Frameworks y accesibilidad

Diseño de eficiencia energética a gran escala

Infraestructura para la era agéntica

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News