7 puntos por GN⁺ 2025-11-28 | 1 comentarios | Compartir por WhatsApp
  • El Google TPU es un chip ASIC dedicado diseñado para manejar cargas masivas de inferencia de IA, con ventajas de eficiencia y costo frente a las GPU
  • Su principal diferenciador es la arquitectura Systolic Array, que minimiza el acceso a memoria y maximiza la eficiencia computacional (operaciones por joule)
  • El más reciente TPUv7 (Ironwood) mejora drásticamente el rendimiento y el ancho de banda de memoria frente a generaciones anteriores, alcanzando un nivel de desempeño similar al de las GPU Blackwell de Nvidia
  • Las limitaciones del ecosistema de TPU y su modelo de disponibilidad exclusiva en GCP son los principales obstáculos para su adopción masiva, aunque Google está reorganizándose para ampliar el soporte y atraer más clientes externos
  • Mediante chips propios para recuperar márgenes en la nube y reforzar su competitividad, Google podría convertirse a largo plazo en uno de los grandes ganadores del mercado de infraestructura de IA

Historia del TPU y contexto de su desarrollo

  • En 2013, Google calculó que el aumento en el uso de la búsqueda por voz implicaría duplicar la capacidad de sus centros de datos
    • Con las CPU y GPU existentes, era difícil procesar eficientemente las operaciones de deep learning (multiplicación de matrices a gran escala)
  • Por eso, Google decidió desarrollar un ASIC especializado para redes neuronales de TensorFlow y logró desplegar el silicio en sus centros de datos en apenas 15 meses
  • Para 2015, los TPU ya se usaban en servicios clave como Google Maps, Photos y Translate
  • En 2016 se presentaron oficialmente en Google I/O, y desde entonces los TPU evolucionaron como infraestructura clave para reducir el costo de la inferencia de IA

Diferencias estructurales entre TPU y GPU

  • La GPU es un procesador paralelo de propósito general, mientras que el TPU es una arquitectura especializada por dominio
    • Las GPU fueron diseñadas para gráficos, por lo que incluyen lógica de control compleja como caché y predicción de saltos
    • El TPU elimina esa complejidad y reduce el movimiento de datos mediante una estructura Systolic Array
  • El Systolic Array del TPU carga los datos una vez y luego los transmite en un flujo continuo de cómputo, mitigando el cuello de botella de Von Neumann
  • Mejoras de Ironwood (7.ª generación)
    • Refuerzo de SparseCore para mejorar la eficiencia en el procesamiento de embeddings a gran escala
    • Aumento a 192 GB de HBM y 7,370 GB/s de ancho de banda
    • Mejoras en el Inter-Chip Interconnect (ICI), con hasta 1.2 TB/s de ancho de banda
  • Google construye grandes TPU Pod con Optical Circuit Switch (OCS) y una red 3D torus
    • La eficiencia energética es alta, aunque la flexibilidad es menor que con InfiniBand

Comparación de rendimiento: TPU vs GPU

  • TPUv7 (BF16 4,614 TFLOPS) vs TPUv5p (459 TFLOPS), lo que representa una mejora de rendimiento de alrededor de 10 veces
  • Resumen de entrevistas de la industria
    • El TPU tiene ventaja en eficiencia energética por rendimiento y eficiencia de costos
    • En ciertas aplicaciones, logra hasta 1.4 veces más rendimiento por dólar
    • El TPUv6 tiene una ventaja de eficiencia de 60% a 65% frente a las GPU; en la generación anterior era de 40% a 45%
    • El TPU genera menos calor y consume menos energía, con menor carga ambiental
  • Algunos clientes pueden reducir los costos hasta una quinta parte al usar TPU Pod
  • Gracias a su estructura ASIC, se menciona una reducción de 30% en tamaño y 50% en consumo energético
  • Según material interno de Google, el TPUv7 duplica el rendimiento por watt frente al TPUv6e
  • El propio CEO de Nvidia, Jensen Huang, describió al TPU como un “caso especial”, reconociendo su relevancia

Problemas que frenan la adopción del TPU

  • La primera barrera es el ecosistema (dominio de CUDA)
    • Tanto en universidades como en la industria, la formación y el desarrollo giran alrededor de CUDA
    • El TPU se centra en JAX y TensorFlow, y el soporte para PyTorch se fortaleció relativamente tarde
  • La expansión de las estrategias multicloud también limita su adopción
    • Como la mayoría de las empresas tienen sus datos repartidos entre AWS, Azure y GCP, las cargas basadas en GPU resultan más flexibles debido al alto costo de mover datos (egress)
    • El TPU es exclusivo de GCP, mientras que Nvidia está disponible en las tres grandes nubes
  • Si una empresa elige TPU y luego cambian los precios o el entorno, el costo de reescritura puede ser muy alto
  • Google apenas recientemente comenzó a ampliar su organización para vender y expandir el TPU hacia afuera, y algunos empleados y ex empleados mencionan la posibilidad futura de suministro externo a través de neoclouds y otros canales

Valor estratégico del TPU para Google Cloud

  • En la era de la IA, la industria cloud está pasando de una estructura de alto margen (50%–70%) a una de bajo margen (20%–35%)
    • La causa es la presión de costos derivada del margen de 75% de Nvidia
  • Solo los proveedores con ASIC propios, especialmente TPU, podrían volver a márgenes cloud tradicionales (alrededor de 50%)
  • Factores de ventaja de Google
    • El TPU es el ASIC para la nube más maduro
    • Google realiza internamente la mayor parte del frontend del diseño del chip, incluido RTL
    • Broadcom solo se encarga del diseño físico (backend), con una estructura de márgenes menor que la de Nvidia, lo que mejora la competitividad en costos del TPU
    • Google posee toda la pila de optimización de software, lo que maximiza el rendimiento del hardware
  • Modelos clave como Gemini 3 se entrenan y ejecutan inferencia sobre TPU
    • Google también está ampliando el uso de TPU en todos sus servicios internos de IA
  • SemiAnalysis evaluó que “el TPU de 7.ª generación de Google está al nivel de Nvidia Blackwell”
  • El TPU se considera tanto una ventaja competitiva de largo plazo para GCP como un motor clave para ganar cuota en el mercado de infraestructura de IA

1 comentarios

 
GN⁺ 2025-11-28
Opiniones de Hacker News
  • La verdadera arma de Google no es el silicio TPU en sí, sino la escalabilidad masiva en paralelo mediante la interconexión OCS (Optical Circuit Switch)
    Según una cita de The Next Platform, se pueden conectar 9,216 TPU Ironwood para aprovechar 1.77 PB de memoria HBM. Esto es una escala aplastantemente mayor que la de los sistemas a escala de rack basados en GPU Blackwell de Nvidia (20.7 TB de HBM)
    Nvidia destaca a nivel de chip individual, pero en entrenamiento o inferencia distribuida a gran escala no tiene nada comparable a la escalabilidad con conmutación óptica de Google

    • Google posee toda la pila integrada verticalmente. Gracias a eso, puede ofrecer servicios de IA a escala de nube de forma mucho más barata y rentable
      La mayoría de las empresas no necesita comprar hardware directamente ni entrenar modelos; les basta con usar un servicio tipo tienda de apps de IA ofrecido por Google
    • En realidad, ambos sistemas tienen arquitecturas de red completamente distintas. NVLink de Nvidia es un fabric tipo switch all-to-all, mientras que TPU usa una estructura de toro 3D
      Por ejemplo, los modelos Mixture of Experts requieren mucha comunicación all-to-all, así que NVLink resulta mucho más eficiente en ese caso
    • Nvidia sigue publicando tuits afirmando que su tecnología es mejor
      Enlace al tuit oficial de Nvidia
    • Si lo que afirma Google fuera cierto, debería arrasar en los benchmarks de MLPerf, pero no ocurre así
      Para el paralelismo de modelo conviene una red rápida y pequeña; para el paralelismo de datos conviene una red grande. Por ese equilibrio, Nvidia va ganando
    • Para igualar la misma capacidad de memoria, Google necesita 100 veces más chips
  • Gemini 3 Pro ya está cerca de quedar viejo. Google tiene muchos más recursos que Anthropic, pero si el hardware fuera el arma secreta, ya debería haber dominado el mercado
    Pero la realidad es otra

    1. Es difícil aprovechar el hardware de forma eficiente, y cuando terminas de optimizar ya pasaste al siguiente modelo
    2. La mayoría de las empresas puede resolverlo con dinero. Incluso con H100 funciona bastante bien
    3. Las nuevas técnicas de investigación por sí solas pueden elevar mucho el rendimiento del modelo
    4. El desarrollo de modelos sigue dependiendo mucho del trabajo humano, como la curación de datasets y las tareas de evaluación
    5. El hardware personalizado trae problemas personalizados. No puedes ir a Stack Overflow a buscar la respuesta a un problema de un clúster TPU
  • Hay quien opina que CUDA es importante para el entrenamiento, pero menos importante en la etapa de inferencia

    • Los chips de NVIDIA son más de propósito general. Durante el entrenamiento se necesitan varias funciones, como operaciones especiales tipo sin y cos, almacenamiento de cálculos intermedios y manejo de gradientes
      Pero la inferencia es un proceso simple de aplicar repetidamente pesos fijos, así que TPU podría ser más eficiente
    • El mercado de chips para entrenamiento podría ser una burbuja, pero el de inferencia es mucho más grande. Cuando el rendimiento de los modelos sea suficientemente bueno, la demanda de entrenamiento bajará y los sistemas de inferencia energéticamente eficientes pasarán a ser la corriente principal
    • La razón por la que CUDA importa es la dependencia del ecosistema. La mayor parte del software de entrenamiento está construido sobre CUDA
    • El entrenamiento consiste en dividir un problema enorme y manejar dependencias de datos; la inferencia es un conjunto de problemas pequeños e independientes
    • CUDA ofrece una experiencia para desarrolladores mucho mejor. Cuando la productividad en investigación importa, eso resulta decisivo
  • No hay razón por la que Nvidia no pueda fabricar chips especializados como TPU

    • Nvidia también terminará haciéndolo. Pero Google, al ser diseñador de chips y empresa de IA a la vez, se queda con todas las ganancias
      Nvidia subcontrata la fabricación a TSMC y vende caro, mientras que Google ahorra margen al usarlo internamente
    • DeepMind colabora directamente con el equipo de TPU para diseñar chips a la medida del proyecto. OpenAI también anunció el desarrollo de su propio chip por la misma razón, pero esto requiere muchísimo capital
    • TPU es más barato que las GPU de NVidia y está integrado verticalmente para uso interno de Google
    • El riesgo para Nvidia no es tanto una crisis existencial como una caída en los márgenes de ganancia. Aunque vendiera 100 veces más chips, si el margen cae a 5%, su capitalización de mercado disminuiría
    • En realidad, Nvidia ya está evolucionando en la misma dirección con Tensor Core
  • Hay un reporte de Reuters que dice que Meta está negociando invertir miles de millones de dólares en chips de Google

  • Los ASIC para LLM son mucho más complejos que los ASIC para criptomonedas. En cripto solo hay que procesar un algoritmo hash fijo, pero los LLM siguen evolucionando
    No queda claro qué significa TPU en ese contexto

    • En los LLM importan la memoria y el ancho de banda de interconexión. En cambio, las criptomonedas dependen 100% del cómputo
    • La mayoría de los LLM se basa en multiplicación de matrices, y TPU acelera eso. PyTorch también tiene soporte para TPU
    • Incluso un ASIC puede ser programable. TPU necesita ejecutar distintos modelos, así que no es un chip hardcodeado
    • La estructura de los LLM cambia, pero los componentes comunes (operaciones matriciales, tipos de punto flotante) siguen siendo los mismos. Por eso, TPU es en la práctica un ASIC para LLM
    • Las criptomonedas también cambian. Por ejemplo, Monero usa una estructura a nivel CPU para bloquear ASIC
  • Ojalá hubiera más opciones de TPU independiente para uso personal. Hoy, la única opción es Coral de 2019

  • Este debate es académico, como RISC vs CISC. Al final, las GPU de Nvidia también están siendo diseñadas para hacer lo mismo que TPU
    Incluso dentro de Google, en cinco años quizá ya no haya una gran diferencia
    Google obtiene beneficios con TPU, pero para los desarrolladores externos no hay una ventaja directa

    • Es cierto que Google no vende TPU, pero otras empresas también están desarrollando sus propios chips
      Microsoft con Maia, los chips para centros de datos de AMD/NVIDIA, y la compra de empresas especializadas en redes muestran que todos van en la misma dirección
      Google va adelante, pero al final será una competencia por convergencia
  • Los modelos dispersos (sparse models) pueden reducir 16 veces el cómputo y el espacio de almacenamiento manteniendo la misma calidad
    TPU es débil para procesar matrices dispersas, pero fuerte para entrenar modelos densos (dense)

  • Al final, queda la pregunta de dónde está la meta en esta competencia, o incluso dónde está el piso