Amazon presenta el nuevo chip de IA Trainium3 y adelanta la hoja de ruta de colaboración con Nvidia

(techcrunch.com)

2 puntos por GN⁺ 2025-12-03 | 1 comentarios | Compartir por WhatsApp

AWS presentó el Trainium3 UltraServer con el chip Trainium3 de proceso de 3 nanómetros, mejorando de forma significativa el rendimiento de entrenamiento y inferencia de IA
El nuevo sistema ofrece 4 veces más velocidad, 4 veces más memoria y 40% mayor eficiencia energética en comparación con la generación anterior
Puede conectar hasta 1 millón de chips Trainium3, por lo que es adecuado para manejar aplicaciones de IA a gran escala
Clientes como Anthropic, Karakuri, SplashMusic y Decart ya lo están usando y han constatado una reducción de los costos de inferencia
AWS indicó que el próximo chip Trainium4 será compatible con Nvidia NVLink Fusion, lo que permitirá la interoperabilidad con GPUs de Nvidia, y se considera un hito clave en la competencia de infraestructura de IA

Lanzamiento de Trainium3

AWS anunció oficialmente el Trainium3 UltraServer en el evento re:Invent 2025
- Este sistema funciona con el chip Trainium3 de 3 nanómetros y la tecnología de red propia de AWS
- AWS explicó que ofrece mejoras de rendimiento considerablemente mayores tanto en entrenamiento de IA como en inferencia en comparación con la 2.ª generación
AWS afirmó que el sistema Trainium3 ofrece una velocidad de procesamiento 4 veces más rápida y 4 veces más capacidad de memoria
- Cada UltraServer incorpora 144 chips
- Al conectar miles de servidores, es posible utilizar hasta 1 millón de chips en una sola aplicación
El nuevo chip mejora la eficiencia energética en un 40%, contribuyendo a reducir el consumo eléctrico en centros de datos de gran escala
- AWS destacó que esto también puede significar ahorro de costos para clientes de IA en la nube

Clientes clave y casos de uso

Anthropic, Karakuri (LLM de Japón), SplashMusic y Decart ya están utilizando Trainium3
- AWS explicó que estos clientes lograron reducir sustancialmente los costos de inferencia
AWS mencionó que estas mejoras de rendimiento y eficiencia de costos constituyen la base para mejorar la escalabilidad de las aplicaciones de IA

Hoja de ruta del chip Trainium4 de próxima generación

AWS anunció que el Trainium4 ya está en desarrollo y que se prevé que admita la tecnología de interconexión rápida NVLink Fusion de Nvidia
- Esto permitirá la interoperabilidad con GPUs de Nvidia y su posible integración con la tecnología de racks de servidores de bajo costo de AWS
En un escenario donde Nvidia CUDA se ha consolidado como estándar de las principales aplicaciones de IA, el sistema Trainium4 tiene el potencial de facilitar la migración a AWS de aplicaciones basadas en GPUs de Nvidia
El cronograma de lanzamiento de Trainium4 no fue divulgado y es posible que haya más información en el evento re:Invent del próximo año

Significado estratégico de la eficiencia energética y el ahorro de costos

AWS está construyendo sistemas de “menor consumo” en un contexto de rápido aumento del consumo eléctrico en los centros de datos
Este enfoque se considera un intento de lograr al mismo tiempo la reducción de costos operativos y garantizar la sostenibilidad
La estrategia centrada en costos de AWS podría fortalecer el poder de atracción de clientes de nube en la competencia de infraestructura de IA

Resumen

Trainium3 es un chip de IA de tercera generación con mejoras significativas en rendimiento, memoria y eficiencia
Trainium4 apunta a expandir el ecosistema de AWS mediante la compatibilidad con Nvidia
AWS busca simultáneamente una infraestructura de IA de alto rendimiento, bajo costo y ecoamigable, con el objetivo de reforzar su competitividad en el mercado de IA en la nube

1 comentarios

GN⁺ 2025-12-03

Opinión de Hacker News

Nuestro equipo le dijo varias veces al representante de AWS que no nos interesaban las instancias de Trainium ni de Inferentia
porque no había pruebas claras de que fueran compatibles de forma estable con las bibliotecas estándar Transformers o PyTorch
AWS dice que sí funcionan bien, pero eso solo pasa en su propia ‘ruta feliz’ con una AMI específica y el neuron SDK
en cuanto trabajas con nuestras dependencias reales, todo se rompe
Incluso los TPU de GCP solo se volvieron realmente utilizables después de que Google invirtiera muchísimo en soporte de software
no tengo tiempo para convertirme en beta tester solo para usar chips de AWS
- AWS, fuera de los servicios centrales (S3, Dynamo, Lambda, ECS, etc.), está lleno de servicios beta
  hay unos pocos estables, pero el resto sigue muy verde
- Google hizo un esfuerzo enorme para integrar los TPU en su ecosistema
  cuesta imaginar que Amazon vaya a invertir a ese nivel
- Spoiler: si no escribes mucho código personalizado, no funciona
Intenté construir directamente los contenedores LMI en SageMaker y fue un infierno
la versión de vLLM lleva 6 meses sin actualizarse, y los endpoints normales no sirven por el timeout de 60 segundos decidido hace 8 años
solo de imaginar el dolor que pasará cualquier desarrollador que quiera usar silicio personalizado en estas condiciones ya da miedo
AWS habla en grande sobre Trainium, pero no hay ni un solo cliente en el escenario saliendo a elogiarlo
la gente que sí lo ha usado dice que terminó abandonándolo por el dolor de desplegarlo y operarlo
parece que internamente sí lo usan bastante, pero la adopción externa es casi nula
aun así, veo como algo positivo que Amazon invierta en chips propios
- Las instancias spot Inf1/Inf2 son tan poco populares que cuestan entre 10 y 20% menos que instancias de CPU
  Trn1 todavía no está tan mal, así que parece que alguien sí la está usando
- También escuché que Anthropic usa bastante Trainium
  probablemente con apoyo total de AWS
  si no invierten más en el SDK y en las herramientas, nadie va a querer usar esta nube
El concepto de block floating point (MXFP8/4) es interesante
la IA está empujando tipos de datos básicos que llevaban décadas sin cambiar
Artículo de Wikipedia sobre block floating point
Es interesante que en el artículo nunca expliquen realmente qué hace este chip
- La clave es una arquitectura con múltiples 128x128 systolic array
  para más detalles, ver el newsletter de Semianalysis
- Como su nombre lo dice, es un chip para training
- Al final, es un chip para realizar operaciones vectoriales
- Parece que la verdadera misión de este chip es dejar satisfechos a los accionistas, así que pensaron que no hacía falta explicárselo a los desarrolladores
No hay absolutamente ninguna mención de rendimiento ni de benchmarks
- Dicen “4 veces más”, pero eso no significa que sea 4 veces más rápido, y aunque dicen 4 veces más memoria, no hay una referencia base
La noticia real es la parte del “roadmap amigable con Nvidia”
parece que Amazon quiere reducir costos en IA igual que en logística
pero transmite poca confianza, y se ve más como una estrategia de imagen para mantener la relación con Nvidia
Es interesante ver cómo se expande NVLink
Intel también está participando, y esto se siente como un momento parecido a la transición de PCI → AGP
AMD casi aprovechó una oportunidad en la época de HyperTransport, pero su actual Infinity Fabric se queda para uso interno
UALink y CXL también están recibiendo atención, pero sigue existiendo la limitación de velocidad de PCIe
idealmente, la integración de networking debería venir de fábrica en el chip
como cuando los viejos Intel Xeon ofrecían 100Gb Omni-Path casi gratis
- NVLink Fusion al final parece una trampa de dependencia de Nvidia
  se entiende que Intel esté desesperada, pero no se ve bien que AWS tome el mismo camino
  si fuera AMD, sería mejor meter la NIC SolarFlare en el die de I/O
  así como es posible el cambio PCIe/SATA, también debería ser posible PCIe/Ethernet, aunque UEC podría seguir siendo un mercado demasiado de nicho
Publicación oficial de Amazon: Presentación de Trainium 3 UltraServer

Amazon presenta el nuevo chip de IA Trainium3 y adelanta la hoja de ruta de colaboración con Nvidia

Lanzamiento de Trainium3

Clientes clave y casos de uso

Hoja de ruta del chip Trainium4 de próxima generación

Significado estratégico de la eficiencia energética y el ahorro de costos

Resumen

Lecturas relacionadas

1 comentarios

Opinión de Hacker News