- AWS presentó el Trainium3 UltraServer con el chip Trainium3 de proceso de 3 nanómetros, mejorando de forma significativa el rendimiento de entrenamiento y inferencia de IA
- El nuevo sistema ofrece 4 veces más velocidad, 4 veces más memoria y 40% mayor eficiencia energética en comparación con la generación anterior
- Puede conectar hasta 1 millón de chips Trainium3, por lo que es adecuado para manejar aplicaciones de IA a gran escala
- Clientes como Anthropic, Karakuri, SplashMusic y Decart ya lo están usando y han constatado una reducción de los costos de inferencia
- AWS indicó que el próximo chip Trainium4 será compatible con Nvidia NVLink Fusion, lo que permitirá la interoperabilidad con GPUs de Nvidia, y se considera un hito clave en la competencia de infraestructura de IA
Lanzamiento de Trainium3
- AWS anunció oficialmente el Trainium3 UltraServer en el evento re:Invent 2025
- Este sistema funciona con el chip Trainium3 de 3 nanómetros y la tecnología de red propia de AWS
- AWS explicó que ofrece mejoras de rendimiento considerablemente mayores tanto en entrenamiento de IA como en inferencia en comparación con la 2.ª generación
- AWS afirmó que el sistema Trainium3 ofrece una velocidad de procesamiento 4 veces más rápida y 4 veces más capacidad de memoria
- Cada UltraServer incorpora 144 chips
- Al conectar miles de servidores, es posible utilizar hasta 1 millón de chips en una sola aplicación
- El nuevo chip mejora la eficiencia energética en un 40%, contribuyendo a reducir el consumo eléctrico en centros de datos de gran escala
- AWS destacó que esto también puede significar ahorro de costos para clientes de IA en la nube
Clientes clave y casos de uso
- Anthropic, Karakuri (LLM de Japón), SplashMusic y Decart ya están utilizando Trainium3
- AWS explicó que estos clientes lograron reducir sustancialmente los costos de inferencia
- AWS mencionó que estas mejoras de rendimiento y eficiencia de costos constituyen la base para mejorar la escalabilidad de las aplicaciones de IA
Hoja de ruta del chip Trainium4 de próxima generación
- AWS anunció que el Trainium4 ya está en desarrollo y que se prevé que admita la tecnología de interconexión rápida NVLink Fusion de Nvidia
- Esto permitirá la interoperabilidad con GPUs de Nvidia y su posible integración con la tecnología de racks de servidores de bajo costo de AWS
- En un escenario donde Nvidia CUDA se ha consolidado como estándar de las principales aplicaciones de IA, el sistema Trainium4 tiene el potencial de facilitar la migración a AWS de aplicaciones basadas en GPUs de Nvidia
- El cronograma de lanzamiento de Trainium4 no fue divulgado y es posible que haya más información en el evento re:Invent del próximo año
Significado estratégico de la eficiencia energética y el ahorro de costos
- AWS está construyendo sistemas de “menor consumo” en un contexto de rápido aumento del consumo eléctrico en los centros de datos
- Este enfoque se considera un intento de lograr al mismo tiempo la reducción de costos operativos y garantizar la sostenibilidad
- La estrategia centrada en costos de AWS podría fortalecer el poder de atracción de clientes de nube en la competencia de infraestructura de IA
Resumen
- Trainium3 es un chip de IA de tercera generación con mejoras significativas en rendimiento, memoria y eficiencia
- Trainium4 apunta a expandir el ecosistema de AWS mediante la compatibilidad con Nvidia
- AWS busca simultáneamente una infraestructura de IA de alto rendimiento, bajo costo y ecoamigable, con el objetivo de reforzar su competitividad en el mercado de IA en la nube
1 comentarios
Opinión de Hacker News
porque no había pruebas claras de que fueran compatibles de forma estable con las bibliotecas estándar Transformers o PyTorch
AWS dice que sí funcionan bien, pero eso solo pasa en su propia ‘ruta feliz’ con una AMI específica y el neuron SDK
en cuanto trabajas con nuestras dependencias reales, todo se rompe
Incluso los TPU de GCP solo se volvieron realmente utilizables después de que Google invirtiera muchísimo en soporte de software
no tengo tiempo para convertirme en beta tester solo para usar chips de AWS
hay unos pocos estables, pero el resto sigue muy verde
cuesta imaginar que Amazon vaya a invertir a ese nivel
la versión de vLLM lleva 6 meses sin actualizarse, y los endpoints normales no sirven por el timeout de 60 segundos decidido hace 8 años
solo de imaginar el dolor que pasará cualquier desarrollador que quiera usar silicio personalizado en estas condiciones ya da miedo
la gente que sí lo ha usado dice que terminó abandonándolo por el dolor de desplegarlo y operarlo
parece que internamente sí lo usan bastante, pero la adopción externa es casi nula
aun así, veo como algo positivo que Amazon invierta en chips propios
Trn1 todavía no está tan mal, así que parece que alguien sí la está usando
probablemente con apoyo total de AWS
si no invierten más en el SDK y en las herramientas, nadie va a querer usar esta nube
la IA está empujando tipos de datos básicos que llevaban décadas sin cambiar
Artículo de Wikipedia sobre block floating point
para más detalles, ver el newsletter de Semianalysis
parece que Amazon quiere reducir costos en IA igual que en logística
pero transmite poca confianza, y se ve más como una estrategia de imagen para mantener la relación con Nvidia
Intel también está participando, y esto se siente como un momento parecido a la transición de PCI → AGP
AMD casi aprovechó una oportunidad en la época de HyperTransport, pero su actual Infinity Fabric se queda para uso interno
UALink y CXL también están recibiendo atención, pero sigue existiendo la limitación de velocidad de PCIe
idealmente, la integración de networking debería venir de fábrica en el chip
como cuando los viejos Intel Xeon ofrecían 100Gb Omni-Path casi gratis
se entiende que Intel esté desesperada, pero no se ve bien que AWS tome el mismo camino
si fuera AMD, sería mejor meter la NIC SolarFlare en el die de I/O
así como es posible el cambio PCIe/SATA, también debería ser posible PCIe/Ethernet, aunque UEC podría seguir siendo un mercado demasiado de nicho