2 puntos por GN⁺ 2025-12-03 | 1 comentarios | Compartir por WhatsApp
  • AWS presentó el Trainium3 UltraServer con el chip Trainium3 de proceso de 3 nanómetros, mejorando de forma significativa el rendimiento de entrenamiento y inferencia de IA
  • El nuevo sistema ofrece 4 veces más velocidad, 4 veces más memoria y 40% mayor eficiencia energética en comparación con la generación anterior
  • Puede conectar hasta 1 millón de chips Trainium3, por lo que es adecuado para manejar aplicaciones de IA a gran escala
  • Clientes como Anthropic, Karakuri, SplashMusic y Decart ya lo están usando y han constatado una reducción de los costos de inferencia
  • AWS indicó que el próximo chip Trainium4 será compatible con Nvidia NVLink Fusion, lo que permitirá la interoperabilidad con GPUs de Nvidia, y se considera un hito clave en la competencia de infraestructura de IA

Lanzamiento de Trainium3

  • AWS anunció oficialmente el Trainium3 UltraServer en el evento re:Invent 2025
    • Este sistema funciona con el chip Trainium3 de 3 nanómetros y la tecnología de red propia de AWS
    • AWS explicó que ofrece mejoras de rendimiento considerablemente mayores tanto en entrenamiento de IA como en inferencia en comparación con la 2.ª generación
  • AWS afirmó que el sistema Trainium3 ofrece una velocidad de procesamiento 4 veces más rápida y 4 veces más capacidad de memoria
    • Cada UltraServer incorpora 144 chips
    • Al conectar miles de servidores, es posible utilizar hasta 1 millón de chips en una sola aplicación
  • El nuevo chip mejora la eficiencia energética en un 40%, contribuyendo a reducir el consumo eléctrico en centros de datos de gran escala
    • AWS destacó que esto también puede significar ahorro de costos para clientes de IA en la nube

Clientes clave y casos de uso

  • Anthropic, Karakuri (LLM de Japón), SplashMusic y Decart ya están utilizando Trainium3
    • AWS explicó que estos clientes lograron reducir sustancialmente los costos de inferencia
  • AWS mencionó que estas mejoras de rendimiento y eficiencia de costos constituyen la base para mejorar la escalabilidad de las aplicaciones de IA

Hoja de ruta del chip Trainium4 de próxima generación

  • AWS anunció que el Trainium4 ya está en desarrollo y que se prevé que admita la tecnología de interconexión rápida NVLink Fusion de Nvidia
    • Esto permitirá la interoperabilidad con GPUs de Nvidia y su posible integración con la tecnología de racks de servidores de bajo costo de AWS
  • En un escenario donde Nvidia CUDA se ha consolidado como estándar de las principales aplicaciones de IA, el sistema Trainium4 tiene el potencial de facilitar la migración a AWS de aplicaciones basadas en GPUs de Nvidia
  • El cronograma de lanzamiento de Trainium4 no fue divulgado y es posible que haya más información en el evento re:Invent del próximo año

Significado estratégico de la eficiencia energética y el ahorro de costos

  • AWS está construyendo sistemas de “menor consumo” en un contexto de rápido aumento del consumo eléctrico en los centros de datos
  • Este enfoque se considera un intento de lograr al mismo tiempo la reducción de costos operativos y garantizar la sostenibilidad
  • La estrategia centrada en costos de AWS podría fortalecer el poder de atracción de clientes de nube en la competencia de infraestructura de IA

Resumen

  • Trainium3 es un chip de IA de tercera generación con mejoras significativas en rendimiento, memoria y eficiencia
  • Trainium4 apunta a expandir el ecosistema de AWS mediante la compatibilidad con Nvidia
  • AWS busca simultáneamente una infraestructura de IA de alto rendimiento, bajo costo y ecoamigable, con el objetivo de reforzar su competitividad en el mercado de IA en la nube

1 comentarios

 
GN⁺ 2025-12-03
Opinión de Hacker News
  • Nuestro equipo le dijo varias veces al representante de AWS que no nos interesaban las instancias de Trainium ni de Inferentia
    porque no había pruebas claras de que fueran compatibles de forma estable con las bibliotecas estándar Transformers o PyTorch
    AWS dice que sí funcionan bien, pero eso solo pasa en su propia ‘ruta feliz’ con una AMI específica y el neuron SDK
    en cuanto trabajas con nuestras dependencias reales, todo se rompe
    Incluso los TPU de GCP solo se volvieron realmente utilizables después de que Google invirtiera muchísimo en soporte de software
    no tengo tiempo para convertirme en beta tester solo para usar chips de AWS
    • AWS, fuera de los servicios centrales (S3, Dynamo, Lambda, ECS, etc.), está lleno de servicios beta
      hay unos pocos estables, pero el resto sigue muy verde
    • Google hizo un esfuerzo enorme para integrar los TPU en su ecosistema
      cuesta imaginar que Amazon vaya a invertir a ese nivel
    • Spoiler: si no escribes mucho código personalizado, no funciona
  • Intenté construir directamente los contenedores LMI en SageMaker y fue un infierno
    la versión de vLLM lleva 6 meses sin actualizarse, y los endpoints normales no sirven por el timeout de 60 segundos decidido hace 8 años
    solo de imaginar el dolor que pasará cualquier desarrollador que quiera usar silicio personalizado en estas condiciones ya da miedo
  • AWS habla en grande sobre Trainium, pero no hay ni un solo cliente en el escenario saliendo a elogiarlo
    la gente que sí lo ha usado dice que terminó abandonándolo por el dolor de desplegarlo y operarlo
    parece que internamente sí lo usan bastante, pero la adopción externa es casi nula
    aun así, veo como algo positivo que Amazon invierta en chips propios
    • Las instancias spot Inf1/Inf2 son tan poco populares que cuestan entre 10 y 20% menos que instancias de CPU
      Trn1 todavía no está tan mal, así que parece que alguien sí la está usando
    • También escuché que Anthropic usa bastante Trainium
      probablemente con apoyo total de AWS
      si no invierten más en el SDK y en las herramientas, nadie va a querer usar esta nube
  • El concepto de block floating point (MXFP8/4) es interesante
    la IA está empujando tipos de datos básicos que llevaban décadas sin cambiar
    Artículo de Wikipedia sobre block floating point
  • Es interesante que en el artículo nunca expliquen realmente qué hace este chip
    • La clave es una arquitectura con múltiples 128x128 systolic array
      para más detalles, ver el newsletter de Semianalysis
    • Como su nombre lo dice, es un chip para training
    • Al final, es un chip para realizar operaciones vectoriales
    • Parece que la verdadera misión de este chip es dejar satisfechos a los accionistas, así que pensaron que no hacía falta explicárselo a los desarrolladores
  • No hay absolutamente ninguna mención de rendimiento ni de benchmarks
    • Dicen “4 veces más”, pero eso no significa que sea 4 veces más rápido, y aunque dicen 4 veces más memoria, no hay una referencia base
  • La noticia real es la parte del “roadmap amigable con Nvidia
    parece que Amazon quiere reducir costos en IA igual que en logística
    pero transmite poca confianza, y se ve más como una estrategia de imagen para mantener la relación con Nvidia
  • Es interesante ver cómo se expande NVLink
    Intel también está participando, y esto se siente como un momento parecido a la transición de PCI → AGP
    AMD casi aprovechó una oportunidad en la época de HyperTransport, pero su actual Infinity Fabric se queda para uso interno
    UALink y CXL también están recibiendo atención, pero sigue existiendo la limitación de velocidad de PCIe
    idealmente, la integración de networking debería venir de fábrica en el chip
    como cuando los viejos Intel Xeon ofrecían 100Gb Omni-Path casi gratis
    • NVLink Fusion al final parece una trampa de dependencia de Nvidia
      se entiende que Intel esté desesperada, pero no se ve bien que AWS tome el mismo camino
      si fuera AMD, sería mejor meter la NIC SolarFlare en el die de I/O
      así como es posible el cambio PCIe/SATA, también debería ser posible PCIe/Ethernet, aunque UEC podría seguir siendo un mercado demasiado de nicho
  • Publicación oficial de Amazon: Presentación de Trainium 3 UltraServer