El regreso de la CPU: perspectivas del mercado de CPU para centros de datos en 2026

(newsletter.semianalysis.com)

5 puntos por GN⁺ 2026-02-10 | Aún no hay comentarios. | Compartir por WhatsApp

La demanda explosiva de aprendizaje por refuerzo e inferencia de IA agéntica está volviendo a poner en primer plano el papel de la CPU en los centros de datos, provocando cambios en el flujo de inversión que antes se centraba en la GPU
Intel experimentó a finales de 2025 un aumento inesperado en la demanda de CPU para servidores y está ampliando su inversión en capacidad de fundición para 2026, mientras redirige obleas de PC hacia servidores
AMD Venice, basado en el proceso N2 de TSMC, incorpora CCD Zen6c de 256 núcleos y una red mesh, por lo que se proyecta que ampliará aún más la brecha frente a Intel tanto en rendimiento como en eficiencia energética
El bloque de CPU ARM propias de los hyperscalers, como NVIDIA, AWS, Microsoft, Google y ARM, se está expandiendo de lleno, desmantelando rápidamente la estructura de dominio exclusivo de x86
Incluyendo al Huawei Kunpeng 950, 2026 será un año de competencia sin precedentes en el que todos los vendors lanzarán simultáneamente una nueva generación de CPU

Cambios y evolución del papel de la CPU en los centros de datos

Desde la era de la PC hasta la era puntocom
- En la década de 1990, el aumento del rendimiento de los procesadores para PC generó demanda para reemplazar mainframes y estaciones de trabajo, y Intel entró al mercado de servidores con Pentium Pro (1995) y la marca Xeon (1998)
- En la era de internet de los 2000, con la expansión de la Web 2.0, el comercio electrónico y los smartphones, la CPU para centros de datos creció hasta convertirse en un mercado de miles de millones de dólares
- Tras el fin de la competencia por los GHz, avanzaron innovaciones de diseño como las CPU multinúcleo, la integración del controlador de memoria (AMD) y la conexión directa por PCIe
- SMT (Simultaneous Multi-Threading) fue adoptado tanto por Intel como por AMD, mejorando el rendimiento del procesamiento en paralelo
La era de los hyperscalers de virtualización, cloud computing y escala masiva
- A finales de los 2000, con la aparición de nubes públicas como AWS, se pasó del modelo CapEx al modelo OpEx, evolucionando incluso hacia la computación serverless (como AWS Lambda)
- La virtualización por hardware de CPU se convirtió en la base clave de la nube, permitiendo que hipervisores (como VMware ESXi) operaran múltiples VM independientes sobre una sola CPU
- En 2018, las vulnerabilidades Spectre y Meltdown plantearon la necesidad de desactivar SMT, con pérdidas de rendimiento de hasta 30%
  - Los ataques que aprovechaban la predicción de saltos convirtieron las amenazas de seguridad en la nube en una realidad
La era de integración entre GPU de IA y CPU
- En los cinco años previos al lanzamiento de ChatGPT (noviembre de 2022), Intel envió más de 100 millones de CPU Xeon Scalable
- El entrenamiento y la inferencia de modelos de IA se ejecutan de forma entre 100 y 1000 veces más eficiente en las grandes unidades vectoriales y los Tensor Core de las GPU
- Frente a las GPU, la CPU tiene un rendimiento extremadamente bajo en operaciones matriciales, por lo que quedó relegada a un rol de apoyo, mientras que la energía se asigna prioritariamente a la GPU
- El uso de la CPU se bifurcó en dos grandes categorías:
  - Nodo principal: suministra y administra datos para la GPU; requiere alto rendimiento por núcleo, caché de gran capacidad y memoria de alto ancho de banda (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3, etc.)
  - Consolidación de sockets cloud-native: para maximizar la eficiencia energética, los servidores antiguos se reemplazan por CPU modernas en una relación superior a 10:1; millones de servidores Intel Cascade Lake comprados durante la pandemia de COVID están siendo retirados
La era del aprendizaje por refuerzo y los agentes
- En el centro de datos "Fairwater" de Microsoft para OpenAI, un edificio de CPU y almacenamiento de 48 MW respalda un clúster de GPU de 295 MW, con decenas de miles de CPU dedicadas al procesamiento de datos a escala de petabytes
- En entornos de aprendizaje por refuerzo (RL), se necesitan grandes cantidades de CPU para compilar código, verificarlo, interpretarlo y usar herramientas a fin de ejecutar las acciones generadas por el modelo y calcular recompensas
  - Como el ritmo de mejora del rendimiento de las GPU supera ampliamente al de las CPU, existe la posibilidad de que en la futura generación Rubin la proporción de energía de CPU frente a GPU se amplíe a 1:6 o más
- Los modelos RAG y los modelos agénticos realizan a gran escala llamadas a API, búsquedas en internet y consultas a bases de datos, disparando la demanda de CPU de propósito general
- AWS y Azure están desplegando en gran volumen tanto sus propias CPU Graviton y Cobalt como servidores x86
- Los laboratorios de Frontier AI enfrentan escasez de CPU para entrenamiento con RL y compiten directamente con los proveedores de nube por asegurar servidores x86 de propósito general
- Intel, tras un agotamiento inesperado de inventario, evalúa subir los precios de Xeon mientras asegura herramientas de producción adicionales
- AMD está ampliando su capacidad de suministro y prevé que el TAM de CPU para servidores crecerá en "doble dígito alto" en 2026

Historia de las interconexiones de CPU multinúcleo

Primeros diseños crossbar y sus límites
- En los primeros dual-core (Intel Pentium D, AMD Athlon 64 X2, 2005), se usaba FSB (Front Side Bus) o conexiones basadas en NoC on-die
- El enfoque crossbar hacía que la cantidad de conexiones creciera bruscamente al aumentar el número de núcleos (2 núcleos = 1, 4 núcleos = 6, 6 núcleos = 15, 8 núcleos = 28), por lo que 4 núcleos eran el límite práctico
- AMD Istanbul (2009) se amplió a crossbar de 6 vías, Magny-Cours (2010) a 12 núcleos con doble die, e Interlagos a 16 núcleos
Arquitectura de bus en anillo de Intel
- Intel introdujo el bus en anillo en Nehalem-EX (2010), integrando 8 núcleos en un solo die e incluyendo IMC y enlaces QPI
- Con anillos dobles que giraban en sentido opuesto se mitigaban la latencia y la congestión, pero la latencia de acceso núcleo a núcleo era no uniforme (NUMA)
- Ivy Bridge-EX: alcanzó 15 núcleos con una disposición de 3 columnas por 5 filas y 3 "anillos virtuales"
- Haswell/Broadwell: 18 a 24 núcleos con doble bus en anillo independiente, pero al pasar por el switch con búfer entre anillos se generaban latencias de más de 100 ns
  - La configuración "Cluster on Die" permitía separar 2 nodos NUMA
Arquitectura mesh de Intel
- En 2016 se introdujo la interconexión mesh en Xeon Phi "Knights Landing", y en 2017 se amplió a Skylake-X Xeon Scalable (28 núcleos)
- En una disposición de malla 2D, se ubicaban núcleos, slices de caché L3, PCIe IO, IMC y aceleradores en cada punto de la malla
- El modo Sub-NUMA Clustering (SNC) dividía la malla en cuadrantes para reducir la latencia promedio
- Skylake-X: malla 6x6, con reloj de malla de 2.4 GHz, logró una latencia promedio similar a la del doble anillo de Broadwell
- Ice Lake: con el salto a 10 nm, se escaló a una malla 8x7 y hasta 40 núcleos (límite de retícula)
Mesh distribuida mediante EMIB
- Sapphire Rapids: en el nodo Intel 7, un die monolítico único solo llegaba a 34 núcleos, y la incorporación del motor AMX aumentó el área por núcleo
  - Con EMIB advanced packaging se conectaron 4 dies, logrando 60 núcleos con una configuración mesh de 8x12 (aprox. 1600 mm² de silicio)
  - La latencia promedio núcleo a núcleo empeoró de 47 ns (Skylake) a 59 ns
  - Se aumentó a 2 MB la caché L2 privada de cada núcleo (L2 total > L3: 120 MB vs 112.5 MB)
  - El desarrollo se extendió hasta el stepping E5 y sufrió años de retrasos; originalmente estaba previsto para 2021, pero se lanzó a inicios de 2023
- Emerald Rapids (finales de 2023): redujo el número de dies a 2 y llevó los núcleos a 66 (máximo 64 activos), mientras la caché L3 casi se triplicó hasta 320 MB
Diseño distribuido heterogéneo de Xeon 6
- En la plataforma Xeon 6 de 2024 se separaron de forma heterogénea el I/O y el cómputo: el die de I/O usa Intel 7 y el de cómputo Intel 3
- Se pueden mezclar configuraciones de Granite Rapids con P-core y Sierra Forest con E-core
- Granite Rapids-AP Xeon 6900P: con 3 dies de cómputo, usa una mesh de 10x19, con 132 núcleos (máximo 128 activos)
- Sierra Forest: agrupa 4 E-core en un clúster para una mesh de 8x6 y 144 núcleos, pero su adopción fue limitada porque los hyperscalers ya habían adoptado CPU de AMD o ARM propias
  - Sierra Forest-AP de doble die y 288 núcleos (Xeon 6900E) quedó en producción de bajo volumen
Límites de Clearwater Forest
- Xeon 6+ Clearwater Forest-AP: mediante el hybrid bonding Foveros Direct de Intel, apila dies de núcleo en 18A sobre un die base Intel 3, alcanzando 288 núcleos
- Diseño complejo compuesto por 12 dies de cómputo de 24 núcleos
- Los problemas de integración de Foveros Direct provocaron un retraso de H2 2025 a H1 2026
- El ancho de banda de acceso a la L3 y a la mesh del die base por cada clúster de 4 núcleos es de solo 35 GB/s
- Incluso con una diferencia de 2 años, la mejora de rendimiento frente a Sierra Forest con el mismo número de núcleos es de apenas 17%
- Intel casi no mencionó Clearwater Forest en su presentación de resultados de Q4 2025, y podría usarlo más como vehículo de aprendizaje de rendimiento de Foveros Direct que para producción de alto volumen

Arquitectura de interconexión AMD Zen

EPYC Naples (2017)
- Marcó el regreso de AMD al centro de datos, con un MCM compuesto por 4 dies "Zeppelin" para alcanzar 32 núcleos
- Cada die tenía 2 CCX (4 núcleos + 8 MB de L3, conectados por crossbar), y enlaces Infinity Fabric on Package (IFOP) entre dies
- La ausencia de una caché L3 unificada y la existencia de múltiples dominios NUMA (intra-CCX, inter-CCX, die-to-die, inter-socket) provocaban gran variación de latencia
- Intel se burló diciendo que era "pegar 4 dies de escritorio", pero era un diseño eficiente en recursos hecho por un equipo pequeño
Evolución generacional desde EPYC Rome (2019)
- Rome: 8 CCD de 8 núcleos alrededor de un die central de I/O; los CCD se fabricaban en TSMC N7 y el die de I/O en GlobalFoundries 12 nm
  - Toda la comunicación entre CCX pasaba por el die de I/O mediante enlaces GMI, funcionando en la práctica como 16 nodos NUMA de 4 núcleos
- Milan (2021): amplió el tamaño del CCX a 8 núcleos y adoptó un bus en anillo, reutilizando el die de I/O de Rome
- Genoa (2022): 12 CCD; Turin (2024): hasta 16 CCD para 128 núcleos (EPYC 9755), con actualización a DDR5 y PCIe 5
- Ventaja clave del diseño chiplet: con un solo tape-out de CCD se puede armar toda la línea de productos por número total de núcleos, y los dies pequeños favorecen el rendimiento de fabricación y la velocidad de salida al mercado
- Con variantes compactas de núcleo Zen 4c/Zen 5c, también se ofrecen en la misma plataforma Bergamo (Zen 4c) y Turin-Dense (192 núcleos)

Arquitectura Intel Diamond Rapids

Estructura en la que 4 dies CBB (Core Building Block) rodean 2 dies IMH (I/O and Memory Hub), con un aspecto similar al diseño de AMD
Dentro de cada CBB, 32 módulos de doble núcleo (DCM) se fabrican en Intel 18A-P y se unen mediante hybrid bonding a un die base Intel 3-PT
- Los 2 núcleos comparten una caché L2 común, en un diseño que recuerda a la generación Dunnington de 2008
En total suma 256 núcleos, pero se espera que en los SKU mainstream haya hasta 192 núcleos activos
Die IMH: 16 canales DDR5, PCIe 6 (con soporte para CXL3), y aceleradores de ruta de datos de Intel (QAT, DLB, IAA, DSA)
En lugar de EMIB, la conexión entre dies se hace mediante trazas largas sobre el sustrato del paquete, permitiendo que cada CBB acceda directamente a ambos IMH
- Aun así, se espera un deterioro considerable en la latencia cross-CBB
Problema por la eliminación de SMT
- Tras Spectre/Meltdown, Intel eliminó SMT en los P-core, aplicándolo desde Lion Cove para cliente en 2024
- En centros de datos, donde el rendimiento máximo es crucial, esto representa una debilidad grave para Diamond Rapids
- Frente a los 128 núcleos / 256 hilos del actual Granite Rapids, se proyecta que Diamond Rapids con 192 núcleos / 192 hilos ofrezca apenas alrededor de 40% más rendimiento
- La plataforma Diamond Rapids-SP mainstream de 8 canales fue cancelada por completo, dejando ese mercado sin nueva generación al menos hasta 2028
  - Como resultado, perdería el mercado de CPU de propósito general necesario para el uso de herramientas de IA y almacenamiento de contexto

Arquitectura AMD Venice

AMD adopta por primera vez tecnología de empaquetado avanzado, conectando los CCD y el die de I/O mediante enlaces cortos de alta velocidad
Debido a una línea de costa adicional para los enlaces de los CCD, el hub central de I/O se divide en 2 dies, lo que genera dominios NUMA adicionales entre ambos lados del chip
16 canales de memoria (frente a los 12 canales de Genoa), con memoria multiplexada MRDIMM-12800 para un ancho de banda de 1.64 TB/s (2.67 veces más que Turin)
Introducción de una red mesh dentro del CCD: 32 núcleos Zen6c dispuestos en una cuadrícula de 4x8, en proceso N2 de TSMC
8 CCD para un total de 256 núcleos, un aumento de 1/3 frente a los 192 núcleos de Turin-Dense
Asignación completa de 4 MB de caché L3 por núcleo en Zen6c (el Zen5c anterior tenía la mitad), con 128 MB de caché por CCD
SKU "-F" de pocos núcleos y alta frecuencia para nodos cabeza de IA: utiliza un CCD Zen6 de 12 núcleos para escritorio/móviles, con hasta 96 núcleos
Estabilización del suministro eléctrico con 8 pequeños IPD (Integrated Passive Device) cerca de la interfaz DDR5 junto al die de I/O
Rendimiento de Venice y nuevas instrucciones
- El modelo tope de gama de 256 núcleos ofrece más de 1.7 veces el rendimiento por watt en SPECrate®2017_int_base frente al Turin de 192 núcleos
- Gran mejora de IPC (Instructions per Clock) en la microarquitectura Zen 6
- Nuevas instrucciones para tipos de datos de IA: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (multiplicación de matrices binarias)
  - BMM: almacena matrices binarias de 16x16 en registros de la FPU y realiza acumulación BMM con operaciones OR y XOR
  - Es eficiente para simulaciones Verilog, entre otras, pero se proyecta una adopción limitada en LLM por falta de precisión
- En una situación donde el Turin de 96 núcleos de AMD iguala al Granite Rapids de 128 núcleos de Intel, se prevé que la brecha de rendimiento entre Venice y Diamond Rapids se amplíe aún más
- Mientras Intel canceló su procesador de 8 canales, AMD introduce la nueva plataforma Venice SP8 de 8 canales, sucesora del EPYC 8004 Siena, con hasta 128 núcleos Zen 6c
  - Se espera una mayor cuota de AMD en el mercado empresarial, un área de fortaleza tradicional de Intel

NVIDIA Grace y Vera

CPU Grace
- Diseñada para nodos cabeza de GPU y memoria de GPU expandida, con NVLink-C2C (900 GB/s bidireccionales) para que la GPU acceda a la memoria de la CPU con ancho de banda completo
- Adopta memoria LPDDR5X de clase móvil, con bus de memoria de 512 bits, ancho de banda de 500 GB/s y hasta 480 GB por CPU
- 72 núcleos ARM Neoverse V2 (76 de los cuales están implementados, activos 72), malla 6x7 y 117 MB de caché L3
- La malla está optimizada para el flujo de datos, con 3.2 TB/s de ancho de banda bidireccional biseccional
- Cuello de botella microarquitectónico: el Branch Target Buffer sufre una fuerte caída de rendimiento al superar 24 regiones y, al pasar de 32 regiones, se produce un flush completo del búfer de 64 MB
  - En código HPC no optimizado provoca una caída de rendimiento del 50% y también afecta las cargas de IA de GB200/GB300
CPU Vera (2026)
- Para la plataforma Rubin, con ancho de banda C2C de 1.8 TB/s, el doble
- 1.5 TB de memoria y 1.2 TB/s de ancho de banda con 8 módulos SOCAMM de 128 bits
- 91 núcleos (88 activos) en una malla 7x13, con 162 MB de caché L3
- Empaquetado CoWoS-R: 1 die de cómputo de tamaño reticle en 3 nm + 4 dies de memoria LPDDR5 + 1 die de I/O PCIe6/CXL3 (6 dies en total)
- Deja atrás los cuellos de botella de rendimiento de los núcleos Neoverse y vuelve a los núcleos Olympus de diseño propio
  - 88 núcleos/176 hilos (con soporte SMT), ARMv9.2, FPU con 6 puertos de 128 bits (frente a 4 en Neoverse V2)
  - Soporte para operaciones ARM SVE2 FP8, 2 MB de caché L2 por núcleo (el doble que Grace)
  - En conjunto, duplica el rendimiento

AWS Graviton5

AWS fue el primer hyperscaler en desplegar con éxito una CPU propia en la nube, mediante la adquisición de Annapurna Labs y el uso de ARM Neoverse CSS
Graviton2: impulsó la migración a ARM con fuertes descuentos durante el auge del COVID, con 64 núcleos Neoverse N1
Graviton3: con Neoverse V1, duplicó el rendimiento de punto flotante por núcleo, diseño chiplet EMIB, e introdujo DDR5 y PCIe5 un año antes que AMD e Intel
Graviton4: 96 núcleos Neoverse V2, memoria de 12 canales, 96 líneas PCIe5 y soporte dual-socket
Graviton5 (preview en diciembre de 2025): 192 núcleos Neoverse V3, TSMC 3 nm, 172 mil millones de transistores
- 192 MB de caché L3 (gran aumento frente a los 36 MB de Graviton4), DDR5-8800 de 12 canales
- Actualización a PCIe6, pero las líneas bajan de 96 a 64 (optimización de costos por líneas no utilizadas)
- Malla 8x12, 2 núcleos comparten cada parada de la malla, división en múltiples dies de cómputo y adopción de una nueva estrategia de empaquetado
AWS usa internamente miles de CPU Graviton para CI/CD y EDA, y las aprovecha en el diseño de la próxima generación de Graviton, Trainium y Nitro (dogfooding interno)
El acelerador Trainium3 usa CPU Graviton como nodo cabeza (1 CPU : 4 XPU)

Microsoft Cobalt 200

Sucesor de Cobalt 100 (2023, 128 núcleos Neoverse N2), con lanzamiento a fines de 2025
132 núcleos Neoverse V3, 3 MB de caché L2 por núcleo, 2 dies de cómputo TSMC de 3 nm
Malla 8x8 por die, 72 núcleos impresos/66 activos, 192 MB de caché L3, DDR5 de 6 canales y 64 líneas PCIe6
50% más rendimiento frente a Cobalt 100
Exclusivo para servicios de cómputo de CPU de propósito general en Azure; no se usa como nodo cabeza de IA (Microsoft Maia 200 adopta Intel Granite Rapids)

Google Axion C4A, N4A

Anunciado en 2024 y disponibilidad general en 2025, marca la entrada de Google al mercado de CPU de silicio personalizado para GCP
Axion C4A: hasta 72 núcleos Neoverse V2, DDR5 de 8 canales, PCIe5 y die monolítico de 5 nm (81 núcleos impresos, malla 9x9)
- Se estima que usa un nuevo die de 3 nm para instancias bare metal de 96 núcleos mostradas en preview a fines de 2025
Axion N4A: orientado al scale-out rentable, con 64 núcleos Neoverse N3 y diseño totalmente personalizado en TSMC 3 nm
Google está migrando su infraestructura interna (Gmail, YouTube, Google Play, etc.) a ARM, y planea desplegar Axion también como nodo cabeza de futuros clústeres TPU

Ampere Computing y la adquisición por SoftBank

Pionera del silicio ARM comercial, se asoció con Oracle y desafió el dominio de x86 con Altra (80 núcleos) y Altra Max (128 núcleos)
- Núcleos Neoverse N1, interconexión mesh propia (clústeres de 4 núcleos), DDR4 de 8 canales, 128 líneas PCIe4 y die único TSMC de 7 nm
AmpereOne: proceso de 5 nm, 192 núcleos, chiplet de I/O separado (DDR5 y PCIe), diseño MCM que no requiere interposer
- Núcleos ARM personalizados (optimizados para densidad de núcleos) + 2 MB de caché L2 (para mitigar el problema del noisy neighbor)
- Se planean variantes mediante reutilización de chiplets, como AmpereOne-M de 12 canales y AmpereOne-MX de 256 núcleos en 3 nm
En 2025, SoftBank la adquirió por 6.500 millones de dólares, con el objetivo de asegurar talento de diseño de CPU para la iniciativa Stargate
Causas del fracaso de Ampere:
- La generación Altra llegó demasiado pronto, cuando el software nativo de ARM aún no estaba maduro
- AmpereOne solo estuvo disponible en la segunda mitad de 2024 tras múltiples retrasos, cuando las CPU ARM de hyperscalers ya estaban despegando y AMD ofrecía 192 núcleos con un rendimiento por núcleo 3 a 4 veces mayor
- Las compras de CPU Ampere por parte de Oracle cayeron drásticamente: 48 millones de dólares en FY2023 → 3 millones de dólares en FY2024 → 3.7 millones de dólares en FY2025

ARM Phoenix

ARM entrará en 2026 al negocio de diseño y venta completa de CPU para centros de datos, compitiendo directamente con sus clientes licenciatarios actuales de Neoverse CSS
Hasta ahora se han desplegado más de 1.000 millones de núcleos Neoverse en CPU y DPU para centros de datos, con 21 licencias CSS para 12 empresas
Los ingresos por regalías de centros de datos crecieron más del doble interanual, y se prevé que CSS represente más del 50% de esos ingresos por regalías en los próximos años
Phoenix: 128 núcleos Neoverse V3, malla ARM CMN, 2 dies half-reticle de 3 nm de TSMC
- 12 canales DDR5 (8400MT/s), 96 carriles PCIe Gen 6, TDP configurable entre 250 y 350 W
- El primer cliente es Meta; OpenAI (empresa conjunta Stargate/SoftBank) y Cloudflare también figuran como posibles clientes
- Con el Accelerator Enablement Kit basado en PCIe6, es posible conectar XPU y memoria compartida coherente

Huawei Kunpeng

Kunpeng 920 y 920B
- Generaciones iniciales (Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16 nm
- Kunpeng 920 (2019): 64 núcleos personalizados TaiShan V110, 2 dies de cómputo de 7 nm de TSMC, empaquetado CoWoS-S (primer uso de CoWoS-S en una CPU)
  - 8 canales DDR4, 40 carriles PCIe4, doble 100GbE integrado
  - El suministro de TSMC fue bloqueado por las sanciones de EE. UU., y la siguiente generación Kunpeng 930 no llegó a lanzarse
- Kunpeng 920B (2024): núcleos TaiShan V120 con soporte SMT, 10 clústeres de 4 núcleos por die (total de 80 núcleos/160 hilos)
  - 8 canales DDR5, disposición separada del die de I/O, rediseñado en proceso SMIC N+2 (tras un vacío de 5 años)
Kunpeng 950 (2026)
- Nuevo LinxiCore de 192 núcleos (con soporte SMT), también se producirá una versión reducida de 96 núcleos
- Configuración en rack TaiShan 950 SuperPoD: 16 servidores de doble socket, hasta 48 TB de DDR5 (se estima 12 canales)
- Mejora de 2,9 veces en rendimiento de bases de datos OLTP frente a Kunpeng 920B (basado en GaussDB Multi-Write)
- Se prevé su adopción en servidores de bases de datos Oracle Exadata y en el sector financiero chino
- Se estima que será fabricado con proceso SMIC N+3
Kunpeng 960 (hoja de ruta para 2028)
- Versión de alto rendimiento: 96 núcleos/192 hilos, para nodos principales de IA y bases de datos, con una mejora de más del 50% en rendimiento por núcleo
- Versión de alta densidad: más de 256 núcleos para virtualización y nube
- Se prevé que asegure una participación significativa en el mercado chino de CPU para hyperscalers

El regreso de la CPU: perspectivas del mercado de CPU para centros de datos en 2026

Cambios y evolución del papel de la CPU en los centros de datos

Desde la era de la PC hasta la era puntocom

La era de los hyperscalers de virtualización, cloud computing y escala masiva

La era de integración entre GPU de IA y CPU

La era del aprendizaje por refuerzo y los agentes

Historia de las interconexiones de CPU multinúcleo

Primeros diseños crossbar y sus límites

Arquitectura de bus en anillo de Intel

Arquitectura mesh de Intel

Mesh distribuida mediante EMIB

Diseño distribuido heterogéneo de Xeon 6

Límites de Clearwater Forest

Arquitectura de interconexión AMD Zen

EPYC Naples (2017)

Evolución generacional desde EPYC Rome (2019)

Arquitectura Intel Diamond Rapids

Problema por la eliminación de SMT

Arquitectura AMD Venice

Rendimiento de Venice y nuevas instrucciones

NVIDIA Grace y Vera

CPU Grace

CPU Vera (2026)

AWS Graviton5

Microsoft Cobalt 200

Google Axion C4A, N4A

Ampere Computing y la adquisición por SoftBank

ARM Phoenix

Huawei Kunpeng

Kunpeng 920 y 920B

Kunpeng 950 (2026)

Kunpeng 960 (hoja de ruta para 2028)

Lecturas relacionadas

Aún no hay comentarios.