2 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp
  • El sistema de alto rendimiento de NVIDIA para PCs con Windows plantea una configuración de chip donde CPU y GPU comparten 128 GB de memoria compartida y ofrece hasta 6,144 núcleos CUDA
  • La CPU cuenta con 10 núcleos de rendimiento y 10 núcleos de eficiencia; los de rendimiento se basan en Cortex-X925, y su SVE2 queda por debajo de chips recientes de AMD, aunque supera a Apple Silicon
  • La diferencia clave es la memoria unificada, que no separa la memoria de CPU y GPU; aunque es más lenta que la memoria dedicada de GPU, apunta a las condiciones de ancho de banda y costo necesarias para ejecutar modelos de IA locales
  • También existe la visión de que la demanda de ejecutar modelos de IA locales sigue siendo una aplicación de nicho, y la de que 128 GB de memoria compartida pueden ser más importantes que los TFLOPs pico de la GPU en experimentos a escala estudiantil
  • Los puntos de comparación incluyen AMD Strix Halo, Intel Xe3P AI GPU y AVX-512 en procesadores AMD recientes; también existe la limitación de que la RAM soldada dificulta su reemplazo posterior

Especificaciones del sistema y estructura de memoria

  • El sistema CPU para PCs con Windows propuesto por Nvidia tiene una configuración con 128 GB de memoria compartida y hasta 6,144 núcleos CUDA de última generación
  • La CPU está compuesta por 10 núcleos de rendimiento y 10 núcleos de eficiencia, y los núcleos de rendimiento se basan en Cortex-X925
  • Se compara que el SVE2 de Cortex-X925, por especificación, queda por debajo de chips recientes de AMD, aunque está por encima de Apple Silicon
  • Se compara que los procesadores AMD recientes admiten AVX-512, y que AVX-512 es muy superior al SVE2 de Cortex-X925, procesa más datos y es más versátil
    • Intel, hasta ahora, ha mostrado cautela al ofrecer AVX-512 en sistemas de consumo
  • Los 128 GB de memoria unificada funcionan como un único pool compartido en lugar de memoria separada para CPU y GPU, una estructura similar al camino que Apple tomó hace algunos años
  • La memoria unificada está ganando popularidad; aunque no es más rápida que la memoria dedicada de GPU, tiene la ventaja de ser lo bastante económica como para ofrecer suficiente ancho de banda para ejecutar modelos de IA locales
    • En la RAM unificada no hace falta enviar datos entre CPU y GPU, y existe la opinión de que todo se siente como una operación de copia cero porque todo está en un único pool de memoria
  • Queda por ver cómo responderán Intel y AMD
Publicidad

Diversas opiniones relacionadas

  • No está claro cuánta demanda habrá por ejecutar modelos de IA locales, y por ahora sigue siendo una aplicación de nicho
  • Hay quien cree que este sistema podría ser una buena máquina para videojuegos, y también quien rebate que no está diseñado para juegos sino para modelos grandes, por lo que quizá no rinda tan bien en gaming como se espera
  • Se argumenta que, en experimentos a escala estudiantil, 128 GB de memoria compartida pueden importar más que los TFLOPs pico de la GPU, y que eso podría cambiar qué modelos y cargas de trabajo pueden probarse localmente
  • La RAM no puede cambiarse después y está toda soldada, lo que implica un compromiso
  • Sobre la capacidad de memoria, hay opiniones de que 128 GB no bastan y que se preferirían 256 GB o 512 GB; también se afirma que una “beast” para tareas de IA necesita al menos 512 GB, e incluso se desea una opción de 1 TB de memoria unificada
    • La respuesta breve del autor sobre por qué elegir 128 GB fue: "costo"
  • En cuanto al sistema operativo, se expresa decepción con el SO junto con la afirmación de que no ejecuta “regular Windows”, y se propone instalar Linux
  • AMD Strix Halo es un producto similar con 128 GB de memoria unificada y una iGPU grande, y sirve como referencia comparativa con el AVX-512 del Zen 5 de escritorio
    • Según la experiencia de usar AMD Strix Halo durante varios meses en un homelab de LLM local, puede ejecutar LLMs de nivel prosumidor, pero el verdadero cuello de botella es el ancho de banda de memoria
    • Para el nuevo chip de Nvidia se plantea la necesidad de más de 300 GB/s de ancho de banda de memoria
  • Una RTX5090, si ya se tiene una desktop, podría ser más barata para modelos pequeños más rápidos, y esa familia de placas sería más adecuada para modelos locales más grandes
  • Las ventajas de ejecutar IA local incluyen no enviar datos secretos o de clientes a terceros con responsabilidades poco claras, evitar suscripciones SaaS y precios por token, y conectar con la idea de que un modelo local aprenda el comportamiento de uso de la PC para ejecutar tareas
  • Los modelos locales pueden operar como funciones invisibles para el usuario, y las tareas que requieran mayor inteligencia o más contexto podrían descargarse en remoto
  • El punto central, más que el modelo local en sí, es una plataforma de software que soporte aplicaciones de IA integradas y una forma de mantener vigente al desktop
  • Un ejemplo de que ejecutar Google Chrome podría convertirse en un caso de uso de IA local es la documentación de built-in AI de Chrome
  • El punto de comparación con Intel Xe3P AI GPU incluye 160 GB de LPDDR5X, posibilidad de hasta 480 GB, interfaz de memoria de 640 bits y configuración PCIe x16: https://tomshardware.com/pc-components/gpus/…

1 comentarios

 
GN⁺ 4 시간 전
Comentarios en Hacker News
  • El pool de memoria unificada parece que seguirá siendo un verdadero “game changer”, especialmente en arquitecturas de sistemas fuera del datacenter
    Ni los juegos modernos ni las cargas de trabajo de consumo suelen usar por completo el ancho de banda PCIe del GPU o el ancho de banda de memoria GDDR, y en IA local el beneficio de memoria más rápida tampoco parece tan grande para el consumidor promedio
    La memoria unificada permite optimizar el uso según necesidad, evita tener que pensar por separado la distribución entre GDDR y DDR, y reduce el costo total de memoria en dispositivos pequeños y portátiles
    La desventaja es la seguridad: un ataque por canal lateral de memoria desde el lado del GPU o del CPU podría comprometer también al otro lado, así que el diseño seguro de memoria probablemente será importante en adelante, algo que suena favorable para quienes apoyan Rust

    • Eso de “aprovechar al máximo” el ancho de banda PCIe del GPU o el ancho de banda GDDR suena un poco confuso
      En juegos, la clave no es saturar el hardware sino mantener una salida consistente dentro del tiempo límite por frame
      Incluso si uno intentara saturar una 5090 con juegos, el mercado objetivo sería pequeño, y para sostener la tasa de cuadros el juego tiene que correr bien también en las configuraciones reales de los usuarios, no solo en el equipo de prueba
    • Desde la perspectiva de un desarrollador de juegos, que los juegos actuales no usen todo el ancho de banda del GPU no es por flojera, sino porque es realmente difícil
      Una de las mayores diferencias entre las consolas actuales y las PCs actuales es justamente la memoria unificada
    • Si haces que el dispositivo no se pueda actualizar, al fabricante le resulta muy conveniente forzar la segmentación de mercado y cobrar una gran prima por pequeñas mejoras de RAM, como hace Apple
    • El argumento económico no me termina de convencer
      En el 99% de las cargas de trabajo, la memoria del sistema necesita ser al menos un orden de magnitud mayor que la memoria del GPU, y la mayoría de los sistemas casi nunca requieren más memoria de GPU que la necesaria para video, navegación, etc.
      Que aparezca un caso de uso nuevo no invierte por completo esa estructura; si hoy necesitas 128GB y la IA local también necesita 128GB, entonces para seguir haciendo ambas cosas vas a necesitar 256GB
      Más bien parece un argumento a favor de no usar memoria tan cara en el GPU, y si solo haces inferencia quizá sí tenga sentido
    • La DRAM optimizada para uso de CPU y la DRAM optimizada para uso de GPU son bastante distintas
      En una arquitectura de memoria unificada se sacrifica bastante rendimiento; en algunas situaciones tiene sentido, pero no es una solución universal
  • No sé cuánta gente realmente ejecuta modelos de IA en local; todavía parece algo de nicho, pero viendo los lanzamientos recientes de Gemma, la posibilidad de correr algunos modelos localmente ha aumentado aunque solo se mire el costo
    Si además consideras la seguridad empresarial, todavía más, pero aun así no me queda claro por qué esta arquitectura sería buena para gaming, así que dudo de la frase completa del texto original
    Aparte, poner por todos lados frases como “top 2% de científicos del mundo según Stanford/Elsevier 2025, top 1000 desarrolladores de GitHub” más bien me da una sensación contraproducente

    • Suena como la versión 2026 de la frase de Ken Olsen de que “no hay razón para tener una computadora en casa”
    • Cuando veo ese tipo de frases en una biografía personal, lo tomo como un aviso de que todo debe leerse en clave de autopromoción
    • En la mayoría de las tareas, Qwen 3.6 está muy por delante de Gemma
      Lo he desplegado en varias MacBook M5 y ha sido realmente útil en muchas tareas
      No reemplaza a modelos del nivel de Opus o la generación actual de Sonnet, pero para su tamaño es sorprendentemente bueno, y parece estar al nivel de la época de Sonnet 4 o un poco antes
      En llamadas a herramientas, programación y tareas de agente es mucho más estable que los modelos Gemma, y especialmente más rápido cuando usa MTP
    • La audiencia de HN en general no es el objetivo de su autopromoción, pero claramente sí hay un público para eso y probablemente tenga cierto efecto
    • Cuesta creer la idea de que correr modelos en una laptop vaya a ser más barato que hacerlo en un datacenter
      No veo por qué las economías de escala no aplicarían aquí como en otros tipos de cómputo
  • No quiero menospreciar el trabajo del autor, pero este texto da la impresión de haberse escrito mirando solo la tabla de especificaciones, no tras un análisis profundo
    Tiene la misma cantidad de núcleos que una 5070 móvil, pero su ancho de banda pico compartido y su TDP pico compartido son de apenas dos tercios, así que el rendimiento del GPU por sí solo probablemente ronde la mitad del de una unidad dedicada
    Apple no tiene SVE2, pero sí AMX privado y SME, y no entiendo por qué se asumiría que SVE2 será más rápido que SME
    Se habla de un solo tipo de núcleo, pero no de la configuración completa, y cómo se compara DGX Spark con los chips de Apple ya se sabe desde hace un año
    El CPU está más o menos al nivel de un M3 Pro, el cómputo de GPU queda entre un M4 Pro y un M4 Max si se excluye el ancho de banda, y la única ventaja real es que corre CUDA
    Para cuando salga, probablemente esté 2 o 3 generaciones detrás de Apple y 1 generación detrás de AMD, y además aquí falta el NIC para interconectarlos, que era otra fortaleza de DGX Spark

    • Otra ventaja frente a Apple es el prefill
      En Spark es muchísimo más rápido que en un M5 Max, y comparando el mismo modelo, la misma cuantización, la misma consulta y una configuración de vllm lo más parecida posible, en tareas con prompts grandes y baja probabilidad de cacheo muchas veces un Spark termina de responder antes de que la MBP termine el prefill
    • Aquí parece que por cómputo de GPU se estaba pensando en tareas dependientes del ancho de banda de memoria, como la generación de tokens
      Ahí Apple lleva ventaja, pero la capacidad de cómputo del GPU en Spark es muy superior a los 17 FP32 TFLOPS del M5 Max, aproximadamente el doble
      Tiene 6144 núcleos CUDA como una 5070 de escritorio, solo que limitada por memoria más lenta y menor TDP, así que queda en algo como 29.7 frente a los 31 FP32 TFLOPS de una 5070
    • Lemire suele tener un interés muy estrecho en el SIMD de CPU, así que en ese nicho puede resultar interesante
      En términos generales, Spark está bien, pero no es nada extraordinario
    • Esto sí que parece puro fluff, y que este tuit sin valor haya llegado a la portada de HN parece deberse al hábito de santificar a ciertas figuras y tratar todo lo que dicen como si fuera una profecía
      Da la impresión de que recién se enteró de un chip que la industria conoce desde hace tiempo, casi sin conocer tampoco los productos rivales, y aun así sale con “BEAST” y “GAME CHANGER”
      Si DGX Spark fue un game changer, en general fue una gran decepción, y no parece que una laptop cara de Nvidia vaya a cambiar el panorama
  • El Qualcomm Snapdragon X2 Elite Extreme supera ampliamente al chip de Nvidia en rendimiento de CPU de un solo núcleo y también vence a los mejores productos de Intel y AMD
    También tiene memoria unificada, y es la única CPU que está en la misma liga que la serie Apple M tanto en rendimiento de CPU como en eficiencia energética
    Se puede comprar hoy mismo en laptops, no a finales de este año, y la gente está subestimando a Qualcomm

    • El soporte del sistema operativo es pésimo
      Si no puede dar soporte a Linux, casi no tiene sentido, y las dos plataformas importantes en este campo son Linux y Darwin
      Qualcomm es como AMD en GPU durante décadas: muchos anuncios y muchos fans en internet que leyeron la página web, pero cuando intentas usarlo de verdad es una pesadilla
      Snapdragon X Elite no funciona en Linux, así que no sirve como plataforma, y hasta los usuarios entusiastas lograron hacer que el M1 funcionara mejor, así que terminan usando una Mac vieja en vez de Qualcomm
    • El X925 del chip de Nvidia lo supera porque es un diseño viejo de CPU Arm de hace 2 años
      La comparación debería ser con el X930 o el C1 del Mediatek Dimensity 9500, es decir, con la línea Snapdragon 8 Elite Gen 5 / X2 Elite
      Qualcomm todavía mantiene una ventaja de rendimiento, pero se está reduciendo, y más importante aún, Nvidia está construyendo mucho mejor el ecosistema
      Nvidia tiene canales de distribución y socios mucho mejores, construidos sobre las GPU de gaming para PC, y su relación con desarrolladores de juegos no tiene rival en la industria
      Qualcomm todavía no ha demostrado ejecución ni en CPU para PC ni para servidores
    • Microsoft está arruinando el port de Windows a Arm y no está logrando aprovechar bien a Qualcomm
    • Qualcomm está en una situación de “si me engañas una vez es culpa tuya, si me engañas dos veces no vuelvo a caer”
      La gente no puede evitar dudar por tantas experiencias terribles del pasado, y aunque parece que ahora lo están intentando más, recuperar su reputación en el mercado de PC va a tomar tiempo
    • ¿Tiene soporte real en Linux?
  • Aquí está el comunicado de prensa del dispositivo real
    https://nvidianews.nvidia.com/news/nvidia-microsoft-windows-...
    Me sorprendió que tan poca gente señalara que Microsoft y especialmente NVIDIA están lanzando dispositivos que, en esencia, chocan con los modelos de IA en la nube de pago por uso
    Viendo otros anuncios y señales, como un mejor BYOK offline para Copilot y un futuro de IA ilimitada, parece que ambas empresas entienden que la IA solo en la nube no es sostenible ni les conviene por naturaleza
    Aun así, se nota la intención de debilitar a OpenAI con productos como este

    • En el MS BUILD de la semana pasada, unmetered intelligence fue probablemente la expresión más repetida
      Microsoft está empujando con fuerza la IA local
    • Puede ser, pero también podría ser simplemente una apuesta en ambos frentes
  • No estoy seguro de que los LLM locales se vayan a adoptar masivamente a menos que los precios realmente suban
    Tiene sentido usar modelos pequeños alojados más baratos como Sonnet o Kimi, y estos dispositivos no van a poder correr modelos del nivel de Kimi, que sería el piso para trabajos de agentes que no sean simples juguetes
    Gastar $5,000 para evitar una suscripción de $20 no suena muy lógico, salvo por razones de seguridad de nicho

    • Yo apostaría más bien a la posibilidad de que China siga aumentando la producción de DRAM, haga colapsar los precios y arrastre también al mercado bursátil estadounidense sostenido sobre esa escasez
    • Creo que todavía no hemos visto realmente qué impacto puede tener la IA generativa en productos nuevos y en juegos
      ¿Has visto Dungeon Crawler Carl?
  • Creo que la mayoría no entiende bien lo que estas laptops pueden ofrecer
    Antes que IA local, es muy probable que terminemos usando primero IA híbrida
    Correr modelos grandes en local no es realista, pero si piensas en un flujo de trabajo con agentes donde una parte corre en la nube y tareas más pequeñas corren en local, es una combinación excelente
    Para tareas básicas no hacen falta modelos como Opus/Code/DeepSeek/Kimi, y modelos como Gemma4:12b/Qwen-27b pueden resolverse localmente con mucha menor latencia
    Si hubiera una laptop capaz de combinar un modelo grande remoto con 5 modelos locales especializados por dominio, la usaría ahora mismo
    Puedo imaginar OpenCode evaluando qué tareas correr con modelos pequeños en local, y decidiendo si hay un modelo local adecuado para una tarea específica o si conviene usar un modelo en la nube
    La preocupación es si este hardware será lo bastante potente para soportar cambios rápidos entre modelos locales; probablemente no, pero ojalá me equivoque

    • Viendo la velocidad a la que avanzan los modelos locales, con la trayectoria actual parece posible que en 2 años veamos un rendimiento cercano al de modelos frontier con 128GB de RAM unificada y cuantización de 6 bits
      Los modelos frontier ya están logrando mejores benchmarks con solo 200,000 tokens, y a la destilación todavía le queda mucho camino por recorrer
  • No me queda claro de qué tipo de “monstruo” estamos hablando
    300GB/s de ancho de banda de memoria es apenas un poco más que los 256GB/s del AMD Strix Halo, y ni siquiera llega a la mitad de los 614GB/s del M5 Max 128GB con la misma configuración de 128GB de RAM
    Como la mayoría de los interesados probablemente sean entusiastas de IA, se enfatiza el ancho de banda de memoria, y encima es Windows

    • A diferencia del M5 Max, parece que sí podría hacer un context prefill usable
      Incluso flujos de trabajo de 256k tokens, que en el M5 tardarían casi la mitad del tiempo hasta el primer token, podrían correr de forma realista
    • Si Nvidia quiere hacer que las CPU ARM sean realmente prácticas también para uso de escritorio fuera de inferencia o entrenamiento, todavía le queda mucho trabajo de software por delante
      AMD puede correr de todo porque es x86, Apple mantiene toda la pila de MacOS, pero Nvidia da pena porque apenas logra ajustar una sola versión de Ubuntu por cada generación de Jetson
      Ojalá pusieran a esos agentes de los que tanto hablan a trabajar de verdad en el soporte del sistema operativo
  • De verdad me da curiosidad en qué se diferencia de algo como AMD Ryzen AI Max, que ya se puede comprar y soporta 128GB de memoria unificada

    • Probablemente sea por el soporte de CUDA o por alguna característica específica de NVIDIA
  • No sé quién sigue obsesionado con las “Windows PC” en 2026
    Simplemente es una computadora personal y normalmente puede ejecutar bien varios sistemas operativos
    La expresión Windows PC suena como si le hubieran pagado Microsoft, o como alguien que habla de tecnología como si mandara un documento de Word con imágenes insertadas
    No hace falta forzar la parte divertida de un dispositivo agnóstico al sistema operativo para atarla a un sistema operativo mediocre

    • Obviamente se trata del mercado empresarial
      Probablemente compre más PC que el resto del mercado combinado
      Incluso en uso personal, quienes hacen dual boot entre Windows y otros sistemas operativos deben ser una minoría muy pequeña
      “Windows PC” es una forma bastante razonable de distinguir entre “lo que hace Apple” y “lo que hacen los demás”, y el mercado de PC no hechas por Apple pero que no traen Windows por defecto es realmente pequeño
      Sinceramente, se ve raro ponerse tan agresivo con este tema
    • Probablemente solo quieren dejar claro que no están hablando de Mac
      La palabra PC es ambigua: puede referirse a todas las computadoras personales en su sentido original, o a la familia IBM PC en contraste con Mac
      Piensa en los anuncios de “I'm a Mac, I'm a PC”
      Si solo dices PC, hoy en día la gente de verdad se confunde sobre cuál sentido es, e “IBM PC” suena anticuado y “IBM PC clone” suena peor
      Por eso “Windows PC” es un nombre bastante decente, y “Non-Mac PC” tampoco suena muy bien
      No hay necesidad de decirlo de forma despectiva
    • Esto tampoco es una “Windows PC” en el sentido tradicional
      La razón por la que se sigue usando Windows en empresas y en algunas desktops domésticas, como para gaming, sigue siendo la compatibilidad de hardware y software
      Se usa porque en el trabajo hacen programas para Windows, y también usan drivers que todavía no existen en Win-for-ARM
      Por eso, para la mayoría, “Windows PC” sigue significando una PC con Windows x64
      Si la compatibilidad de Windows-Arm64 no es suficiente, el riesgo para Microsoft es que, ya que de todos modos hará falta software y hardware nuevos, la gente podría terminar dejando Windows por completo
    • Espero que quienes quieran correr algo que no sea Windows en un dispositivo hecho por Nvidia ya hayan aprendido la lección
      Un maldito Nvidia Hackintosh sería muy chistoso, eso sí
      Para el usuario común, los sistemas operativos de computadora son tres: Windows, Apple y ChromeOS; Nvidia no se va a ir por ChromeOS, y Apple odia a Nvidia, así que el único sistema operativo normal que se puede comercializar es Windows
      El marketing deja claro que estos dispositivos no son Chromebooks baratos que arruinaron la experiencia de escritorio de mucha gente
      Qualcomm prometió soporte para Linux y fracasó, y quienes se quemaron con esa promesa no van a querer volver a comprar ese hardware
      Si prometes una Windows PC, hay menos motivo para que se quejen de que Linux, FreeBSD o SerenityOS no arrancan, y viendo el fracaso de Qualcomm, parece que Nvidia probablemente está tomando la decisión correcta
    • Que Nvidia esté apostando fuerte por Windows ARM parece información relevante