3 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Jalapeño es un acelerador especializado en inferencia de LLM y el primer resultado de una plataforma de cómputo multigeneracional creada junto con Broadcom
  • Desde el inicio del diseño hasta el tape-out de fabricación tomó solo 9 meses, lo que se estima como el ciclo de desarrollo de ASIC más rápido de la historia en semiconductores avanzados de alto rendimiento
  • En pruebas iniciales, logró una reducción de costos de alrededor del 50% frente a GPU de IA convencionales, y su rendimiento por watt también es muy superior al estado del arte actual
  • Forma parte de una estrategia full-stack en la que diseñan directamente desde la arquitectura del chip hasta kernels, memoria y networking, con el objetivo de reducir la dependencia de GPU de Nvidia y expandirse más allá de una empresa de software hacia un proveedor de infraestructura de IA
  • Está previsto que se despliegue desde finales de 2026 en centros de datos a escala de gigawatts junto con socios como Microsoft, lo que cobra relevancia ante la presión por demostrar rentabilidad antes de una IPO valorada en 1 billón de dólares

Presentación del chip Jalapeño

  • El miércoles, OpenAI y Broadcom (NASDAQ: AVGO) presentaron Jalapeño, el primer Procesador de Inteligencia (Intelligence Processor) de OpenAI
  • Es un acelerador diseñado pensando en el futuro de la inferencia de LLM, y el primer acelerador de IA de una plataforma de cómputo multigeneracional que ambas compañías desarrollan juntas
  • El presidente y CEO de Broadcom, Hock Tan, y el presidente Charlie Kawwas entregaron personalmente muestras del chip al CEO de OpenAI, Sam Altman, y al presidente Greg Brockman
  • Es un paso importante en la estrategia de OpenAI para dar el salto más allá de productos para consumidores y convertirse en un proveedor de infraestructura de IA

Estructura y rendimiento del chip

  • Jalapeño no es un chip de propósito general adaptado a partir de aceleradores existentes para cargas de trabajo de IA, sino un diseño desde cero (blank-slate) para la inferencia moderna de LLM
  • Es un ASIC que puede diseñarse para tareas específicas de IA; ofrece menos flexibilidad que las GPU de Nvidia, pero a menor costo
  • Rendimiento y eficiencia

    • En pruebas iniciales, logró una reducción de costos de alrededor del 50% frente a GPU de IA convencionales (entrevista con Hock Tan)
    • El rendimiento final aún se está midiendo, pero el rendimiento por watt muestra una mejora importante frente al estado del arte actual
    • Al reducir el movimiento de datos y equilibrar recursos de cómputo, memoria y networking, logra que la utilización real se acerque al rendimiento máximo teórico
    • En la imagen del chip publicada se observan 8 sitios HBM y el die de cómputo en el centro
  • Validación operativa

    • Las muestras de ingeniería ya están ejecutando cargas de trabajo de ML en la frecuencia y potencia objetivo de producción, incluyendo GPT‑5.3‑Codex‑Spark
    • Está previsto que se publique un informe técnico detallado en los próximos meses
    • La implementación de silicio de Broadcom y su silicio de networking Tomahawk respaldan la producción masiva a gran escala

Tape-out en 9 meses, acelerado por modelos de OpenAI

  • Desde el diseño inicial hasta el tape-out de fabricación, el desarrollo conjunto tomó solo 9 meses, lo que se estima como el ciclo de desarrollo de ASIC más rápido de la historia en semiconductores avanzados de alto rendimiento
  • En parte del proceso de diseño y optimización se utilizaron modelos propios de OpenAI; Brockman comentó que el grado en que los modelos aceleraron el desarrollo fue "sorprendente"
  • Los mismos modelos que se ofrecen a los usuarios podrían contribuir en el futuro a mejorar la infraestructura que los ejecuta
  • Si la IA ayuda a los ingenieros a diseñar chips más rápido, eso podría traducirse en menores costos de cómputo en toda la industria y en un mayor acceso a IA avanzada

Plataforma multigeneracional y socios

  • Jalapeño es la primera etapa de una plataforma de cómputo multigeneracional que apunta a un despliegue inicial a finales de 2026 y a expandirse durante los años siguientes
  • Estructura de colaboración

    • OpenAI — diseño del acelerador, basado en un profundo entendimiento de los fundamentos de los LLM
    • Broadcom — implementación del chip y tecnologías de networking y conectividad
    • Celestica — experiencia en integración de boards, racks y sistemas
  • El año pasado, OpenAI y Broadcom anunciaron un plan para desarrollar chips personalizados para cómputo a escala de 10 gigawatts, y ahora presentaron el primero de esos chips
  • Demanda explosiva

    • El CEO de Broadcom, Hock Tan, señaló que esto permitirá desplegar centros de datos a escala de gigawatts con socios como Microsoft desde 2026, con planes de expansión tras un prototipo pequeño a finales de 2026
    • Brockman dijo que "no es posible conseguir cómputo lo suficientemente rápido", y Tan afirmó que la demanda de seis clientes está en un nivel "literalmente imposible de cubrir" y que en 2027~2028 será igual o mayor
    • El responsable del programa de hardware de OpenAI, Richard Ho, explicó que optimizaron la arquitectura alrededor de los kernels, el movimiento de memoria, el networking y los patrones de serving más importantes para los modelos de IA de frontera

Estrategia full-stack y panorama competitivo

  • OpenAI ya no solo desarrolla modelos de frontera y construye productos, sino que también diseña directamente la infraestructura subyacente: arquitectura del chip, kernels, sistema de memoria, networking, scheduling, sistemas de despliegue y experiencia de producto
  • Con esto, se suma al grupo de empresas full-stack de IA con silicio propio como Google (TPU), Amazon (Trainium) y Microsoft (Azure Maia 100)
  • Menor dependencia de Nvidia

    • "Nadie quiere depender de Nvidia" (Ben Barringer, jefe de research tecnológico en Quilter Cheviot), en línea con la tendencia a diversificar las fuentes de suministro de chips
    • OpenAI es uno de los mayores clientes de Nvidia, pero también ha firmado acuerdos de suministro con AMD (serie Instinct MI450) y Cerebras, entre otros
  • Implicaciones de negocio

    • Mientras Nvidia se convirtió en la empresa más valiosa del mundo al suministrar componentes clave para centros de datos de IA, queda en evidencia el potencial de rentabilidad del mercado de infraestructura de IA
    • Para OpenAI, ante una IPO con una valuación mencionada de 1 billón de dólares, reducir los costos de inferencia es clave para recuperar los enormes costos de entrenamiento y demostrar rentabilidad
    • Las acciones de Broadcom han subido en 2026, hasta cerca de 7 veces su nivel de finales de 2022, reflejando los beneficios de esta colaboración

Democratización de la IA avanzada

  • La inferencia es el punto donde la IA se encuentra con las personas, por lo que mejorar costo, velocidad y estabilidad se traduce directamente en respuestas más rápidas de ChatGPT, trabajo sin espera en Codex, productos de API más baratos y un acceso más estable cuando la demanda se dispara
  • Hacer que los modelos avanzados sean disponibles, estables y asequibles para que más personas puedan usarlos todos los días es la clave de la democratización de la IA
  • Esto ayuda a convertir la infraestructura en inteligencia útil para estudiantes, desarrolladores, pequeños negocios, investigadores y empresas: todos los que quieren aprender, crear y resolver problemas difíciles

1 comentarios

 
GN⁺ 3 시간 전
Opiniones de Hacker News
  • Me gustaría ver con más detalle la parte de “aceleramos el diseño y la optimización con modelos de OpenAI”
    Con la redacción actual, parece una frase de marketing, como decir que el desarrollo fue más rápido gracias a Microsoft Office o a un monitor LG Ultrafine de 40 pulgadas y 5K
    Si de verdad fuera algo tan grande como sugiere, OpenAI probablemente lo habría resaltado muchísimo más

    • Desde la postura de un CEO de chips, cambia por completo según qué quieran decir con “diseño” y “producción”
      No está claro si “diseño” significa que el diseño quedó terminado, ni si “producción” significa el inicio de la producción, es decir, el tape-out
      Si fueron 9 meses desde el congelamiento de RTL hasta el tape-out, para un chip grande, complejo y de 3 nm es un plazo bastante normal, y considerando incluso problemas inesperados, ni siquiera resulta ligeramente impresionante
      En cambio, si fue desde la etapa conceptual —es decir, cuando solo había un diagrama de bloques de arquitectura sin RTL— hasta el tape-out, entonces sí sería un plazo sorprendente, y lo más probable es que la realidad esté en algún punto intermedio
      En un anuncio más concreto deberían usar hitos técnicos y gates reales
    • El lenguaje de descripción de hardware (HDL) que se usa en el desarrollo de chips se parece a un lenguaje de programación, y los modelos existentes ya lo entienden, así que pueden hacer bastantes cosas con eso
      No hace falta necesariamente un modelo especializado aparte para usar modelos de lenguaje grandes en el flujo de trabajo de diseño de chips
      La verificación del diseño también incluye mucha programación tradicional, así que puede beneficiarse de modelos de lenguaje grandes
      No es algo completamente vacío; si hoy descargas software open source de diseño de chips, un modelo de lenguaje grande incluso puede ayudarte a empezar directamente con un chip pequeño
    • Broadcom ya tiene mucho IP para SoC de IA
      Es probable que las partes difíciles de este chip de inferencia Broadcom ya las hubiera diseñado, y que OpenAI simplemente le haya pasado las especificaciones que quería
      Probablemente también se parezca bastante a un Google TPU
      Dicen que “el acelerador de primera generación mejorará considerablemente el rendimiento por watt frente al estado del arte actual”, y me pregunto qué significa exactamente “considerablemente”
      Vera Rubin está programado para envíos masivos a finales de este año, y se espera que tenga una eficiencia energética de inferencia 10 veces mejor que Blackwell[0]
      Incluso si ya hicieron tape-out, entre corregir bugs, fabricar el chip, asignar HBM, diseñar racks, interconexión y desplegarlo en el centro de datos, probablemente falten al menos 12 meses, quizás más
      Para cuando este chip entre en los centros de datos a gran escala, podría estar compitiendo contra Vera Rubin Ultra o Feynman
      Personalmente creo que OpenAI no debió invertir en este proyecto
      Todavía es demasiado pronto; debieron hacer como Anthropic, enfocarse en los modelos, ganar primero y luego meterse en proyectos así cuando ya hubiera rentabilidad
      En IA existe un techo duro que es la energía, y eso representa un riesgo para OpenAI
      Si tienes 1 GW, necesitas instalar solo los mejores chips, y si los chips de Nvidia son mejores, entonces este proyecto habrá sido una pérdida de miles de millones de dólares
      [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
    • Hay básicamente dos posibles significados, y algunos chistes en medio
      1. OpenAI realmente tiene tecnología de IA capaz de mejorar el diseño de chips — una afirmación audaz y poco probable que requeriría evidencia
      2. OpenAI diseñó los modelos y kernels de prueba y validación para probar el rendimiento en hardware de simulación
        El problema es que la frase puede significar solo lo segundo, pero está escrita para sonar como si fuera lo primero, y por eso cuesta confiar en ella
    • Verilog ya está bastante expuesto públicamente, así que es totalmente posible que hayan diseñado el chip escribiendo más Verilog con ayuda de IA
      No tiene que ser necesariamente revolucionario; puede que el diseño asistido por IA simplemente haya encajado lo suficiente como para que valiera la pena crear un ASIC personalizado
  • Aunque no apareció en el texto de OpenAI, parece casi seguro que el chip lo fabricará TSMC [1]
    Yo no estaba seguro de si Intel estaba a cargo

    1. https://www.investing.com/news/stock-market-news/openai-unve...
    • Según una afirmación que vi en Twitter, la razón por la que empresas como Google, Amazon y OpenAI usan Broadcom no es solo su capacidad de diseño, sino también que Broadcom tiene acuerdos de asignación con TSMC y fabricantes de memoria
    • Recién ahora me cayó la ficha
      Broadcom ganó muchísimo dinero al convertirse en el socio de hardware de TPU de Google y compartir con Google la capacidad de producción de TSMC, y ahora parece estar haciendo lo mismo con OpenAI
      Es una forma realmente astuta de aprovechar la fiebre del oro de la IA
      Solo espero que no usen ese dinero para seguir exprimiendo a la industria del software, como pasó con VMWare y Bitnami
  • Me gustaría ver un chip de inferencia con los pesos integrados en parte de la ROM del chip
    Habría un multiplicador por cada peso y, como son constantes, todo se convertiría en un conjunto simple de sumadores, por lo que el rendimiento de una canalización completa podría ser de un token por ciclo de reloj
    Entonces un solo trozo de silicio podría atender simultáneamente a millones de usuarios, y del bus de salida podrían salir 500 millones de tokens por segundo
    La desventaja es que el chip sería enorme, hasta el punto de ocupar una oblea completa
    Los defectos a nivel de oblea quizá no sean un gran problema. Las redes neuronales tienden a tolerar que falten algunos pesos o que estén mal
    Como la velocidad de la industria es tan alta, probablemente habría que pasar muy rápido de los pesos del modelo a la fabricación, hacer 50 obleas, usarlas durante un año y luego desecharlas cuando el modelo quede obsoleto

    • Más exactamente, esto apunta menos a poner los pesos en ROM que a computación en memoria (CIM)
      Es una técnica donde los datos, aquí los valores de multiplicación, pasan a formar parte del procesador, aquí parte del circuito multiplicador
      Evita por completo, a nivel arquitectónico, el problema de “traer y procesar”
      Como los datos están donde ocurre el cómputo, no se mueven y no hay latencia
    • Hace tiempo apareció https://taalas.com/ y seguramente hay más gente pensando algo parecido
      Este enfoque parece más adecuado para modelos pequeños que para modelos frontier. Los modelos de punta cambian demasiado rápido
    • Me pregunto si han visto Cerebras
      No ha llegado tan lejos como lo descrito, y aunque tiene muchísimos núcleos y RAM, los pesos todavía hay que cargarlos por software y, con modelos grandes, hay que hacer streaming dentro del chip
      Aun así, sigue siendo un chip de oblea completa
    • Llevo tiempo pensando en la idea de poner los pesos en ROM
      En muchas tareas, podría estar bien poner los pesos en ROM
      Pero no estoy seguro de que poner un multiplicador por cada peso sea una buena idea
      Si se cuantiza a unos 2 bits quizá sea posible, pero si no, tal vez sea mejor poner una ROM pequeña cerca de cada multiplicador o de cada fila, para procesar N operaciones matriciales distintas sin mover datos desde lejos
      Otra idea interesante es añadir una fila de unidades MAC a la DRAM para usar las filas de DRAM como vectores
      Si el tamaño de fila es 64 Kbit, eso serían 8K pesos de 8 bits, y podrías mantener los pesos y el cómputo en el mismo chip
      Aunque no sé si sería posible meter suficientes multiplicadores en un solo chip
      Los arreglos sistólicos pueden tener de decenas de miles a cientos de miles, cada uno realizando una operación por ciclo de reloj
    • La gente dice que los memristores son ideales para esto y además reprogramables, pero los memristores me parecen los nanotubos de carbono del mundo de la computación
  • Es interesante porque parece que todavía queda muchísimo margen de mejora en eficiencia por explotar a nivel de chip
    Me pregunto cómo ven a Taalas
    Dicen que literalmente hornean modelos LLM en el silicio y dejan algo de memoria onboard para ajuste fino
    Afirman obtener grandes ventajas en costo y latencia
    Se puede ver una demo muy rápida en https://chatjimmy.ai/
    https://taalas.com/
    https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...

    • Si usas exclusivamente GPUs de propósito general, obviamente dejas mucha eficiencia sobre la mesa
      Por eso Google empezó a hacer TPUs hace más de 10 años
      Recuerdo la polémica de cuando Google despidió a Timnit Gebru por un paper que calculaba el impacto ambiental de los LLM tomando las GPUs como referencia e ignorando la eficiencia de las TPU
      Por esa gran brecha de eficiencia, Jeff Dean al parecer se enfadó muchísimo
    • Estaría genial ver más de este tipo de cosas, pero parece que la capacidad de actualizar a un modelo completamente nuevo cada vez que sale uno nuevo sería limitada
      Entonces sería extremadamente difícil venderlo
    • Técnicamente es interesante, pero parece que faltan demasiados detalles
      No me convence la idea de meter en el chip un único modelo que nunca cambie
      Me pregunto cuánto más caro saldría el silicio si se usara ROM regrabable para los pesos
      Eso permitiría ajustar fino el modelo objetivo del diseño y reducir la preocupación de que el modelo se vuelva obsoleto
    • 17k tokens/seg en un chatbot está padre, pero es una demo casi inútil
      En agentes de programación sí sería una mejora relevante, y en robótica sería una revolución total
      Un modelo de 8B no sirve para uso general, pero en usos específicos puede ofrecer una inteligencia tremenda
      El competidor de Tesla/Waymo de Nvidia usa un LLM de 7B y un modelo de difusión de 2B; si eso pudiera correrse a esa velocidad, el costo podría bajar a una sola cifra frente a las soluciones existentes
    • Cuando lleguemos al punto en que el avance de los modelos se desacelere mucho, este tipo de hardware probablemente será el futuro de los proveedores de LLM
      Incluso se podría argumentar que ya estamos cerca de ese punto
      Los hiperescaladores como AWS van a saber aprovechar bien estos chips para servir modelos que seguirán siendo válidos durante años
      Pero ahora mismo, sobre todo en modelos de pesos abiertos como Deepseek/Kimi/GLM, la calidad mejora mucho cada pocos meses
      Hasta entonces, no está claro cómo este enfoque podría ser más rentable que el hardware de propósito general
      Además, parece probable que una versión pequeña de esto termine dentro del hardware móvil, ofreciendo LLMs on-device muy rápidos y eficientes
  • Un movimiento bastante grande
    Google y los TPU parecen ir ya por la séptima generación, y si además se consideran intentos derivados como los LPU o el Wafer Scale Engine de Cerebras, da la impresión de que hubo mucha más visión a futuro
    Aun así, mi primera impresión es que este chip parece estar apuntando no al entrenamiento sino a la inferencia, y eso también es una elección interesante

    • El entrenamiento es casi un costo único, y su eficiencia ya viene mejorando gracias a avances en arquitectura
      En cambio, la inferencia es un costo continuo y, con el tiempo, consume muchos más recursos, así que a largo plazo conviene más enfocarse en volverla mucho más eficiente
    • Ahora parece que el costo de inferencia ya es mayor que el costo de entrenamiento
      Nvidia es el rey de los chips de entrenamiento de propósito general, pero la inferencia sí puede especializarse
    • El Codex Spark 5.3 de Cerebras fue un gran fracaso
      La ventana de contexto es pequeña y el modelo ya es viejo
      Aun así, estaría bien que mejorara y permitiera disfrutar GPT 5.5 a 1000 tokens por segundo
    • Dicen que “en las pruebas iniciales, Jalapeño aumentará considerablemente el rendimiento por vatio frente al estado del arte actual”, y ahí empieza a verse qué es lo realmente importante
      La expresión es ambigua, pero los TPU también hacen afirmaciones parecidas
      Sigo creyendo que el memo de Google de “nosotros no tenemos foso” sigue siendo correcto. Si no lo conoces, consulta https://newsletter.semianalysis.com/p/google-we-have-no-moat...
      La situación actual parece volverse más parecida a la competencia de hardware que protagonizaron IBM, DEC, Cray y Sun entre los 60 y los 90
      La historia no se repite, pero suele rimar, y da la impresión de que estos esfuerzos seguirán una trayectoria similar
  • Viendo la velocidad del avance de la IA y cómo la IA ayuda a crear una IA más rápida y mejor, sigo preguntándome si este hardware quedará obsoleto antes de recuperar una inversión significativa
    Ya es posible ejecutar modelos enormes de IA con menos recursos mediante cuantización y offloading, pero eso es apenas el comienzo
    Algún día, quizá no muy lejano, podría aparecer un avance que permita correr bien un LLM gigante de clase 200B en una desktop Dell de hace 5 años
    Suena a locura, pero basta con ver el tamaño de los primeros discos duros
    El IBM 350 almacenaba 3.5Mb en discos con 50 platos de 24 pulgadas de diámetro, y se alquilaba por 35,000 dólares a valor actual
    https://www.computerhistory.org/storageengine/first-commerci...
    Compáralo con un SSD de varios terabytes y aplica esa misma mejora a las arquitecturas actuales de LLM y a la forma en que se ejecutan
    Con ayuda de la IA, pronto podría llegar un salto así, y los centros de datos llenos de tarjetas Nvidia de última generación podrían volverse obsoletos casi de la noche a la mañana

    • Si existe ese tipo de avance, entonces quizá también podría usarse para ejecutar hoy un modelo de 200T en un centro de datos
    • Es una idea interesante, pero la comparación con los discos duros probablemente no es justa
      El IBM 350 se comercializó hace 70 años, y pasaron 70 años antes de que hoy alguien pudiera compararlo con un SSD de varios TB
      Además, no hay garantía de que la ley de Moore vaya a aplicarse a los LLM durante las próximas décadas
    • Por la paradoja de Jevons y las leyes de escalado, no creo que eso ocurra
      Si los modelos más grandes siempre son mejores, y parece que realmente lo son, entonces siempre habrá necesidad de hardware de alto rendimiento
    • Los avances en computación normalmente no reducen su uso, sino que lo aumentan todavía más
    • Algún día probablemente aparecerá hardware dedicado para LLM distinto de las GPU
      Existen los TPU, pero son sobre todo para centros de datos, y las GPU originalmente fueron adaptadas desde aplicaciones gráficas
      Si la demanda de centros de datos se enfría, la innovación podría acelerarse de verdad
  • Hay una parte de la que no se está hablando mucho aquí
    En una entrevista, el CEO de Broadcom, Hock Tan, dijo que este acelerador ha mostrado hasta ahora un ahorro de costos del 50% frente a las unidades gráficas de procesamiento de IA típicas [0]
    El panorama cambia demasiado rápido y todavía hay demasiada fruta al alcance de la mano, así que discutir qué proveedor tiene un foso competitivo o si podrá recuperar la inversión no parece muy útil
    [0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...

    • Si el margen de las GPU es del 75%, que sea 50% más barato no tiene nada de sorprendente
    • La palabra “típicas” hace mucho trabajo aquí
      Podría referirse a chips mucho más antiguos que los que Nvidia vende hoy
  • Si el objetivo es “un despliegue inicial a fines de 2026 y luego una expansión durante los años siguientes”, entonces parece el tipo de promesa futura que se destacará mucho en el material comercial del IPO después de salir a bolsa
    Todo anuncio antes de un IPO me genera escepticismo

    • La narrativa se siente como una jugada previa al IPO, y además parece una tapa de canasta de ropa sucia
      No me sorprendería si fuera humo
    • No sé de qué IPO están hablando
      Broadcom y Google, obviamente, ya cotizan en bolsa
  • Microsoft, Google y Amazon también hacen este tipo de cosas, pero ellos además tienen la infraestructura de centros de datos hiperescalables para alojar esos chips
    Diseñar un chip y llevarlo a tape-out es una pila totalmente distinta de empaquetado, enfriamiento, despliegue, suministro eléctrico y gestión de flotas
    Me pregunto de dónde van a sacar esa parte

    • No hay que olvidar Stargate
      Actualización: alguien en Twitter dijo que estaría alojado 50:50 entre Microsoft y Oracle
  • Antes hice que Opus 4.5 diseñara un motor de inferencia LLM basado en Verilog, incluyendo firmware y verificación automática: https://github.com/cpldcpu/smollm.c
    Desde luego está lejos de ser óptimo, pero confirmé que este enfoque de bajar el nivel de abstracción hasta la implementación es muy potente

    • Me pregunto si alguien puede recomendar tutoriales que valga la pena seguir para aprender Verilog y FPGA en general
      Todavía tengo por ahí una Tang Nano 9k, pero no confío en pedirle a Claude que me resuelva todo solo con vibe coding; me gustaría tener al menos una comprensión básica mínima