- Jalapeño es un acelerador especializado en inferencia de LLM y el primer resultado de una plataforma de cómputo multigeneracional creada junto con Broadcom
- Desde el inicio del diseño hasta el tape-out de fabricación tomó solo 9 meses, lo que se estima como el ciclo de desarrollo de ASIC más rápido de la historia en semiconductores avanzados de alto rendimiento
- En pruebas iniciales, logró una reducción de costos de alrededor del 50% frente a GPU de IA convencionales, y su rendimiento por watt también es muy superior al estado del arte actual
- Forma parte de una estrategia full-stack en la que diseñan directamente desde la arquitectura del chip hasta kernels, memoria y networking, con el objetivo de reducir la dependencia de GPU de Nvidia y expandirse más allá de una empresa de software hacia un proveedor de infraestructura de IA
- Está previsto que se despliegue desde finales de 2026 en centros de datos a escala de gigawatts junto con socios como Microsoft, lo que cobra relevancia ante la presión por demostrar rentabilidad antes de una IPO valorada en 1 billón de dólares
Presentación del chip Jalapeño
- El miércoles, OpenAI y Broadcom (NASDAQ: AVGO) presentaron Jalapeño, el primer Procesador de Inteligencia (Intelligence Processor) de OpenAI
- Es un acelerador diseñado pensando en el futuro de la inferencia de LLM, y el primer acelerador de IA de una plataforma de cómputo multigeneracional que ambas compañías desarrollan juntas
- El presidente y CEO de Broadcom, Hock Tan, y el presidente Charlie Kawwas entregaron personalmente muestras del chip al CEO de OpenAI, Sam Altman, y al presidente Greg Brockman
- Es un paso importante en la estrategia de OpenAI para dar el salto más allá de productos para consumidores y convertirse en un proveedor de infraestructura de IA
Estructura y rendimiento del chip
- Jalapeño no es un chip de propósito general adaptado a partir de aceleradores existentes para cargas de trabajo de IA, sino un diseño desde cero (blank-slate) para la inferencia moderna de LLM
- Es un ASIC que puede diseñarse para tareas específicas de IA; ofrece menos flexibilidad que las GPU de Nvidia, pero a menor costo
-
Rendimiento y eficiencia
- En pruebas iniciales, logró una reducción de costos de alrededor del 50% frente a GPU de IA convencionales (entrevista con Hock Tan)
- El rendimiento final aún se está midiendo, pero el rendimiento por watt muestra una mejora importante frente al estado del arte actual
- Al reducir el movimiento de datos y equilibrar recursos de cómputo, memoria y networking, logra que la utilización real se acerque al rendimiento máximo teórico
- En la imagen del chip publicada se observan 8 sitios HBM y el die de cómputo en el centro
-
Validación operativa
- Las muestras de ingeniería ya están ejecutando cargas de trabajo de ML en la frecuencia y potencia objetivo de producción, incluyendo GPT‑5.3‑Codex‑Spark
- Está previsto que se publique un informe técnico detallado en los próximos meses
- La implementación de silicio de Broadcom y su silicio de networking Tomahawk respaldan la producción masiva a gran escala
Tape-out en 9 meses, acelerado por modelos de OpenAI
- Desde el diseño inicial hasta el tape-out de fabricación, el desarrollo conjunto tomó solo 9 meses, lo que se estima como el ciclo de desarrollo de ASIC más rápido de la historia en semiconductores avanzados de alto rendimiento
- En parte del proceso de diseño y optimización se utilizaron modelos propios de OpenAI; Brockman comentó que el grado en que los modelos aceleraron el desarrollo fue "sorprendente"
- Los mismos modelos que se ofrecen a los usuarios podrían contribuir en el futuro a mejorar la infraestructura que los ejecuta
- Si la IA ayuda a los ingenieros a diseñar chips más rápido, eso podría traducirse en menores costos de cómputo en toda la industria y en un mayor acceso a IA avanzada
Plataforma multigeneracional y socios
- Jalapeño es la primera etapa de una plataforma de cómputo multigeneracional que apunta a un despliegue inicial a finales de 2026 y a expandirse durante los años siguientes
-
Estructura de colaboración
- OpenAI — diseño del acelerador, basado en un profundo entendimiento de los fundamentos de los LLM
- Broadcom — implementación del chip y tecnologías de networking y conectividad
- Celestica — experiencia en integración de boards, racks y sistemas
- El año pasado, OpenAI y Broadcom anunciaron un plan para desarrollar chips personalizados para cómputo a escala de 10 gigawatts, y ahora presentaron el primero de esos chips
-
Demanda explosiva
- El CEO de Broadcom, Hock Tan, señaló que esto permitirá desplegar centros de datos a escala de gigawatts con socios como Microsoft desde 2026, con planes de expansión tras un prototipo pequeño a finales de 2026
- Brockman dijo que "no es posible conseguir cómputo lo suficientemente rápido", y Tan afirmó que la demanda de seis clientes está en un nivel "literalmente imposible de cubrir" y que en 2027~2028 será igual o mayor
- El responsable del programa de hardware de OpenAI, Richard Ho, explicó que optimizaron la arquitectura alrededor de los kernels, el movimiento de memoria, el networking y los patrones de serving más importantes para los modelos de IA de frontera
Estrategia full-stack y panorama competitivo
- OpenAI ya no solo desarrolla modelos de frontera y construye productos, sino que también diseña directamente la infraestructura subyacente: arquitectura del chip, kernels, sistema de memoria, networking, scheduling, sistemas de despliegue y experiencia de producto
- Con esto, se suma al grupo de empresas full-stack de IA con silicio propio como Google (TPU), Amazon (Trainium) y Microsoft (Azure Maia 100)
-
Menor dependencia de Nvidia
- "Nadie quiere depender de Nvidia" (Ben Barringer, jefe de research tecnológico en Quilter Cheviot), en línea con la tendencia a diversificar las fuentes de suministro de chips
- OpenAI es uno de los mayores clientes de Nvidia, pero también ha firmado acuerdos de suministro con AMD (serie Instinct MI450) y Cerebras, entre otros
-
Implicaciones de negocio
- Mientras Nvidia se convirtió en la empresa más valiosa del mundo al suministrar componentes clave para centros de datos de IA, queda en evidencia el potencial de rentabilidad del mercado de infraestructura de IA
- Para OpenAI, ante una IPO con una valuación mencionada de 1 billón de dólares, reducir los costos de inferencia es clave para recuperar los enormes costos de entrenamiento y demostrar rentabilidad
- Las acciones de Broadcom han subido en 2026, hasta cerca de 7 veces su nivel de finales de 2022, reflejando los beneficios de esta colaboración
Democratización de la IA avanzada
- La inferencia es el punto donde la IA se encuentra con las personas, por lo que mejorar costo, velocidad y estabilidad se traduce directamente en respuestas más rápidas de ChatGPT, trabajo sin espera en Codex, productos de API más baratos y un acceso más estable cuando la demanda se dispara
- Hacer que los modelos avanzados sean disponibles, estables y asequibles para que más personas puedan usarlos todos los días es la clave de la democratización de la IA
- Esto ayuda a convertir la infraestructura en inteligencia útil para estudiantes, desarrolladores, pequeños negocios, investigadores y empresas: todos los que quieren aprender, crear y resolver problemas difíciles
1 comentarios
Opiniones de Hacker News
Me gustaría ver con más detalle la parte de “aceleramos el diseño y la optimización con modelos de OpenAI”
Con la redacción actual, parece una frase de marketing, como decir que el desarrollo fue más rápido gracias a Microsoft Office o a un monitor LG Ultrafine de 40 pulgadas y 5K
Si de verdad fuera algo tan grande como sugiere, OpenAI probablemente lo habría resaltado muchísimo más
No está claro si “diseño” significa que el diseño quedó terminado, ni si “producción” significa el inicio de la producción, es decir, el tape-out
Si fueron 9 meses desde el congelamiento de RTL hasta el tape-out, para un chip grande, complejo y de 3 nm es un plazo bastante normal, y considerando incluso problemas inesperados, ni siquiera resulta ligeramente impresionante
En cambio, si fue desde la etapa conceptual —es decir, cuando solo había un diagrama de bloques de arquitectura sin RTL— hasta el tape-out, entonces sí sería un plazo sorprendente, y lo más probable es que la realidad esté en algún punto intermedio
En un anuncio más concreto deberían usar hitos técnicos y gates reales
No hace falta necesariamente un modelo especializado aparte para usar modelos de lenguaje grandes en el flujo de trabajo de diseño de chips
La verificación del diseño también incluye mucha programación tradicional, así que puede beneficiarse de modelos de lenguaje grandes
No es algo completamente vacío; si hoy descargas software open source de diseño de chips, un modelo de lenguaje grande incluso puede ayudarte a empezar directamente con un chip pequeño
Es probable que las partes difíciles de este chip de inferencia Broadcom ya las hubiera diseñado, y que OpenAI simplemente le haya pasado las especificaciones que quería
Probablemente también se parezca bastante a un Google TPU
Dicen que “el acelerador de primera generación mejorará considerablemente el rendimiento por watt frente al estado del arte actual”, y me pregunto qué significa exactamente “considerablemente”
Vera Rubin está programado para envíos masivos a finales de este año, y se espera que tenga una eficiencia energética de inferencia 10 veces mejor que Blackwell[0]
Incluso si ya hicieron tape-out, entre corregir bugs, fabricar el chip, asignar HBM, diseñar racks, interconexión y desplegarlo en el centro de datos, probablemente falten al menos 12 meses, quizás más
Para cuando este chip entre en los centros de datos a gran escala, podría estar compitiendo contra Vera Rubin Ultra o Feynman
Personalmente creo que OpenAI no debió invertir en este proyecto
Todavía es demasiado pronto; debieron hacer como Anthropic, enfocarse en los modelos, ganar primero y luego meterse en proyectos así cuando ya hubiera rentabilidad
En IA existe un techo duro que es la energía, y eso representa un riesgo para OpenAI
Si tienes 1 GW, necesitas instalar solo los mejores chips, y si los chips de Nvidia son mejores, entonces este proyecto habrá sido una pérdida de miles de millones de dólares
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
El problema es que la frase puede significar solo lo segundo, pero está escrita para sonar como si fuera lo primero, y por eso cuesta confiar en ella
No tiene que ser necesariamente revolucionario; puede que el diseño asistido por IA simplemente haya encajado lo suficiente como para que valiera la pena crear un ASIC personalizado
Aunque no apareció en el texto de OpenAI, parece casi seguro que el chip lo fabricará TSMC [1]
Yo no estaba seguro de si Intel estaba a cargo
Broadcom ganó muchísimo dinero al convertirse en el socio de hardware de TPU de Google y compartir con Google la capacidad de producción de TSMC, y ahora parece estar haciendo lo mismo con OpenAI
Es una forma realmente astuta de aprovechar la fiebre del oro de la IA
Solo espero que no usen ese dinero para seguir exprimiendo a la industria del software, como pasó con VMWare y Bitnami
Me gustaría ver un chip de inferencia con los pesos integrados en parte de la ROM del chip
Habría un multiplicador por cada peso y, como son constantes, todo se convertiría en un conjunto simple de sumadores, por lo que el rendimiento de una canalización completa podría ser de un token por ciclo de reloj
Entonces un solo trozo de silicio podría atender simultáneamente a millones de usuarios, y del bus de salida podrían salir 500 millones de tokens por segundo
La desventaja es que el chip sería enorme, hasta el punto de ocupar una oblea completa
Los defectos a nivel de oblea quizá no sean un gran problema. Las redes neuronales tienden a tolerar que falten algunos pesos o que estén mal
Como la velocidad de la industria es tan alta, probablemente habría que pasar muy rápido de los pesos del modelo a la fabricación, hacer 50 obleas, usarlas durante un año y luego desecharlas cuando el modelo quede obsoleto
Es una técnica donde los datos, aquí los valores de multiplicación, pasan a formar parte del procesador, aquí parte del circuito multiplicador
Evita por completo, a nivel arquitectónico, el problema de “traer y procesar”
Como los datos están donde ocurre el cómputo, no se mueven y no hay latencia
Este enfoque parece más adecuado para modelos pequeños que para modelos frontier. Los modelos de punta cambian demasiado rápido
No ha llegado tan lejos como lo descrito, y aunque tiene muchísimos núcleos y RAM, los pesos todavía hay que cargarlos por software y, con modelos grandes, hay que hacer streaming dentro del chip
Aun así, sigue siendo un chip de oblea completa
En muchas tareas, podría estar bien poner los pesos en ROM
Pero no estoy seguro de que poner un multiplicador por cada peso sea una buena idea
Si se cuantiza a unos 2 bits quizá sea posible, pero si no, tal vez sea mejor poner una ROM pequeña cerca de cada multiplicador o de cada fila, para procesar N operaciones matriciales distintas sin mover datos desde lejos
Otra idea interesante es añadir una fila de unidades MAC a la DRAM para usar las filas de DRAM como vectores
Si el tamaño de fila es 64 Kbit, eso serían 8K pesos de 8 bits, y podrías mantener los pesos y el cómputo en el mismo chip
Aunque no sé si sería posible meter suficientes multiplicadores en un solo chip
Los arreglos sistólicos pueden tener de decenas de miles a cientos de miles, cada uno realizando una operación por ciclo de reloj
Es interesante porque parece que todavía queda muchísimo margen de mejora en eficiencia por explotar a nivel de chip
Me pregunto cómo ven a Taalas
Dicen que literalmente hornean modelos LLM en el silicio y dejan algo de memoria onboard para ajuste fino
Afirman obtener grandes ventajas en costo y latencia
Se puede ver una demo muy rápida en https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
Por eso Google empezó a hacer TPUs hace más de 10 años
Recuerdo la polémica de cuando Google despidió a Timnit Gebru por un paper que calculaba el impacto ambiental de los LLM tomando las GPUs como referencia e ignorando la eficiencia de las TPU
Por esa gran brecha de eficiencia, Jeff Dean al parecer se enfadó muchísimo
Entonces sería extremadamente difícil venderlo
No me convence la idea de meter en el chip un único modelo que nunca cambie
Me pregunto cuánto más caro saldría el silicio si se usara ROM regrabable para los pesos
Eso permitiría ajustar fino el modelo objetivo del diseño y reducir la preocupación de que el modelo se vuelva obsoleto
En agentes de programación sí sería una mejora relevante, y en robótica sería una revolución total
Un modelo de 8B no sirve para uso general, pero en usos específicos puede ofrecer una inteligencia tremenda
El competidor de Tesla/Waymo de Nvidia usa un LLM de 7B y un modelo de difusión de 2B; si eso pudiera correrse a esa velocidad, el costo podría bajar a una sola cifra frente a las soluciones existentes
Incluso se podría argumentar que ya estamos cerca de ese punto
Los hiperescaladores como AWS van a saber aprovechar bien estos chips para servir modelos que seguirán siendo válidos durante años
Pero ahora mismo, sobre todo en modelos de pesos abiertos como Deepseek/Kimi/GLM, la calidad mejora mucho cada pocos meses
Hasta entonces, no está claro cómo este enfoque podría ser más rentable que el hardware de propósito general
Además, parece probable que una versión pequeña de esto termine dentro del hardware móvil, ofreciendo LLMs on-device muy rápidos y eficientes
Un movimiento bastante grande
Google y los TPU parecen ir ya por la séptima generación, y si además se consideran intentos derivados como los LPU o el Wafer Scale Engine de Cerebras, da la impresión de que hubo mucha más visión a futuro
Aun así, mi primera impresión es que este chip parece estar apuntando no al entrenamiento sino a la inferencia, y eso también es una elección interesante
En cambio, la inferencia es un costo continuo y, con el tiempo, consume muchos más recursos, así que a largo plazo conviene más enfocarse en volverla mucho más eficiente
Nvidia es el rey de los chips de entrenamiento de propósito general, pero la inferencia sí puede especializarse
La ventana de contexto es pequeña y el modelo ya es viejo
Aun así, estaría bien que mejorara y permitiera disfrutar GPT 5.5 a 1000 tokens por segundo
La expresión es ambigua, pero los TPU también hacen afirmaciones parecidas
Sigo creyendo que el memo de Google de “nosotros no tenemos foso” sigue siendo correcto. Si no lo conoces, consulta https://newsletter.semianalysis.com/p/google-we-have-no-moat...
La situación actual parece volverse más parecida a la competencia de hardware que protagonizaron IBM, DEC, Cray y Sun entre los 60 y los 90
La historia no se repite, pero suele rimar, y da la impresión de que estos esfuerzos seguirán una trayectoria similar
Viendo la velocidad del avance de la IA y cómo la IA ayuda a crear una IA más rápida y mejor, sigo preguntándome si este hardware quedará obsoleto antes de recuperar una inversión significativa
Ya es posible ejecutar modelos enormes de IA con menos recursos mediante cuantización y offloading, pero eso es apenas el comienzo
Algún día, quizá no muy lejano, podría aparecer un avance que permita correr bien un LLM gigante de clase 200B en una desktop Dell de hace 5 años
Suena a locura, pero basta con ver el tamaño de los primeros discos duros
El IBM 350 almacenaba 3.5Mb en discos con 50 platos de 24 pulgadas de diámetro, y se alquilaba por 35,000 dólares a valor actual
https://www.computerhistory.org/storageengine/first-commerci...
Compáralo con un SSD de varios terabytes y aplica esa misma mejora a las arquitecturas actuales de LLM y a la forma en que se ejecutan
Con ayuda de la IA, pronto podría llegar un salto así, y los centros de datos llenos de tarjetas Nvidia de última generación podrían volverse obsoletos casi de la noche a la mañana
El IBM 350 se comercializó hace 70 años, y pasaron 70 años antes de que hoy alguien pudiera compararlo con un SSD de varios TB
Además, no hay garantía de que la ley de Moore vaya a aplicarse a los LLM durante las próximas décadas
Si los modelos más grandes siempre son mejores, y parece que realmente lo son, entonces siempre habrá necesidad de hardware de alto rendimiento
Existen los TPU, pero son sobre todo para centros de datos, y las GPU originalmente fueron adaptadas desde aplicaciones gráficas
Si la demanda de centros de datos se enfría, la innovación podría acelerarse de verdad
Hay una parte de la que no se está hablando mucho aquí
En una entrevista, el CEO de Broadcom, Hock Tan, dijo que este acelerador ha mostrado hasta ahora un ahorro de costos del 50% frente a las unidades gráficas de procesamiento de IA típicas [0]
El panorama cambia demasiado rápido y todavía hay demasiada fruta al alcance de la mano, así que discutir qué proveedor tiene un foso competitivo o si podrá recuperar la inversión no parece muy útil
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
Podría referirse a chips mucho más antiguos que los que Nvidia vende hoy
Si el objetivo es “un despliegue inicial a fines de 2026 y luego una expansión durante los años siguientes”, entonces parece el tipo de promesa futura que se destacará mucho en el material comercial del IPO después de salir a bolsa
Todo anuncio antes de un IPO me genera escepticismo
No me sorprendería si fuera humo
Broadcom y Google, obviamente, ya cotizan en bolsa
Microsoft, Google y Amazon también hacen este tipo de cosas, pero ellos además tienen la infraestructura de centros de datos hiperescalables para alojar esos chips
Diseñar un chip y llevarlo a tape-out es una pila totalmente distinta de empaquetado, enfriamiento, despliegue, suministro eléctrico y gestión de flotas
Me pregunto de dónde van a sacar esa parte
Actualización: alguien en Twitter dijo que estaría alojado 50:50 entre Microsoft y Oracle
Antes hice que Opus 4.5 diseñara un motor de inferencia LLM basado en Verilog, incluyendo firmware y verificación automática: https://github.com/cpldcpu/smollm.c
Desde luego está lejos de ser óptimo, pero confirmé que este enfoque de bajar el nivel de abstracción hasta la implementación es muy potente
Todavía tengo por ahí una Tang Nano 9k, pero no confío en pedirle a Claude que me resuelva todo solo con vibe coding; me gustaría tener al menos una comprensión básica mínima