- Una versión pequeña de GPT‑5.3‑Codex diseñada para codificación en tiempo real, que ofrece velocidades de más de 1000 tokens/segundo
- Un modelo solo de texto basado en una ventana de contexto de 128k, especializado en correcciones inmediatas de código y trabajo iterativo
- La introducción de una ruta de respuesta basada en WebSocket reduce la latencia de respuesta en un 80%, el overhead por token en un 30% y el tiempo hasta la salida del primer token en un 50%
- Desarrollado en colaboración con Cerebras, funciona en un entorno de inferencia de alta velocidad impulsado por Wafer Scale Engine 3
- El primer modelo de una estrategia Codex de doble modo que combina trabajo autónomo de larga duración y colaboración en tiempo real
Resumen de GPT‑5.3‑Codex‑Spark
- GPT‑5.3‑Codex‑Spark es una versión pequeña de GPT‑5.3‑Codex y el primer modelo diseñado para tareas de codificación en tiempo real
- Alcanza velocidades de generación de más de 1000 tokens/segundo sobre hardware de ultra baja latencia
- Ofrece capacidad de respuesta inmediata en tareas reales de programación
- Es el primer modelo desarrollado mediante una colaboración con Cerebras, y representa el primer hito de la alianza entre OpenAI y Cerebras
- Se ofrece como research preview para usuarios de ChatGPT Pro, con el objetivo de realizar experimentos iniciales y recopilar retroalimentación
Funciones principales y rendimiento
- Admite una ventana de contexto de 128k y actualmente se ofrece como un modelo solo de texto
- En los benchmarks SWE‑Bench Pro y Terminal‑Bench 2.0, muestra mejor rendimiento en menos tiempo que GPT‑5.3‑Codex
- Con optimizaciones centradas en la velocidad, su forma de trabajo predeterminada es ligera y orientada a objetivos, y no ejecuta pruebas automáticamente a menos que se le solicite
- Permite colaboración en tiempo real, de modo que el usuario puede interrumpir y redirigir el avance del modelo mientras ve resultados inmediatos
Optimización de latencia e infraestructura
- Además de la velocidad del modelo, se realizaron mejoras para reducir la latencia de toda la canalización de solicitud-respuesta
- 80% menos overhead de ida y vuelta entre cliente y servidor
- 30% menos overhead por token y 50% menos tiempo hasta la salida del primer token
- Para lograrlo, se aplicaron una conexión persistente basada en WebSocket y optimizaciones internas en la Responses API
- Estas mejoras están previstas no solo para Codex‑Spark, sino para todos los modelos
Integración con hardware de Cerebras
- Codex‑Spark se ejecuta sobre Cerebras Wafer Scale Engine 3, proporcionando una capa de inferencia centrada en la latencia
- OpenAI colaboró con Cerebras para integrar esta ruta en el stack de serving de producción existente, logrando un entorno operativo consistente en todo Codex
- La infraestructura GPU sigue siendo la base para entrenamiento e inferencia, mientras que Cerebras se especializa en cargas de trabajo de ultra baja latencia, cumpliendo un rol complementario
- Es posible combinar GPU y Cerebras dentro de una sola carga de trabajo para lograr un rendimiento óptimo
Despliegue y acceso
- Codex‑Spark comienza a estar disponible como research preview para usuarios de ChatGPT Pro en la app de Codex, CLI y extensión de VS Code
- Se aplica un límite de uso dedicado (rate limit), que puede ajustarse según la demanda
- Se está brindando acceso a la API a algunos socios de diseño para recopilar retroalimentación sobre formas de integración del producto
- Durante las próximas semanas, se ampliará el alcance del acceso y se ajustará la integración con base en cargas de trabajo reales
Seguridad y dirección futura
- Codex‑Spark incluye el mismo entrenamiento de seguridad que los modelos principales existentes y superó las evaluaciones relacionadas con ciberseguridad
- Los resultados de la evaluación confirmaron que no alcanza el umbral de capacidades de alto riesgo en ciberseguridad ni en biología
- Codex está evolucionando hacia una combinación de dos modos: razonamiento de ejecución prolongada y trabajo iterativo colaborativo en tiempo real
- En el futuro, se prevé ampliar funciones como entrada multimodal, modelos más grandes y contextos más extensos
- La inferencia ultrarrápida acelera el proceso de convertir ideas en software ejecutable de inmediato y ofrece una experiencia de interacción natural
1 comentarios
Comentarios en Hacker News
Ojalá se pudieran subir imágenes a HN. El chip WSE-3 es realmente gigantesco
Este chip mide 46,255 mm², incluye 4 billones de transistores y ofrece 125 petaflops de cómputo con 900 mil núcleos optimizados para IA. Eso es 19 veces más transistores y 28 veces más capacidad de cómputo que el NVIDIA B200
Más detalles en la página oficial de Cerebras y en la imagen 1, imagen 2
Yo uso agentes de código para generar automáticamente decks de diapositivas web. Defino una “diapositiva maestra” como componente y le aplico las reglas de branding y los assets de la empresa. Con solo meter el contenido y los prompts, sale una presentación limpia
Lo que de verdad quiero es un modo de improvisación (improv mode). Durante la presentación, según las preguntas del público o ideas que surjan al momento, que me sugiera 3 posibles diapositivas siguientes, elija una y luego vuelva al flujo principal.
Por ejemplo, si se menciona una noticia o un paper, que genere automáticamente una diapositiva con captura de pantalla y código QR, y luego regrese al flujo de la presentación. Si se combina voz en tiempo real + generación de código, creo que las herramientas de presentación serían mucho más útiles
Probé gpt-5.3-codex-spark en Codex CLI, y aunque es rapidísimo, se siente como un modelo pequeño.
Medí el rendimiento con mi prueba “bluey bench” (benchmark de sistema de archivos), y mientras más pequeño es el modelo, peor es la eficiencia de contexto y más seguido ocurre la compacción.
Aun así, en velocidad es muchísimo más rápido que la generación anterior
Creo que Cerebras sigue siendo una empresa subestimada. Un chip del tamaño de un plato que realmente funciona, y además es más rápido que cualquier otra cosa en uso real. Es una tecnología impresionante
Como la infraestructura eléctrica es el cuello de botella, en EE. UU. no se pueden construir grandes plantas de generación en poco tiempo. Al final, parece que después de TPUv8 Google dominará el mercado
Mi benchmark Pelican muestra visualmente la diferencia de calidad entre GPT-5.3-Codex-Spark y el GPT-5.3-Codex completo
Más detalles en esta entrada de blog
La idea de cola de prioridad / offload de cargas de trabajo por niveles usando agentes de código me parece interesante.
Si el 60% del trabajo son ediciones simples o refactorizaciones, lo importante es baja latencia y alto procesamiento de tokens.
Hace poco salió un plugin de Batch API para Claude, y Nvidia y Google también están preparando silicio personalizado para inferencia (artículo)
Apenas han pasado 20 minutos desde que se convirtió en el estándar de la industria, y me sorprende que todavía haya gente usando GPT-5.3-Codex
Es posible que OpenAI esté probando esto en Openrouter con el nombre Aurora Alpha.
Corrí un proyecto pequeño con Aider y procesó 10 mil tokens de entrada y 1,000 de salida a 500 tokens por segundo
Vi la frase “los modelos más recientes pueden trabajar de forma autónoma durante horas o días”, pero todavía no he visto resultados realmente útiles
Por fin veo que una de las tres grandes está usando Cerebras. Llevaba mucho tiempo esperando este día