3 puntos por GN⁺ 2026-02-13 | 1 comentarios | Compartir por WhatsApp
  • Una versión pequeña de GPT‑5.3‑Codex diseñada para codificación en tiempo real, que ofrece velocidades de más de 1000 tokens/segundo
  • Un modelo solo de texto basado en una ventana de contexto de 128k, especializado en correcciones inmediatas de código y trabajo iterativo
  • La introducción de una ruta de respuesta basada en WebSocket reduce la latencia de respuesta en un 80%, el overhead por token en un 30% y el tiempo hasta la salida del primer token en un 50%
  • Desarrollado en colaboración con Cerebras, funciona en un entorno de inferencia de alta velocidad impulsado por Wafer Scale Engine 3
  • El primer modelo de una estrategia Codex de doble modo que combina trabajo autónomo de larga duración y colaboración en tiempo real

Resumen de GPT‑5.3‑Codex‑Spark

  • GPT‑5.3‑Codex‑Spark es una versión pequeña de GPT‑5.3‑Codex y el primer modelo diseñado para tareas de codificación en tiempo real
    • Alcanza velocidades de generación de más de 1000 tokens/segundo sobre hardware de ultra baja latencia
    • Ofrece capacidad de respuesta inmediata en tareas reales de programación
  • Es el primer modelo desarrollado mediante una colaboración con Cerebras, y representa el primer hito de la alianza entre OpenAI y Cerebras
  • Se ofrece como research preview para usuarios de ChatGPT Pro, con el objetivo de realizar experimentos iniciales y recopilar retroalimentación

Funciones principales y rendimiento

  • Admite una ventana de contexto de 128k y actualmente se ofrece como un modelo solo de texto
  • En los benchmarks SWE‑Bench Pro y Terminal‑Bench 2.0, muestra mejor rendimiento en menos tiempo que GPT‑5.3‑Codex
  • Con optimizaciones centradas en la velocidad, su forma de trabajo predeterminada es ligera y orientada a objetivos, y no ejecuta pruebas automáticamente a menos que se le solicite
  • Permite colaboración en tiempo real, de modo que el usuario puede interrumpir y redirigir el avance del modelo mientras ve resultados inmediatos

Optimización de latencia e infraestructura

  • Además de la velocidad del modelo, se realizaron mejoras para reducir la latencia de toda la canalización de solicitud-respuesta
    • 80% menos overhead de ida y vuelta entre cliente y servidor
    • 30% menos overhead por token y 50% menos tiempo hasta la salida del primer token
  • Para lograrlo, se aplicaron una conexión persistente basada en WebSocket y optimizaciones internas en la Responses API
  • Estas mejoras están previstas no solo para Codex‑Spark, sino para todos los modelos

Integración con hardware de Cerebras

  • Codex‑Spark se ejecuta sobre Cerebras Wafer Scale Engine 3, proporcionando una capa de inferencia centrada en la latencia
  • OpenAI colaboró con Cerebras para integrar esta ruta en el stack de serving de producción existente, logrando un entorno operativo consistente en todo Codex
  • La infraestructura GPU sigue siendo la base para entrenamiento e inferencia, mientras que Cerebras se especializa en cargas de trabajo de ultra baja latencia, cumpliendo un rol complementario
  • Es posible combinar GPU y Cerebras dentro de una sola carga de trabajo para lograr un rendimiento óptimo

Despliegue y acceso

  • Codex‑Spark comienza a estar disponible como research preview para usuarios de ChatGPT Pro en la app de Codex, CLI y extensión de VS Code
  • Se aplica un límite de uso dedicado (rate limit), que puede ajustarse según la demanda
  • Se está brindando acceso a la API a algunos socios de diseño para recopilar retroalimentación sobre formas de integración del producto
  • Durante las próximas semanas, se ampliará el alcance del acceso y se ajustará la integración con base en cargas de trabajo reales

Seguridad y dirección futura

  • Codex‑Spark incluye el mismo entrenamiento de seguridad que los modelos principales existentes y superó las evaluaciones relacionadas con ciberseguridad
  • Los resultados de la evaluación confirmaron que no alcanza el umbral de capacidades de alto riesgo en ciberseguridad ni en biología
  • Codex está evolucionando hacia una combinación de dos modos: razonamiento de ejecución prolongada y trabajo iterativo colaborativo en tiempo real
    • En el futuro, se prevé ampliar funciones como entrada multimodal, modelos más grandes y contextos más extensos
  • La inferencia ultrarrápida acelera el proceso de convertir ideas en software ejecutable de inmediato y ofrece una experiencia de interacción natural

1 comentarios

 
GN⁺ 2026-02-13
Comentarios en Hacker News
  • Ojalá se pudieran subir imágenes a HN. El chip WSE-3 es realmente gigantesco
    Este chip mide 46,255 mm², incluye 4 billones de transistores y ofrece 125 petaflops de cómputo con 900 mil núcleos optimizados para IA. Eso es 19 veces más transistores y 28 veces más capacidad de cómputo que el NVIDIA B200
    Más detalles en la página oficial de Cerebras y en la imagen 1, imagen 2

    • Parece que generaría muchísimo calor, así que el sistema de enfriamiento debe ser clave. Ojalá se alimente con energía renovable
  • Yo uso agentes de código para generar automáticamente decks de diapositivas web. Defino una “diapositiva maestra” como componente y le aplico las reglas de branding y los assets de la empresa. Con solo meter el contenido y los prompts, sale una presentación limpia
    Lo que de verdad quiero es un modo de improvisación (improv mode). Durante la presentación, según las preguntas del público o ideas que surjan al momento, que me sugiera 3 posibles diapositivas siguientes, elija una y luego vuelva al flujo principal.
    Por ejemplo, si se menciona una noticia o un paper, que genere automáticamente una diapositiva con captura de pantalla y código QR, y luego regrese al flujo de la presentación. Si se combina voz en tiempo real + generación de código, creo que las herramientas de presentación serían mucho más útiles

    • Me parece genial esta idea de presentaciones probabilísticas. El resultado podría ser sorprendente o chistoso
    • En Octigen estamos construyendo casi exactamente eso. Puedo dar acceso a la demo o a la versión alfa
    • Hice algo parecido en un hackathon. Era un sistema que ajustaba la velocidad del teleprompter según el tono y la velocidad del habla del presentador. Extender eso a un modo de improvisación sería realmente interesante
    • Como profesor que pasa demasiado tiempo preparando clases, me gustaría probar un sistema así en el aula
    • Tengo curiosidad por ver si puedes mostrar un ejemplo real
  • Probé gpt-5.3-codex-spark en Codex CLI, y aunque es rapidísimo, se siente como un modelo pequeño.
    Medí el rendimiento con mi prueba “bluey bench” (benchmark de sistema de archivos), y mientras más pequeño es el modelo, peor es la eficiencia de contexto y más seguido ocurre la compacción.
    Aun así, en velocidad es muchísimo más rápido que la generación anterior

    • Ojalá bluey bench se convierta en el benchmark estándar para todos los modelos
    • Me pregunto si lo comparaste con Opus 4.6 (con thinking desactivado). Ese modelo también es bastante rápido
    • El nombre se parece al Codex anterior, pero su rendimiento es mucho menor, lo cual resulta extraño
  • Creo que Cerebras sigue siendo una empresa subestimada. Un chip del tamaño de un plato que realmente funciona, y además es más rápido que cualquier otra cosa en uso real. Es una tecnología impresionante

    • Ya parece que la era de Nvidia se está terminando. Google planea cuadruplicar la eficiencia de inferencia con TPUv9, y Cerebras es mucho más rápido en cargas de trabajo de agentes. Google también lleva ventaja en eficiencia energética y costos.
      Como la infraestructura eléctrica es el cuello de botella, en EE. UU. no se pueden construir grandes plantas de generación en poco tiempo. Al final, parece que después de TPUv8 Google dominará el mercado
    • En realidad, la razón por la que este chip es “del tamaño de un plato” es que usa el wafer completo como un solo chip. La integración a escala de wafer es una tecnología que se ha investigado durante décadas
    • La desventaja es que es demasiado caro
    • Aun así, los inversionistas siguen metiéndole dinero a Nvidia
    • Pero este chip cuesta más de 1 millón de dólares por unidad, y solo cabe 1 por rack. Le faltan densidad y capacidad de memoria. Al final, como Nvidia ya gastó 20 mil millones de dólares en adquirir Groq, también parece poco probable que Cerebras sea adquirida
  • Mi benchmark Pelican muestra visualmente la diferencia de calidad entre GPT-5.3-Codex-Spark y el GPT-5.3-Codex completo
    Más detalles en esta entrada de blog

    • Espero estos benchmarks cada vez que sale un modelo nuevo. Son útiles porque muestran varios factores a la vez. El blog también es excelente
  • La idea de cola de prioridad / offload de cargas de trabajo por niveles usando agentes de código me parece interesante.
    Si el 60% del trabajo son ediciones simples o refactorizaciones, lo importante es baja latencia y alto procesamiento de tokens.
    Hace poco salió un plugin de Batch API para Claude, y Nvidia y Google también están preparando silicio personalizado para inferencia (artículo)

    • Pero Batch API tiene latencias mucho más altas. Sirve para trabajos masivos, pero una sola ida y vuelta puede tardar hasta 24 horas. Además, Codex y los modelos Pro no están soportados en Batch API
    • Yo hice un MCP para que Claude pueda tercerizar desarrollo a GLM 4.7 on Cerebras. Le permite a Claude especificar el system prompt, los archivos de salida y los archivos de contexto, y eso ha mejorado mucho la velocidad de desarrollo
  • Apenas han pasado 20 minutos desde que se convirtió en el estándar de la industria, y me sorprende que todavía haya gente usando GPT-5.3-Codex

    • Yo también vi el título y pensé: “si hubo anuncio de GPT, entonces Google o Anthropic también habrán sacado algo”, y sí, estaba Gemini
  • Es posible que OpenAI esté probando esto en Openrouter con el nombre Aurora Alpha.
    Corrí un proyecto pequeño con Aider y procesó 10 mil tokens de entrada y 1,000 de salida a 500 tokens por segundo

  • Vi la frase “los modelos más recientes pueden trabajar de forma autónoma durante horas o días”, pero todavía no he visto resultados realmente útiles

    • Me gustaría preguntar cuánto lo has intentado. Opus 4.6 o GPT-5.3 sí han mejorado claramente en trabajos de larga duración. Por ejemplo, este proyecto y su página demo se completaron con un solo prompt (enlace al prompt)
    • Yo a veces dejo a Codex corriendo toda la noche para que encuentre bugs. Es realmente ideal para automatizar debugging
    • Es impresionante la capacidad del modelo de no detenerse y seguir quemando tokens
    • Me da risa la frase “nuestro modelo es tan lento que el trabajo toma horas”. No parece algo de presumir
    • Hace unos días Codex hizo por su cuenta la actualización a Vite 8 del sitio de mi empresa durante más de 3 horas. Ahora ya está aplicado en producción
  • Por fin veo que una de las tres grandes está usando Cerebras. Llevaba mucho tiempo esperando este día

    • Al principio evitaban la tecnología por no estar probada, pero ahora parece que lograron un gran salto en velocidad