- Cerebras presentó el modelo de IA Qwen3-235B, ofreciendo rendimiento de inferencia inmediato con generación de 1,500 tokens por segundo
- Permite productividad y generación de código 30 veces más rápidas a 1/10 del costo frente a modelos cerrados existentes
- El soporte de contexto de 131K hace posible el manejo de bases de código grandes y documentos complejos
- En colaboración con Cline, amplía la experiencia de generación de código en tiempo real dentro de Microsoft VS Code
- Con este lanzamiento, ofrece una alternativa de alto rendimiento y costo razonable basada en código abierto frente a OpenAI y Anthropic
Qwen3-235B: lanzamiento del modelo de inferencia de IA ultrarrápido de Cerebras y sus principales logros
El modelo de inferencia de IA más rápido del mundo se presenta en Cerebras Inference Cloud
- Cerebras Systems lanzó oficialmente Qwen3-235B el 8 de julio de 2025, presentando un nuevo modelo de inferencia de IA con soporte total de hasta 131K de contexto
- Este modelo combina capacidades de inteligencia de nivel frontier y rendimiento de inferencia ultrarrápido con un costo de 1/10 frente a alternativas cerradas, planteando una transformación en la adopción empresarial de IA
Inteligencia de nivel modelo frontier
- Qwen3-235B de Alibaba demostró, mediante la evaluación independiente de Artificial Analysis, un rendimiento comparable en benchmarks de ciencia, código y conocimiento general frente a modelos punteros como Claude 4 Sonnet, Gemini 2.5 Flash y DeepSeek R1
- Gracias a su arquitectura Mixture-of-Experts, maximiza la eficiencia computacional y se ofrece a 0.60 dólares por millón de tokens de entrada y 1.20 dólares por millón de tokens de salida, permitiendo un uso extremadamente económico frente a modelos cerrados existentes
Velocidad de inferencia: de minutos a segundos
- La IA de inferencia tradicional suele tardar varios minutos incluso en consultas comunes
- Usando el Wafer Scale Engine, Qwen3-235B alcanza una salida de 1,500 tokens por segundo, reduciendo el tiempo de respuesta de 1 a 2 minutos a 0.6 segundos
- Esto permite una respuesta inmediata en generación de código, razonamiento y flujos de trabajo RAG a gran escala, estableciendo un nuevo estándar para el rendimiento de IA en tiempo real
- Según las mediciones de Artificial Analysis, fue evaluado como el único modelo de IA frontier del mundo que genera más de 1,000 tokens por segundo
Contexto de 131K: soporte para generación de código en entornos reales
- Con el lanzamiento de Qwen3-235B, Cerebras amplía el soporte de contexto 4 veces, de los 32K existentes a 131K
- Esto permite inferir de una sola vez sobre bases de código extensas y documentos complejos, aumentando significativamente la viabilidad del desarrollo para entornos de producción con generación simultánea de código en decenas de archivos y decenas de miles de líneas
- Mientras que con 32K de contexto solo era posible una generación de código simple, el contexto de 131K ofrece soporte directo para el desarrollo de aplicaciones grandes
- Con ello, la empresa puede responder de forma directa al mercado empresarial de generación de código, el sector más grande y de más rápido crecimiento dentro de la IA generativa
Integración reforzada en VS Code mediante una alianza estratégica con Cline
- Cerebras firmó una alianza con Cline, el mayor agente de programación para VS Code, con más de 1.8 millones de instalaciones
- Todos los usuarios de Cline pueden usar directamente Qwen3-32B (contexto de 64K, gratuito) desde el editor, y más adelante también se dará soporte a Qwen3-235B (contexto de 131K)
- Se prevé ofrecer una velocidad de generación de código entre 10 y 20 veces mayor frente a competidores como DeepSeek R1
- Saoud Rizwan, CEO de Cline, destacó que “gracias a la inferencia en tiempo real, los desarrolladores pueden explorar código y problemas mientras mantienen un flujo de trabajo al ritmo de su pensamiento”
Una alternativa frontier de IA con 30 veces más velocidad y 1/10 del costo
- Este lanzamiento de Cerebras ofrece una nueva opción para los desarrolladores que buscan inteligencia y generación de código de modelos abiertos en un nivel similar al de modelos comerciales como OpenAI y Anthropic
- En particular, implementa de forma única a nivel mundial una velocidad de inferencia inmediata superior a 1,500 tokens por segundo, mejorando la productividad 10 veces frente a soluciones basadas en GPU
- El costo por token también es inferior a 1/10 frente a competidores, ofreciendo IA ultrarrápida a un costo razonable
Acerca de Cerebras Systems
- Cerebras Systems es un equipo de expertos en arquitectura computacional, deep learning, investigación e ingeniería enfocado en innovar la infraestructura de cómputo a gran escala para IA
- Su producto principal, el sistema CS-3, integra el procesador comercial de IA más grande del mundo (Wafer-Scale Engine-3) y permite construir supercomputadoras de IA de gran escala mediante clustering fácil y rápido
- Cerebras Inference ofrece velocidades de inferencia innovadoras y ya se utiliza en instituciones de investigación, empresas y gobiernos para desarrollar modelos especializados de alto rendimiento y para entrenamiento open source
- Ofrece soluciones tanto en Cerebras Cloud como en entornos on-premise
1 comentarios
Opiniones de Hacker News
Esta noticia podría ser “vieja”; parece ser del 8 de julio y da la impresión de que la presentaron por confusión con el lanzamiento de Qwen 3 coder 405B, anunciado ayer. Las especificaciones de ambos modelos son distintas
Si esto fuera cuantización fp16 completa, harían falta 2 TB de memoria para usar el contexto completo de 131k. Como cada chip de Cerebras tiene 44 GB de SRAM, habría que conectar 45 en serie, y si cada uno cuesta $3M, serían $135M en total. En comparación, con dos DGX B200 puedes tener 2.8 TB por $1M. O sea, $1M contra $135M. A menos que se trate de trabajos de alto valor que requieran una velocidad de inferencia brutalmente alta, como hedge funds o mercados financieros, no parece eficiente. Si algún día se pudiera ejecutar un modelo al nivel de Claude Opus 4 (o superior) con decenas de millones de tokens de contexto y a 1500 tokens por segundo por muy poco dinero, ni me imagino lo que pasaría. Parece que todavía hacen falta varias generaciones más de avance en hardware
Configuré un proxy de litellm, lo conecté a la nueva API de Cerebras con Qwen-235B y le enganché Aider para probarlo. No es mejor que Claude code, pero la velocidad es brutal. También probé Aider con el prompt filtrado de claude code, pero no funcionó como quería. Parece que el prompt de Claude code está optimizado para Claude. Aun así, valió la pena intentarlo y siento que tiene mucho potencial. Aider empieza a escupir texto rapidísimo, instala cosas, hace llamadas web y termina. De verdad pasa en un instante. Para reproducir mi entorno, puedes usar esta configuración:
Cómo ejecutarlo:
Y luego:
Instala los paquetes necesarios con pip o similar. En
prompt.txt, busca y guarda por tu cuenta el prompt filtrado de claude codeEstoy esperando con ansias que Qwen 3 coder sea compatible con Cerebras. Yo corro muchos loops de agentes, y la velocidad de ejecución comprime el tiempo de una forma brutal. Si un modelo al nivel de Claude 4 Sonnet corriera a 1000~1500 tokens/segundo, sería una verdadera revolución. Si quieres hacerte una idea de esa velocidad, puedes probarla tú mismo en la página de Cerebras Inference, en la API, o en “Flash Answers” de Mistral / Le Chat (basado en Cerebras). Hacer iteraciones de código a 1000 tok/s se siente como magia
La velocidad sin duda es impresionante, pero por mi experiencia es muy difícil conseguir de Cerebras límites de tasa o cuotas de tokens realmente utilizables en producción. Por eso no podemos diseñar sistemas sobre su plataforma y usamos otros vendors. Incluso después de hablar bastante con el equipo comercial, nos dijeron que no se podía
Me pregunto si alguien que haya usado mucho Claude Code y sonnet-4 ha hecho pruebas comparando Claude Code con Qwen3-Coder. Me tienta la velocidad que ofrece Cerebras, pero por más rápido que sea, si la calidad del modelo es peor no pienso cambiarme
Dicen que el contexto es “Full 131k”, pero en realidad es 262144, el doble, y con YaRN a 8x dicen que llega hasta 2 millones. En realidad, Cerebras también tiene un límite teórico de longitud de contexto, pero eso viene de la limitación de la arquitectura Transformer: el requerimiento de memoria crece casi linealmente y el de cómputo se cuadruplica. O sea, parece que Cerebras tampoco puede aprovechar al 100% el tema del contexto largo. Además, me pregunto si los clientes pueden saber exactamente qué esquema de cuantización están usando
La velocidad de verdad impresiona. Cambiando un poco de tema, me da curiosidad cómo vienen modelos como Qwen o Kimi en cuanto a censura o sesgos de su país de origen
Cerebras es uno de los logros tecnológicos más locos (en el buen sentido) que han salido de Silicon Valley en la última década. Cuando conocí a Andy hace 7 u 8 años, me hablaba de un chip del tamaño de un plato de cena y 6 toneladas de sujeción... me parecía absurdo. Pero realmente lo construyeron, y ahora se ve que fue una apuesta muy adelantada a su tiempo
Estoy buscando un entorno local de desarrollo con qwen en Macbook. Probé la combinación localforge + mlx_lm.server; en la página dicen que lograron una prueba de concepto, pero en la práctica me aparece el error “empty response”. Si alguien tuvo una experiencia parecida, agradecería consejos