1 puntos por GN⁺ 2025-07-24 | 1 comentarios | Compartir por WhatsApp
  • Cerebras presentó el modelo de IA Qwen3-235B, ofreciendo rendimiento de inferencia inmediato con generación de 1,500 tokens por segundo
  • Permite productividad y generación de código 30 veces más rápidas a 1/10 del costo frente a modelos cerrados existentes
  • El soporte de contexto de 131K hace posible el manejo de bases de código grandes y documentos complejos
  • En colaboración con Cline, amplía la experiencia de generación de código en tiempo real dentro de Microsoft VS Code
  • Con este lanzamiento, ofrece una alternativa de alto rendimiento y costo razonable basada en código abierto frente a OpenAI y Anthropic

Qwen3-235B: lanzamiento del modelo de inferencia de IA ultrarrápido de Cerebras y sus principales logros

El modelo de inferencia de IA más rápido del mundo se presenta en Cerebras Inference Cloud

  • Cerebras Systems lanzó oficialmente Qwen3-235B el 8 de julio de 2025, presentando un nuevo modelo de inferencia de IA con soporte total de hasta 131K de contexto
  • Este modelo combina capacidades de inteligencia de nivel frontier y rendimiento de inferencia ultrarrápido con un costo de 1/10 frente a alternativas cerradas, planteando una transformación en la adopción empresarial de IA

Inteligencia de nivel modelo frontier

  • Qwen3-235B de Alibaba demostró, mediante la evaluación independiente de Artificial Analysis, un rendimiento comparable en benchmarks de ciencia, código y conocimiento general frente a modelos punteros como Claude 4 Sonnet, Gemini 2.5 Flash y DeepSeek R1
  • Gracias a su arquitectura Mixture-of-Experts, maximiza la eficiencia computacional y se ofrece a 0.60 dólares por millón de tokens de entrada y 1.20 dólares por millón de tokens de salida, permitiendo un uso extremadamente económico frente a modelos cerrados existentes

Velocidad de inferencia: de minutos a segundos

  • La IA de inferencia tradicional suele tardar varios minutos incluso en consultas comunes
  • Usando el Wafer Scale Engine, Qwen3-235B alcanza una salida de 1,500 tokens por segundo, reduciendo el tiempo de respuesta de 1 a 2 minutos a 0.6 segundos
  • Esto permite una respuesta inmediata en generación de código, razonamiento y flujos de trabajo RAG a gran escala, estableciendo un nuevo estándar para el rendimiento de IA en tiempo real
  • Según las mediciones de Artificial Analysis, fue evaluado como el único modelo de IA frontier del mundo que genera más de 1,000 tokens por segundo

Contexto de 131K: soporte para generación de código en entornos reales

  • Con el lanzamiento de Qwen3-235B, Cerebras amplía el soporte de contexto 4 veces, de los 32K existentes a 131K
  • Esto permite inferir de una sola vez sobre bases de código extensas y documentos complejos, aumentando significativamente la viabilidad del desarrollo para entornos de producción con generación simultánea de código en decenas de archivos y decenas de miles de líneas
  • Mientras que con 32K de contexto solo era posible una generación de código simple, el contexto de 131K ofrece soporte directo para el desarrollo de aplicaciones grandes
  • Con ello, la empresa puede responder de forma directa al mercado empresarial de generación de código, el sector más grande y de más rápido crecimiento dentro de la IA generativa

Integración reforzada en VS Code mediante una alianza estratégica con Cline

  • Cerebras firmó una alianza con Cline, el mayor agente de programación para VS Code, con más de 1.8 millones de instalaciones
  • Todos los usuarios de Cline pueden usar directamente Qwen3-32B (contexto de 64K, gratuito) desde el editor, y más adelante también se dará soporte a Qwen3-235B (contexto de 131K)
  • Se prevé ofrecer una velocidad de generación de código entre 10 y 20 veces mayor frente a competidores como DeepSeek R1
  • Saoud Rizwan, CEO de Cline, destacó que “gracias a la inferencia en tiempo real, los desarrolladores pueden explorar código y problemas mientras mantienen un flujo de trabajo al ritmo de su pensamiento”

Una alternativa frontier de IA con 30 veces más velocidad y 1/10 del costo

  • Este lanzamiento de Cerebras ofrece una nueva opción para los desarrolladores que buscan inteligencia y generación de código de modelos abiertos en un nivel similar al de modelos comerciales como OpenAI y Anthropic
  • En particular, implementa de forma única a nivel mundial una velocidad de inferencia inmediata superior a 1,500 tokens por segundo, mejorando la productividad 10 veces frente a soluciones basadas en GPU
  • El costo por token también es inferior a 1/10 frente a competidores, ofreciendo IA ultrarrápida a un costo razonable

Acerca de Cerebras Systems

  • Cerebras Systems es un equipo de expertos en arquitectura computacional, deep learning, investigación e ingeniería enfocado en innovar la infraestructura de cómputo a gran escala para IA
  • Su producto principal, el sistema CS-3, integra el procesador comercial de IA más grande del mundo (Wafer-Scale Engine-3) y permite construir supercomputadoras de IA de gran escala mediante clustering fácil y rápido
  • Cerebras Inference ofrece velocidades de inferencia innovadoras y ya se utiliza en instituciones de investigación, empresas y gobiernos para desarrollar modelos especializados de alto rendimiento y para entrenamiento open source
  • Ofrece soluciones tanto en Cerebras Cloud como en entornos on-premise

1 comentarios

 
GN⁺ 2025-07-24
Opiniones de Hacker News
  • Esta noticia podría ser “vieja”; parece ser del 8 de julio y da la impresión de que la presentaron por confusión con el lanzamiento de Qwen 3 coder 405B, anunciado ayer. Las especificaciones de ambos modelos son distintas

    • Al principio pensé que esta noticia era sobre Qwen3-235B-A22B-Instruct-2507, anunciado hace dos días (enlace). Ese modelo no tiene reasoning, y como el anuncio de Cerebras sí menciona reasoning, eso me hizo darme cuenta de que esta noticia era sobre Qwen3-235B-A22B, lanzado en abril. Los nombres de los modelos son confusos
  • Si esto fuera cuantización fp16 completa, harían falta 2 TB de memoria para usar el contexto completo de 131k. Como cada chip de Cerebras tiene 44 GB de SRAM, habría que conectar 45 en serie, y si cada uno cuesta $3M, serían $135M en total. En comparación, con dos DGX B200 puedes tener 2.8 TB por $1M. O sea, $1M contra $135M. A menos que se trate de trabajos de alto valor que requieran una velocidad de inferencia brutalmente alta, como hedge funds o mercados financieros, no parece eficiente. Si algún día se pudiera ejecutar un modelo al nivel de Claude Opus 4 (o superior) con decenas de millones de tokens de contexto y a 1500 tokens por segundo por muy poco dinero, ni me imagino lo que pasaría. Parece que todavía hacen falta varias generaciones más de avance en hardware

    • El cálculo de “44 GB de SRAM por chip de Cerebras, 45 en serie, total $135M” está mal. Los 44 GB son SRAM, o sea memoria on-chip, y la mayoría de los parámetros del modelo se almacenan en HBM. Por ejemplo, el GB200 apenas tiene 126 MB de SRAM; si calculas la cantidad de chips necesaria para un modelo de 2 TB solo con la caché, el resultado sale absurdamente mal. Cerebras puede expandir la HBM por separado del chip y conectar casi hasta 2 PB con sistemas como MemoryX (artículo relacionado). No soy experto, pero en la arquitectura de Cerebras el límite de memoria es mucho más amplio
    • La SRAM dentro del chip es solo memoria de trabajo temporal; no hace falta que contenga todos los pesos del modelo. Cerebras usa pesos sparse y hace streaming solo de los datos necesarios desde memoria externa, mientras que los cores operan con un esquema activado por transferencia
    • La idea de “posible de operar / imposible de operar” es demasiado simplista. En la práctica, el punto importante es el throughput que permite repartir el sistema entre varios usuarios. Tanto un carrito de golf como un tren pueden ir del este al oeste, pero la economía no es la misma. La escala mínima de despliegue también importa, pero si vas a vender tokens vía una gran API en la nube, desde la perspectiva del cliente eso da igual
    • No hace falta ejecutar la inferencia en fp16 fijo. Los formatos de cuantización actuales asignan distinta precisión según la capa que lo necesite, y con un promedio de 6 bits por parámetro casi no se nota diferencia. Incluso apretándolo mucho, 8 bits por parámetro bastan. Eso implica un ahorro de memoria enorme
    • Nuestros chips no cuestan $3M cada uno. No sé de dónde salió esa cifra, pero es información completamente incorrecta
  • Configuré un proxy de litellm, lo conecté a la nueva API de Cerebras con Qwen-235B y le enganché Aider para probarlo. No es mejor que Claude code, pero la velocidad es brutal. También probé Aider con el prompt filtrado de claude code, pero no funcionó como quería. Parece que el prompt de Claude code está optimizado para Claude. Aun así, valió la pena intentarlo y siento que tiene mucho potencial. Aider empieza a escupir texto rapidísimo, instala cosas, hace llamadas web y termina. De verdad pasa en un instante. Para reproducir mi entorno, puedes usar esta configuración:

    model_list:
     - model_name: qwen3-235b
      litellm_params:
       model: cerebras/qwen-3-235b-a22b
       api_key: os.environ/CEREBRAS_API_KEY
       api_base: https://api.cerebras.ai/v1
    

    Cómo ejecutarlo:

    litellm --config config.yaml --port 4000 --debug
    

    Y luego:

    aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
    

    Instala los paquetes necesarios con pip o similar. En prompt.txt, busca y guarda por tu cuenta el prompt filtrado de claude code

  • Estoy esperando con ansias que Qwen 3 coder sea compatible con Cerebras. Yo corro muchos loops de agentes, y la velocidad de ejecución comprime el tiempo de una forma brutal. Si un modelo al nivel de Claude 4 Sonnet corriera a 1000~1500 tokens/segundo, sería una verdadera revolución. Si quieres hacerte una idea de esa velocidad, puedes probarla tú mismo en la página de Cerebras Inference, en la API, o en “Flash Answers” de Mistral / Le Chat (basado en Cerebras). Hacer iteraciones de código a 1000 tok/s se siente como magia

    • Exactamente esto. A esa velocidad, mi eficiencia de trabajo sube muchísimo. Cada vez que espero a un agente, pierdo enfoque y contexto. En paralelo va más rápido, pero a costa de concentración. Si en un IDE como Cursor los bucles de iteración corrieran casi al instante, se sentiría todavía más mágico. Y a esa velocidad, la forma misma de trabajar cambia. Un IDE interactivo como Cursor probablemente se sentiría mucho más natural que Claude code basado en línea de comandos
    • A mí me pasa igual. Pero la API de Cerebras necesita mejor compatibilidad con OpenAI. He probado modelos existentes con varios agentes de código, incluido Cline, y todos fallan con errores 400 o problemas con el formato de llamadas a herramientas. Fue decepcionante
    • Hace unos días probé Kimi K2 en Groq y la velocidad me impactó. Estoy pensando si debería cambiarme a Qwen 3 con Cerebras. (Como comentario aparte, el nombre me recuerda a los cerebrates de la jerarquía zerg de Starcraft, algo que de chico me parecía fascinante)
    • Si la velocidad de los agentes LLM sigue aumentando así, al final vamos a llegar a una situación donde el tiempo de compilación se vuelve el cuello de botella del proceso de desarrollo. Entonces aparecerá un incentivo económico para mejorar el rendimiento de los compiladores
  • La velocidad sin duda es impresionante, pero por mi experiencia es muy difícil conseguir de Cerebras límites de tasa o cuotas de tokens realmente utilizables en producción. Por eso no podemos diseñar sistemas sobre su plataforma y usamos otros vendors. Incluso después de hablar bastante con el equipo comercial, nos dijeron que no se podía

  • Me pregunto si alguien que haya usado mucho Claude Code y sonnet-4 ha hecho pruebas comparando Claude Code con Qwen3-Coder. Me tienta la velocidad que ofrece Cerebras, pero por más rápido que sea, si la calidad del modelo es peor no pienso cambiarme

    • No he usado Qwen, pero sí he probado servicios de inferencia de “tokens instantáneos” y modelos diffusion en Groq con generadores de código basados en LLaMA, y los resultados no fueron satisfactorios. Si un modelo del nivel de Gemini 2.5 pro o Sonnet 4 pudiera sacar decenas de miles de líneas de código en segundos en Cerebras, entonces sí cambiaría totalmente el panorama
  • Dicen que el contexto es “Full 131k”, pero en realidad es 262144, el doble, y con YaRN a 8x dicen que llega hasta 2 millones. En realidad, Cerebras también tiene un límite teórico de longitud de contexto, pero eso viene de la limitación de la arquitectura Transformer: el requerimiento de memoria crece casi linealmente y el de cómputo se cuadruplica. O sea, parece que Cerebras tampoco puede aprovechar al 100% el tema del contexto largo. Además, me pregunto si los clientes pueden saber exactamente qué esquema de cuantización están usando

    • En la página del modelo dice que 32768 es el native y que el rendimiento fue validado con 4x YaRN (enlace). Eso parece cuadrar más o menos con los 131k
  • La velocidad de verdad impresiona. Cambiando un poco de tema, me da curiosidad cómo vienen modelos como Qwen o Kimi en cuanto a censura o sesgos de su país de origen

    • Los modelos Qwen tienen fama de ser de altísima calidad entre los modelos abiertos, especialmente por su arquitectura MoE. Al mismo tiempo, vienen con una censura fuertísima. Si preguntas “qué pasó en Tiananmen Square”, “protestas importantes” o incluso “¿algo relacionado con tanques?”, simplemente se va por las ramas hablando de que la plaza es hermosa y llena de historia
  • Cerebras es uno de los logros tecnológicos más locos (en el buen sentido) que han salido de Silicon Valley en la última década. Cuando conocí a Andy hace 7 u 8 años, me hablaba de un chip del tamaño de un plato de cena y 6 toneladas de sujeción... me parecía absurdo. Pero realmente lo construyeron, y ahora se ve que fue una apuesta muy adelantada a su tiempo

    • El concepto está genial, pero ¿de verdad hay gente que use Cerebras en lugar de Nvidia?
    • En realidad está diseñado para HPC y FLOPS, así que para inferencia LLM al final importa más el ancho de banda de memoria
    • Esto es una reinterpretación moderna de una idea vieja. Yo había visto antes papers europeos sobre wafer-scale, analógico y redes neuronales. También encontré otro proyecto. (paper 1, paper 2). El segundo paper es de 1989, así que las patentes ya expiraron todas
    • La integración wafer-scale ya se intentó hace décadas
  • Estoy buscando un entorno local de desarrollo con qwen en Macbook. Probé la combinación localforge + mlx_lm.server; en la página dicen que lograron una prueba de concepto, pero en la práctica me aparece el error “empty response”. Si alguien tuvo una experiencia parecida, agradecería consejos

    • Puede que haya entendido mal tu pregunta, pero con ollama estoy usando inferencia local de qwen muy bien en un Macbook Pro (32GB)