Step 3.5 Flash – LLM de código abierto con inferencia de alta velocidad

(static.stepfun.com)

20 puntos por GN⁺ 2026-02-20 | 2 comentarios | Compartir por WhatsApp

Con una arquitectura Sparse Mixture of Experts que activa solo 11 mil millones de parámetros de un total de 196 mil millones, admite inferencia de alta velocidad e interacción en tiempo real
Logra una velocidad de generación de hasta 350 tokens por segundo y una ventana de contexto de 256K
Con SWE-bench Verified 74.4%, muestra un rendimiento sólido en benchmarks de coding y agentes, y también puede ejecutarse en entornos locales (Mac Studio M4 Max, NVIDIA DGX Spark)
Mediante razonamiento basado en uso de herramientas y orquestación multiagente, demuestra alta confiabilidad y capacidad de ejecución en escenarios de trabajo reales como finanzas, análisis de datos y automatización de investigación
Con la técnica de optimización MIS-PO basada en aprendizaje por refuerzo, asegura estabilidad en razonamiento de largo plazo y ofrece capacidades de razonamiento y acción de nivel frontier a menor costo que modelos de alto rendimiento

Resumen del modelo y rendimiento

Step 3.5 Flash es un foundation model de código abierto que combina inferencia de alta velocidad y funciones de agente, con una puntuación promedio de 81.0 en benchmarks
- Supera en promedio a modelos importantes como GLM-4.7 (78.5), DeepSeek V3.2 (77.3) y Kimi K2.5 (80.5)
Con una arquitectura Sparse MoE, activa solo 11B de 196B parámetros, lo que permite respuesta en tiempo real con cómputo eficiente
Basado en MTP-3, alcanza velocidades de generación de 100~300 tok/s en uso general y hasta 350 tok/s en tareas de coding
Con SWE-bench Verified 74.4% y Terminal-Bench 2.0 51.0%, asegura un rendimiento estable en tareas prolongadas de código y agentes
Implementa una ventana de contexto de 256K con una estructura SWA 3:1, manteniendo eficiencia de costos incluso en contextos largos

Casos de uso reales y uso de herramientas

Mejora el rendimiento en matemáticas, coding y análisis de datos mediante tool-augmented reasoning
- Al integrar ejecución de Python, registra mejores puntajes en AIME 2025 (99.8), HMMT 2025 (98.0) e IMOAnswerBench (86.7)
En un escenario de inversión en acciones, combina más de 80 herramientas MCP para automatizar recopilación de datos, análisis y alertas
Autonomous Business Intelligence Engine automatiza desde el procesamiento de CSV hasta la predicción, e identifica una brecha de calidad de datos de 1.6x
Large-Scale Repository Architect analiza grandes bases de código y genera una wiki especializada que conecta patrones de diseño con detalles de implementación

Investigación y rendimiento de agentes

En el benchmark ResearchRubrics, obtiene 65.3%, por encima de Gemini DeepResearch (63.7) y OpenAI DeepResearch (60.7)
- Ejecuta planificación, búsqueda, verificación y redacción dentro de un único loop basado en ReAct
En el entorno Claude Code, logra 39.6% en benchmark de análisis de datos, ligeramente por encima de GPT-5.2 (39.3)
A través de un Multi-Agent Framework, un Master Agent coordina agentes de búsqueda, verificación y resumen para generar resultados estructurados
Con Cloud-Device Synergy, al integrarse con Step-GUI registra 57 puntos en el benchmark AndroidDaily Hard (frente a 40 puntos por sí solo)

Arquitectura y características técnicas

Con un backbone Sparse MoE, separa la capacidad global (196B) del cómputo por token (11B), optimizando costo y velocidad de inferencia
La estructura Sliding-Window Attention + Full Attention (3:1) mantiene la eficiencia al procesar contextos largos
Head-wise Gated Attention controla dinámicamente el flujo de información y asegura estabilidad numérica
Alcanza un throughput de decodificación de 350 tok/s en GPUs NVIDIA Hopper
Mediante un modelo cuantizado INT4 GGUF, admite inferencia local (20 tok/s, contexto de 256K)

Framework de aprendizaje por refuerzo

Introduce Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
- En lugar de importance sampling, elimina muestras inestables mediante filtrado binario
- Estabiliza el razonamiento de largo plazo con truncation-aware value bootstrapping y routing confidence monitoring
Esta estructura permite auto-mejora continua en matemáticas, coding y uso de herramientas

Comparación de benchmarks

Step 3.5 Flash muestra un rendimiento equilibrado de primer nivel en tres áreas: Reasoning, Coding y Agentic
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
El costo de decodificación es 1.0x con contexto de 128K, más eficiente que DeepSeek V3.2 (6.0x) y Kimi K2.5 (18.9x)

Limitaciones y dirección futura

Eficiencia de tokens: requiere generaciones más largas para alcanzar la misma calidad frente a Gemini 3.0 Pro
Integración de especialización: se está investigando on-policy distillation para combinar generalidad y especialización de forma más eficiente
Expansión de RL agentico: se prevé ampliar la aplicación de RL a tareas complejas de nivel profesional y de investigación
Estabilidad operativa: en conversaciones largas o cambios de dominio, puede haber razonamiento repetitivo o salida en idiomas mezclados

Despliegue y accesibilidad

Está integrado con la plataforma OpenClaw, por lo que puede usarse con una instalación simple y registro del modelo
Se puede acceder mediante la plataforma API (inglés/chino) y apps web y móviles (iOS/Android)
Ofrece actualizaciones y soporte a través de la comunidad de Discord

2 comentarios

sftblw 2026-02-20

Este modelo está bastante bueno.
Si tienen cómo ejecutarlo con llama.cpp, necesitan aplicar por separado el prompt que está en un comentario del hilo de abajo. Si no, aparece el problema de que sale solo un </think> a mitad de camino sin un <think> de apertura.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  opciones omitidas \  
  --jinja \  
  --chat-template-file ruta/step3p5_flash_chat_template.jinja

GN⁺ 2026-02-20

Comentarios en Hacker News

Creo que es uno de los lanzamientos más subestimados entre los LLM que han salido en los últimos meses
Lo probé en local con la versión quantizada a 4-bit (Step-3.5-Flash-GGUF) y rindió mejor que Minimax 2.5 y GLM-4.7 (GLM solo pudo correr en 2-bit)
Las características principales son estas
- La eficiencia de contexto es muy alta. En una Mac de 128GB puede ejecutar todo el contexto de 256k o dos streams de 128k al mismo tiempo
- También va rápido en una M1 Ultra (36 t/s tg, 300 t/s pp), y la caída de velocidad es gradual incluso cuando crece el contexto
- Está optimizado para agentic coding y parece haber sido entrenado para ser compatible con Claude Code. Codex es la excepción por problemas con la herramienta de edición de parches
  Es el primer modelo local de la clase de 200B parámetros que realmente se siente usable en un harness CLI. Lo estoy usando junto con pi.dev y ha sido la mejor experiencia hasta ahora
  Como punto negativo, tiene un bug de bucle infinito de razonamiento (issue relacionado)
  StepFun parece ser también la empresa que hizo ACEStep (modelo de generación musical), y también se menciona en la documentación de ComfyUI
- Probé Qwen3 Coder Next con OpenCode y funcionó bastante bien
  A veces se equivoca en las llamadas a herramientas, pero no se cuelga con la configuración temperature=1 sugerida por Qwen
  Nemotron 3 Nano tenía poco uso de herramientas y tendía a usar casi siempre solo la shell tool
  En general, los modelos open weight agentic tienden a no invocar bien herramientas que no les son familiares
- Me pregunto si correr modelos OSS en una M3 Ultra (512GB RAM) será más económico que pagar suscripciones a Claude o Codex
  Me gustaría saber si alguien ya hizo ese cálculo
- Me pregunto si el problema del bucle infinito de razonamiento podría resolverse cambiando el motor de inferencia
  Creo que es un problema que requiere modificar los pesos del modelo en sí
- Me pregunto si alguien ya lo probó en la versión MLX. En teoría debería ser más rápido, pero me da flojera descargar varias versiones
- gpt-oss 120b y 20b también funcionaron bien con Codex
Hace poco leí con interés el proceso de razonamiento del truco “Walk or drive to the carwash”
Enlaces relacionados: gist, chat de stepfun.ai
Dicen que obtuvo 51.0% en Terminal-Bench 2.0, pero dudo que eso realmente garantice una capacidad estable para manejar tareas largas
- Un 51% por sí solo no significa mucho. Estos benchmarks usan puntajes absolutos, así que 100% no equivale al nivel humano
  Si ves el leaderboard, el puntaje más alto es 75%, así que 51% es cerca de ⅔ del nivel SOTA
- Ese puntaje es parecido al de Gemini 3 Flash, pero en la práctica parece que la configuración del agente influye más que el modelo mismo
- TerminalBench, pese al nombre, casi no tiene que ver con terminal; se parece más a una serie de pruebas aleatorias de sintaxis de herramientas
  Puede que el modelo simplemente haya memorizado flags de comandos
Al probarlo, la alucinación (hallucination) fue fuerte. Incluso en una pregunta simple como “búscame un deck campeón de Pokémon” fue impreciso
Opus 4.6, Deepseek y Kimi funcionaron bien, como era de esperarse
- Para ejecución, creo que es mejor usar un modelo de tamaño mediano
- Modelos como Gemini probablemente fueron más rápidos y precisos porque aprovechan activamente la función de búsqueda
Es un modelo publicado recientemente que usa una arquitectura Mixture of Experts (MoE), activando solo 11B de 196B por token
Supera a Kimi K2.5 y GLM 4.7 en más benchmarks
Puede correr incluso en una máquina de 128GB con una versión quantizada a 4-bit (enlace de referencia)
- Dudo que la ventaja en benchmarks realmente signifique mucho. Yo valoro más el seguimiento de instrucciones, el razonamiento en contexto largo y la ausencia de alucinaciones
- Me pregunto cuál será mejor entre Q4_K_S(116GB), IQ4_NL(112GB) y Q4_0(113GB)
  Ver la página del modelo
Los modelos recientes tienen puntajes altos en benchmarks, pero eso viene acompañado de una explosión en el uso de tokens
Para una innovación real, hace falta resolver el problema de la eficiencia energética
- No solo importa la cantidad de tokens, sino también la eficiencia energética por token (tokens/joule)
  El uso eficiente de una arquitectura MoE afecta tanto a tokens/joule como a tokens/sec
SWE-bench Verified está bien, pero hace falta un mejor benchmark de SWE
Crear un benchmark justo cuesta mucho en ejecución continua
El concepto de “benchmark en vivo” es bueno, pero no refleja suficientemente a los modelos más recientes
- Hubo una propuesta para participar en el desarrollo de Terminal Bench 3.0
  Enlace al documento
Creo que una métrica más importante que el número de parámetros es tokens per dollar/sec
Eso es porque los modelos top no soportan inferencia local
- Si es un modelo open source, para quien considera hacer self-hosting también importa el número de parámetros
- El número de parámetros sigue siendo un indicador aproximado del rendimiento del modelo
  Por ejemplo, Qwen3 0.6b tiene un tok/dollar excelente, pero se queda corto para la mayoría de los usos
- Este modelo tiene valor porque puede ejecutarse localmente incluso en una máquina de menos de $3,000
En una prueba simple hice varias observaciones
1. El trace de salida era muy verboso y con párrafos cortos, como estilo LinkedIn
2. La velocidad de salida de tokens de la versión alojada era muy alta
3. El cumplimiento de instrucciones y la calidad de salida eran superiores a los de modelos principales como Opus 4.5
Me confundió que el eje x del gráfico estuviera invertido
- Pienso lo mismo. No sé por qué lo hicieron así
- Probablemente intentaban hacer que el gráfico se viera mejor, pero en realidad no fue así