- Con una arquitectura Sparse Mixture of Experts que activa solo 11 mil millones de parámetros de un total de 196 mil millones, admite inferencia de alta velocidad e interacción en tiempo real
- Logra una velocidad de generación de hasta 350 tokens por segundo y una ventana de contexto de 256K
- Con SWE-bench Verified 74.4%, muestra un rendimiento sólido en benchmarks de coding y agentes, y también puede ejecutarse en entornos locales (Mac Studio M4 Max, NVIDIA DGX Spark)
- Mediante razonamiento basado en uso de herramientas y orquestación multiagente, demuestra alta confiabilidad y capacidad de ejecución en escenarios de trabajo reales como finanzas, análisis de datos y automatización de investigación
- Con la técnica de optimización MIS-PO basada en aprendizaje por refuerzo, asegura estabilidad en razonamiento de largo plazo y ofrece capacidades de razonamiento y acción de nivel frontier a menor costo que modelos de alto rendimiento
Resumen del modelo y rendimiento
- Step 3.5 Flash es un foundation model de código abierto que combina inferencia de alta velocidad y funciones de agente, con una puntuación promedio de 81.0 en benchmarks
- Supera en promedio a modelos importantes como GLM-4.7 (78.5), DeepSeek V3.2 (77.3) y Kimi K2.5 (80.5)
- Con una arquitectura Sparse MoE, activa solo 11B de 196B parámetros, lo que permite respuesta en tiempo real con cómputo eficiente
- Basado en MTP-3, alcanza velocidades de generación de 100~300 tok/s en uso general y hasta 350 tok/s en tareas de coding
- Con SWE-bench Verified 74.4% y Terminal-Bench 2.0 51.0%, asegura un rendimiento estable en tareas prolongadas de código y agentes
- Implementa una ventana de contexto de 256K con una estructura SWA 3:1, manteniendo eficiencia de costos incluso en contextos largos
Casos de uso reales y uso de herramientas
- Mejora el rendimiento en matemáticas, coding y análisis de datos mediante tool-augmented reasoning
- Al integrar ejecución de Python, registra mejores puntajes en AIME 2025 (99.8), HMMT 2025 (98.0) e IMOAnswerBench (86.7)
- En un escenario de inversión en acciones, combina más de 80 herramientas MCP para automatizar recopilación de datos, análisis y alertas
- Autonomous Business Intelligence Engine automatiza desde el procesamiento de CSV hasta la predicción, e identifica una brecha de calidad de datos de 1.6x
- Large-Scale Repository Architect analiza grandes bases de código y genera una wiki especializada que conecta patrones de diseño con detalles de implementación
Investigación y rendimiento de agentes
- En el benchmark ResearchRubrics, obtiene 65.3%, por encima de Gemini DeepResearch (63.7) y OpenAI DeepResearch (60.7)
- Ejecuta planificación, búsqueda, verificación y redacción dentro de un único loop basado en ReAct
- En el entorno Claude Code, logra 39.6% en benchmark de análisis de datos, ligeramente por encima de GPT-5.2 (39.3)
- A través de un Multi-Agent Framework, un Master Agent coordina agentes de búsqueda, verificación y resumen para generar resultados estructurados
- Con Cloud-Device Synergy, al integrarse con Step-GUI registra 57 puntos en el benchmark AndroidDaily Hard (frente a 40 puntos por sí solo)
Arquitectura y características técnicas
- Con un backbone Sparse MoE, separa la capacidad global (196B) del cómputo por token (11B), optimizando costo y velocidad de inferencia
- La estructura Sliding-Window Attention + Full Attention (3:1) mantiene la eficiencia al procesar contextos largos
- Head-wise Gated Attention controla dinámicamente el flujo de información y asegura estabilidad numérica
- Alcanza un throughput de decodificación de 350 tok/s en GPUs NVIDIA Hopper
- Mediante un modelo cuantizado INT4 GGUF, admite inferencia local (20 tok/s, contexto de 256K)
Framework de aprendizaje por refuerzo
- Introduce Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
- En lugar de importance sampling, elimina muestras inestables mediante filtrado binario
- Estabiliza el razonamiento de largo plazo con truncation-aware value bootstrapping y routing confidence monitoring
- Esta estructura permite auto-mejora continua en matemáticas, coding y uso de herramientas
Comparación de benchmarks
- Step 3.5 Flash muestra un rendimiento equilibrado de primer nivel en tres áreas: Reasoning, Coding y Agentic
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
- El costo de decodificación es 1.0x con contexto de 128K, más eficiente que DeepSeek V3.2 (6.0x) y Kimi K2.5 (18.9x)
Limitaciones y dirección futura
- Eficiencia de tokens: requiere generaciones más largas para alcanzar la misma calidad frente a Gemini 3.0 Pro
- Integración de especialización: se está investigando on-policy distillation para combinar generalidad y especialización de forma más eficiente
- Expansión de RL agentico: se prevé ampliar la aplicación de RL a tareas complejas de nivel profesional y de investigación
- Estabilidad operativa: en conversaciones largas o cambios de dominio, puede haber razonamiento repetitivo o salida en idiomas mezclados
Despliegue y accesibilidad
- Está integrado con la plataforma OpenClaw, por lo que puede usarse con una instalación simple y registro del modelo
- Se puede acceder mediante la plataforma API (inglés/chino) y apps web y móviles (iOS/Android)
- Ofrece actualizaciones y soporte a través de la comunidad de Discord
2 comentarios
Este modelo está bastante bueno.
Si tienen cómo ejecutarlo con llama.cpp, necesitan aplicar por separado el prompt que está en un comentario del hilo de abajo. Si no, aparece el problema de que sale solo un
</think>a mitad de camino sin un<think>de apertura.https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…
Comentarios en Hacker News
Creo que es uno de los lanzamientos más subestimados entre los LLM que han salido en los últimos meses
Lo probé en local con la versión quantizada a 4-bit (Step-3.5-Flash-GGUF) y rindió mejor que Minimax 2.5 y GLM-4.7 (GLM solo pudo correr en 2-bit)
Las características principales son estas
Es el primer modelo local de la clase de 200B parámetros que realmente se siente usable en un harness CLI. Lo estoy usando junto con pi.dev y ha sido la mejor experiencia hasta ahora
Como punto negativo, tiene un bug de bucle infinito de razonamiento (issue relacionado)
StepFun parece ser también la empresa que hizo ACEStep (modelo de generación musical), y también se menciona en la documentación de ComfyUI
A veces se equivoca en las llamadas a herramientas, pero no se cuelga con la configuración temperature=1 sugerida por Qwen
Nemotron 3 Nano tenía poco uso de herramientas y tendía a usar casi siempre solo la shell tool
En general, los modelos open weight agentic tienden a no invocar bien herramientas que no les son familiares
Me gustaría saber si alguien ya hizo ese cálculo
Creo que es un problema que requiere modificar los pesos del modelo en sí
Hace poco leí con interés el proceso de razonamiento del truco “Walk or drive to the carwash”
Enlaces relacionados: gist, chat de stepfun.ai
Dicen que obtuvo 51.0% en Terminal-Bench 2.0, pero dudo que eso realmente garantice una capacidad estable para manejar tareas largas
Si ves el leaderboard, el puntaje más alto es 75%, así que 51% es cerca de ⅔ del nivel SOTA
Puede que el modelo simplemente haya memorizado flags de comandos
Al probarlo, la alucinación (hallucination) fue fuerte. Incluso en una pregunta simple como “búscame un deck campeón de Pokémon” fue impreciso
Opus 4.6, Deepseek y Kimi funcionaron bien, como era de esperarse
Es un modelo publicado recientemente que usa una arquitectura Mixture of Experts (MoE), activando solo 11B de 196B por token
Supera a Kimi K2.5 y GLM 4.7 en más benchmarks
Puede correr incluso en una máquina de 128GB con una versión quantizada a 4-bit (enlace de referencia)
Ver la página del modelo
Los modelos recientes tienen puntajes altos en benchmarks, pero eso viene acompañado de una explosión en el uso de tokens
Para una innovación real, hace falta resolver el problema de la eficiencia energética
El uso eficiente de una arquitectura MoE afecta tanto a tokens/joule como a tokens/sec
SWE-bench Verified está bien, pero hace falta un mejor benchmark de SWE
Crear un benchmark justo cuesta mucho en ejecución continua
El concepto de “benchmark en vivo” es bueno, pero no refleja suficientemente a los modelos más recientes
Enlace al documento
Creo que una métrica más importante que el número de parámetros es tokens per dollar/sec
Eso es porque los modelos top no soportan inferencia local
Por ejemplo, Qwen3 0.6b tiene un tok/dollar excelente, pero se queda corto para la mayoría de los usos
En una prueba simple hice varias observaciones
Me confundió que el eje x del gráfico estuviera invertido