20 puntos por GN⁺ 2026-02-20 | 2 comentarios | Compartir por WhatsApp
  • Con una arquitectura Sparse Mixture of Experts que activa solo 11 mil millones de parámetros de un total de 196 mil millones, admite inferencia de alta velocidad e interacción en tiempo real
  • Logra una velocidad de generación de hasta 350 tokens por segundo y una ventana de contexto de 256K
  • Con SWE-bench Verified 74.4%, muestra un rendimiento sólido en benchmarks de coding y agentes, y también puede ejecutarse en entornos locales (Mac Studio M4 Max, NVIDIA DGX Spark)
  • Mediante razonamiento basado en uso de herramientas y orquestación multiagente, demuestra alta confiabilidad y capacidad de ejecución en escenarios de trabajo reales como finanzas, análisis de datos y automatización de investigación
  • Con la técnica de optimización MIS-PO basada en aprendizaje por refuerzo, asegura estabilidad en razonamiento de largo plazo y ofrece capacidades de razonamiento y acción de nivel frontier a menor costo que modelos de alto rendimiento

Resumen del modelo y rendimiento

  • Step 3.5 Flash es un foundation model de código abierto que combina inferencia de alta velocidad y funciones de agente, con una puntuación promedio de 81.0 en benchmarks
    • Supera en promedio a modelos importantes como GLM-4.7 (78.5), DeepSeek V3.2 (77.3) y Kimi K2.5 (80.5)
  • Con una arquitectura Sparse MoE, activa solo 11B de 196B parámetros, lo que permite respuesta en tiempo real con cómputo eficiente
  • Basado en MTP-3, alcanza velocidades de generación de 100~300 tok/s en uso general y hasta 350 tok/s en tareas de coding
  • Con SWE-bench Verified 74.4% y Terminal-Bench 2.0 51.0%, asegura un rendimiento estable en tareas prolongadas de código y agentes
  • Implementa una ventana de contexto de 256K con una estructura SWA 3:1, manteniendo eficiencia de costos incluso en contextos largos

Casos de uso reales y uso de herramientas

  • Mejora el rendimiento en matemáticas, coding y análisis de datos mediante tool-augmented reasoning
    • Al integrar ejecución de Python, registra mejores puntajes en AIME 2025 (99.8), HMMT 2025 (98.0) e IMOAnswerBench (86.7)
  • En un escenario de inversión en acciones, combina más de 80 herramientas MCP para automatizar recopilación de datos, análisis y alertas
  • Autonomous Business Intelligence Engine automatiza desde el procesamiento de CSV hasta la predicción, e identifica una brecha de calidad de datos de 1.6x
  • Large-Scale Repository Architect analiza grandes bases de código y genera una wiki especializada que conecta patrones de diseño con detalles de implementación

Investigación y rendimiento de agentes

  • En el benchmark ResearchRubrics, obtiene 65.3%, por encima de Gemini DeepResearch (63.7) y OpenAI DeepResearch (60.7)
    • Ejecuta planificación, búsqueda, verificación y redacción dentro de un único loop basado en ReAct
  • En el entorno Claude Code, logra 39.6% en benchmark de análisis de datos, ligeramente por encima de GPT-5.2 (39.3)
  • A través de un Multi-Agent Framework, un Master Agent coordina agentes de búsqueda, verificación y resumen para generar resultados estructurados
  • Con Cloud-Device Synergy, al integrarse con Step-GUI registra 57 puntos en el benchmark AndroidDaily Hard (frente a 40 puntos por sí solo)

Arquitectura y características técnicas

  • Con un backbone Sparse MoE, separa la capacidad global (196B) del cómputo por token (11B), optimizando costo y velocidad de inferencia
  • La estructura Sliding-Window Attention + Full Attention (3:1) mantiene la eficiencia al procesar contextos largos
  • Head-wise Gated Attention controla dinámicamente el flujo de información y asegura estabilidad numérica
  • Alcanza un throughput de decodificación de 350 tok/s en GPUs NVIDIA Hopper
  • Mediante un modelo cuantizado INT4 GGUF, admite inferencia local (20 tok/s, contexto de 256K)

Framework de aprendizaje por refuerzo

  • Introduce Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
    • En lugar de importance sampling, elimina muestras inestables mediante filtrado binario
    • Estabiliza el razonamiento de largo plazo con truncation-aware value bootstrapping y routing confidence monitoring
  • Esta estructura permite auto-mejora continua en matemáticas, coding y uso de herramientas

Comparación de benchmarks

  • Step 3.5 Flash muestra un rendimiento equilibrado de primer nivel en tres áreas: Reasoning, Coding y Agentic
    • AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
    • τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
  • El costo de decodificación es 1.0x con contexto de 128K, más eficiente que DeepSeek V3.2 (6.0x) y Kimi K2.5 (18.9x)

Limitaciones y dirección futura

  • Eficiencia de tokens: requiere generaciones más largas para alcanzar la misma calidad frente a Gemini 3.0 Pro
  • Integración de especialización: se está investigando on-policy distillation para combinar generalidad y especialización de forma más eficiente
  • Expansión de RL agentico: se prevé ampliar la aplicación de RL a tareas complejas de nivel profesional y de investigación
  • Estabilidad operativa: en conversaciones largas o cambios de dominio, puede haber razonamiento repetitivo o salida en idiomas mezclados

Despliegue y accesibilidad

  • Está integrado con la plataforma OpenClaw, por lo que puede usarse con una instalación simple y registro del modelo
  • Se puede acceder mediante la plataforma API (inglés/chino) y apps web y móviles (iOS/Android)
  • Ofrece actualizaciones y soporte a través de la comunidad de Discord

2 comentarios

 
sftblw 2026-02-20

Este modelo está bastante bueno.
Si tienen cómo ejecutarlo con llama.cpp, necesitan aplicar por separado el prompt que está en un comentario del hilo de abajo. Si no, aparece el problema de que sale solo un </think> a mitad de camino sin un <think> de apertura.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  opciones omitidas \  
  --jinja \  
  --chat-template-file ruta/step3p5_flash_chat_template.jinja  
 
GN⁺ 2026-02-20
Comentarios en Hacker News
  • Creo que es uno de los lanzamientos más subestimados entre los LLM que han salido en los últimos meses
    Lo probé en local con la versión quantizada a 4-bit (Step-3.5-Flash-GGUF) y rindió mejor que Minimax 2.5 y GLM-4.7 (GLM solo pudo correr en 2-bit)
    Las características principales son estas

    • La eficiencia de contexto es muy alta. En una Mac de 128GB puede ejecutar todo el contexto de 256k o dos streams de 128k al mismo tiempo
    • También va rápido en una M1 Ultra (36 t/s tg, 300 t/s pp), y la caída de velocidad es gradual incluso cuando crece el contexto
    • Está optimizado para agentic coding y parece haber sido entrenado para ser compatible con Claude Code. Codex es la excepción por problemas con la herramienta de edición de parches
      Es el primer modelo local de la clase de 200B parámetros que realmente se siente usable en un harness CLI. Lo estoy usando junto con pi.dev y ha sido la mejor experiencia hasta ahora
      Como punto negativo, tiene un bug de bucle infinito de razonamiento (issue relacionado)
      StepFun parece ser también la empresa que hizo ACEStep (modelo de generación musical), y también se menciona en la documentación de ComfyUI
    • Probé Qwen3 Coder Next con OpenCode y funcionó bastante bien
      A veces se equivoca en las llamadas a herramientas, pero no se cuelga con la configuración temperature=1 sugerida por Qwen
      Nemotron 3 Nano tenía poco uso de herramientas y tendía a usar casi siempre solo la shell tool
      En general, los modelos open weight agentic tienden a no invocar bien herramientas que no les son familiares
    • Me pregunto si correr modelos OSS en una M3 Ultra (512GB RAM) será más económico que pagar suscripciones a Claude o Codex
      Me gustaría saber si alguien ya hizo ese cálculo
    • Me pregunto si el problema del bucle infinito de razonamiento podría resolverse cambiando el motor de inferencia
      Creo que es un problema que requiere modificar los pesos del modelo en sí
    • Me pregunto si alguien ya lo probó en la versión MLX. En teoría debería ser más rápido, pero me da flojera descargar varias versiones
    • gpt-oss 120b y 20b también funcionaron bien con Codex
  • Hace poco leí con interés el proceso de razonamiento del truco “Walk or drive to the carwash”
    Enlaces relacionados: gist, chat de stepfun.ai

  • Dicen que obtuvo 51.0% en Terminal-Bench 2.0, pero dudo que eso realmente garantice una capacidad estable para manejar tareas largas

    • Un 51% por sí solo no significa mucho. Estos benchmarks usan puntajes absolutos, así que 100% no equivale al nivel humano
      Si ves el leaderboard, el puntaje más alto es 75%, así que 51% es cerca de ⅔ del nivel SOTA
    • Ese puntaje es parecido al de Gemini 3 Flash, pero en la práctica parece que la configuración del agente influye más que el modelo mismo
    • TerminalBench, pese al nombre, casi no tiene que ver con terminal; se parece más a una serie de pruebas aleatorias de sintaxis de herramientas
      Puede que el modelo simplemente haya memorizado flags de comandos
  • Al probarlo, la alucinación (hallucination) fue fuerte. Incluso en una pregunta simple como “búscame un deck campeón de Pokémon” fue impreciso
    Opus 4.6, Deepseek y Kimi funcionaron bien, como era de esperarse

    • Para ejecución, creo que es mejor usar un modelo de tamaño mediano
    • Modelos como Gemini probablemente fueron más rápidos y precisos porque aprovechan activamente la función de búsqueda
  • Es un modelo publicado recientemente que usa una arquitectura Mixture of Experts (MoE), activando solo 11B de 196B por token
    Supera a Kimi K2.5 y GLM 4.7 en más benchmarks
    Puede correr incluso en una máquina de 128GB con una versión quantizada a 4-bit (enlace de referencia)

    • Dudo que la ventaja en benchmarks realmente signifique mucho. Yo valoro más el seguimiento de instrucciones, el razonamiento en contexto largo y la ausencia de alucinaciones
    • Me pregunto cuál será mejor entre Q4_K_S(116GB), IQ4_NL(112GB) y Q4_0(113GB)
      Ver la página del modelo
  • Los modelos recientes tienen puntajes altos en benchmarks, pero eso viene acompañado de una explosión en el uso de tokens
    Para una innovación real, hace falta resolver el problema de la eficiencia energética

    • No solo importa la cantidad de tokens, sino también la eficiencia energética por token (tokens/joule)
      El uso eficiente de una arquitectura MoE afecta tanto a tokens/joule como a tokens/sec
  • SWE-bench Verified está bien, pero hace falta un mejor benchmark de SWE
    Crear un benchmark justo cuesta mucho en ejecución continua
    El concepto de “benchmark en vivo” es bueno, pero no refleja suficientemente a los modelos más recientes

    • Hubo una propuesta para participar en el desarrollo de Terminal Bench 3.0
      Enlace al documento
  • Creo que una métrica más importante que el número de parámetros es tokens per dollar/sec
    Eso es porque los modelos top no soportan inferencia local

    • Si es un modelo open source, para quien considera hacer self-hosting también importa el número de parámetros
    • El número de parámetros sigue siendo un indicador aproximado del rendimiento del modelo
      Por ejemplo, Qwen3 0.6b tiene un tok/dollar excelente, pero se queda corto para la mayoría de los usos
    • Este modelo tiene valor porque puede ejecutarse localmente incluso en una máquina de menos de $3,000
  • En una prueba simple hice varias observaciones

    1. El trace de salida era muy verboso y con párrafos cortos, como estilo LinkedIn
    2. La velocidad de salida de tokens de la versión alojada era muy alta
    3. El cumplimiento de instrucciones y la calidad de salida eran superiores a los de modelos principales como Opus 4.5
  • Me confundió que el eje x del gráfico estuviera invertido

    • Pienso lo mismo. No sé por qué lo hicieron así
    • Probablemente intentaban hacer que el gráfico se viera mejor, pero en realidad no fue así