- Usa el mismo modelo Opus 4.6, pero cambia la configuración de la API para minimizar la latencia
- Optimizado para tareas interactivas sensibles al tiempo, como iteración rápida y depuración en vivo
- En la CLI o en la extensión de VS Code, escribe
/fast para activar o desactivar la opción, o usa "fastMode": true en el archivo de configuración del usuario para mantenerlo siempre activo
- Al activarse, cambia automáticamente a Opus 4.6 y muestra un mensaje de estado junto con el ícono
↯
- El modo rápido aumenta el precio por token frente a Opus 4.6 estándar
- En contextos de menos de 200K, se cobra $30/MTok de entrada y $150/MTok de salida (el estándar cobra $5 de entrada y $25 de salida)
- En contextos de más de 200K, se cobra $60/MTok de entrada y $225/MTok de salida (el estándar cobra $10 de entrada y $37.5 de salida)
- Se aplica un descuento del 50% hasta el 16/2
- El modo rápido tiene límites de tasa separados, y si se supera el límite o se agotan los créditos, vuelve automáticamente al modo estándar
- El modo rápido se ofrece como vista previa de investigación, por lo que sus funciones y precios pueden cambiar
3 comentarios
Opiniones de Hacker News
La velocidad mejoró 2.5 veces, pero el precio es 6 veces mayor
Es una prima bastante cara. En especial, Gemini 3 Pro tiene una velocidad de tokens por segundo 1.8 veces mayor que Opus 4.6, pero cuesta alrededor de 0.45 veces eso
Aun así, su rendimiento para programación es inferior, y Gemini CLI todavía no tiene la misma capacidad de agente que Claude Code
Al final, es una estructura interesante para hacer que los clientes grandes (whales) gasten dinero rápidamente
Estaría bien tener un modo lento (slow-mode). Sería una función para programar trabajos usando spot GPU de menor costo
Yo suelo correr procesos durante la hora del almuerzo o antes de salir del trabajo, y no necesitan ejecutarse de inmediato. Me basta con que corran barato en GPUs ociosas
Este modo no puede aprovechar el uso restante del plan de suscripción
El uso del modo rápido siempre se cobra por separado, y se aplican cargos adicionales desde el primer token sin importar los tokens incluidos en tu plan
Ahora mismo hay una promoción de $50 de uso adicional gratis
Con la herramienta ccusage, en API puedes llegar a $200 al día. Con una tarifa 6 veces mayor, esos $50 desaparecen en 20 minutos
No creo que esta función me sea muy útil
El cuello de botella no es el modelo, sino la velocidad a la que yo entiendo el código generado por el LLM
Al ver el documento “Cómo decidir cuándo usar Fast mode”,
parece que esa era la intención de la separación. Aun así, queda la duda de si el esquema de precios es razonable
Quienes priorizan la relación costo-beneficio lo resolverán con ejecución en paralelo
Mi flujo de trabajo normal se divide en etapa de planificación y etapa de implementación
El modo rápido parece más útil en la etapa de planificación
Además de “reiniciar el contexto y ejecutar en modo rápido”,
también me gustaría que hubiera una opción de “reiniciar el contexto y ejecutar a velocidad normal”
Los agentes exploratorios pueden ser lentos, pero si se pudiera iterar planes rápidamente sería mucho más eficiente
Una cuenta Pro normal en la práctica es modo lento
Ahora estoy probando Kimi2.5 CLI, y es rápido, además de que ofrece interfaz web, así que se puede usar remotamente incluso en entornos con VPN
Ya casi podrían hacer un CNAME de Hacker News al blog de marketing de Claude
Me da curiosidad qué causa la mejora de velocidad. Parece difícil que sea solo un simple ajuste de prioridad
Podría ser hardware nuevo (Groq, Cerebras, etc.). El hecho de que solo esté disponible en algunas nubes hace pensar que es posible
También me pregunto si en el futuro los proveedores de LLM pondrán precio por separado a “velocidad vs inteligencia”
Si haces lotes más grandes, aumenta el paralelismo pero baja la velocidad de cada solicitud individual.
Si miras el gráfico InferenceMAX™ de SemiAnalysis, existe una curva de Pareto entre el throughput por GPU y la velocidad de tokens
Después de ver la publicación “Claude creó un compilador de C”, me dio curiosidad la velocidad de inferencia interna en laboratorios como Anthropic y OpenAI
Cuanto más rápida sea la inferencia, más fácil será dominar el mercado de software
Si Anthropic publicó una velocidad 2.5 veces mayor, tal vez internamente estén usando un modo 5 a 10 veces más rápido
En un futuro donde los agentes negocien entre sí, ganará quien tenga la capacidad de cómputo más rápida
Puede que algunos servidores hayan sacrificado throughput total para aumentar la velocidad de solicitudes individuales.
Tal vez incluso esté corriendo sobre una nueva generación de hardware
Lo realista es que solo consiguieron una mejora de velocidad de 2.5 veces mediante paralelización
"¿Cuál sería una buena siguiente tarea?"
Parece que se agrega un cobro de 3.46$ de una sola vez y que no lo cubre el modelo de suscripción.
Hace poco creo que esos 50$ los dieron para que probáramos esto jajaja
Ahora la IA cada vez va siendo algo que solo usan los ricos...