13 puntos por xguru 2026-02-08 | 3 comentarios | Compartir por WhatsApp
  • Usa el mismo modelo Opus 4.6, pero cambia la configuración de la API para minimizar la latencia
  • Optimizado para tareas interactivas sensibles al tiempo, como iteración rápida y depuración en vivo
  • En la CLI o en la extensión de VS Code, escribe /fast para activar o desactivar la opción, o usa "fastMode": true en el archivo de configuración del usuario para mantenerlo siempre activo
  • Al activarse, cambia automáticamente a Opus 4.6 y muestra un mensaje de estado junto con el ícono
  • El modo rápido aumenta el precio por token frente a Opus 4.6 estándar
    • En contextos de menos de 200K, se cobra $30/MTok de entrada y $150/MTok de salida (el estándar cobra $5 de entrada y $25 de salida)
    • En contextos de más de 200K, se cobra $60/MTok de entrada y $225/MTok de salida (el estándar cobra $10 de entrada y $37.5 de salida)
    • Se aplica un descuento del 50% hasta el 16/2
  • El modo rápido tiene límites de tasa separados, y si se supera el límite o se agotan los créditos, vuelve automáticamente al modo estándar
  • El modo rápido se ofrece como vista previa de investigación, por lo que sus funciones y precios pueden cambiar

3 comentarios

 
GN⁺ 2026-02-09
Opiniones de Hacker News
  • La velocidad mejoró 2.5 veces, pero el precio es 6 veces mayor
    Es una prima bastante cara. En especial, Gemini 3 Pro tiene una velocidad de tokens por segundo 1.8 veces mayor que Opus 4.6, pero cuesta alrededor de 0.45 veces eso
    Aun así, su rendimiento para programación es inferior, y Gemini CLI todavía no tiene la misma capacidad de agente que Claude Code

    • Si cuesta 6 veces más por token, entonces por segundo cuesta 15 veces más. Además, esto es con tarifas de API, y los planes de suscripción son mucho más baratos
      Al final, es una estructura interesante para hacer que los clientes grandes (whales) gasten dinero rápidamente
    • Gemini es bastante bueno para trabajo de frontend
    • También se puede usar OpenCode en lugar de Gemini CLI
  • Estaría bien tener un modo lento (slow-mode). Sería una función para programar trabajos usando spot GPU de menor costo
    Yo suelo correr procesos durante la hora del almuerzo o antes de salir del trabajo, y no necesitan ejecutarse de inmediato. Me basta con que corran barato en GPUs ociosas

    • La Batches API corre con una tarifa 50% menor que la API estándar
    • OpenAI también ofrecía antes una función de procesamiento por lotes parecida
    • Yo pienso lo mismo. Estaría bien poder correrlo en la noche con una tarifa 50% menor. Pero todavía no está integrado en Claude Code
    • El plan MAX ya descontado en la práctica funciona como modo lento
    • Si no importa el tiempo, otra opción es correrlo con CPU/RAM en vez de GPU
  • Este modo no puede aprovechar el uso restante del plan de suscripción
    El uso del modo rápido siempre se cobra por separado, y se aplican cargos adicionales desde el primer token sin importar los tokens incluidos en tu plan
    Ahora mismo hay una promoción de $50 de uso adicional gratis

    • Al final casi no sirve. Incluso usando Claude Max, durante TDD igual hay que administrar el consumo
      Con la herramienta ccusage, en API puedes llegar a $200 al día. Con una tarifa 6 veces mayor, esos $50 desaparecen en 20 minutos
  • No creo que esta función me sea muy útil
    El cuello de botella no es el modelo, sino la velocidad a la que yo entiendo el código generado por el LLM

    • Hay mucha gente que ni siquiera revisa el código real con cuidado. Qué mundo tan interesante el de hoy
    • Si llegara a ser lo bastante rápido, lo usaría más lanzando preguntas que leyendo el código, pero todavía no está en ese nivel
    • Quienes programan por “sensación” se enfocan más en el resultado que en entenderlo
    • Si armas bien el test harness y los procedimientos de validación, puedes confiar sin mirar el código directamente
  • Al ver el documento “Cómo decidir cuándo usar Fast mode”,

    • agentes de ejecución larga o trabajos en segundo plano: modo normal
    • escenarios con intervención humana: modo rápido
      parece que esa era la intención de la separación. Aun así, queda la duda de si el esquema de precios es razonable
    • Las tarifas de API de Opus ya son caras, así que probablemente seguirá siendo un servicio de gama alta
      Quienes priorizan la relación costo-beneficio lo resolverán con ejecución en paralelo
  • Mi flujo de trabajo normal se divide en etapa de planificación y etapa de implementación
    El modo rápido parece más útil en la etapa de planificación
    Además de “reiniciar el contexto y ejecutar en modo rápido”,
    también me gustaría que hubiera una opción de “reiniciar el contexto y ejecutar a velocidad normal”
    Los agentes exploratorios pueden ser lentos, pero si se pudiera iterar planes rápidamente sería mucho más eficiente

  • Una cuenta Pro normal en la práctica es modo lento
    Ahora estoy probando Kimi2.5 CLI, y es rápido, además de que ofrece interfaz web, así que se puede usar remotamente incluso en entornos con VPN

  • Ya casi podrían hacer un CNAME de Hacker News al blog de marketing de Claude

    • Entonces nos perderíamos las publicaciones autopromocionales de simonw
    • En realidad hay muchas más publicaciones sobre OpenAI. Tal vez sería mejor cambiarle el nombre a AINews
  • Me da curiosidad qué causa la mejora de velocidad. Parece difícil que sea solo un simple ajuste de prioridad
    Podría ser hardware nuevo (Groq, Cerebras, etc.). El hecho de que solo esté disponible en algunas nubes hace pensar que es posible
    También me pregunto si en el futuro los proveedores de LLM pondrán precio por separado a “velocidad vs inteligencia”

    • Es una forma de aumentar el procesamiento por lotes y el multi-stream en GPU para subir el throughput de tokens
      Si haces lotes más grandes, aumenta el paralelismo pero baja la velocidad de cada solicitud individual.
      Si miras el gráfico InferenceMAX™ de SemiAnalysis, existe una curva de Pareto entre el throughput por GPU y la velocidad de tokens
    • Además de actualizar hardware o ajustar prioridades de tráfico, también se pueden hacer varios ajustes, como reducir la ventana de batch o mantener la caché KV en la GPU
    • También podría ser simplemente un modelo basado en prioridad que te deja saltarte la cola. Sería la forma más fácil de ganar más dinero
    • Puede que primero lo hayan implementado para uso interno. En realidad sería solo un ajuste de prioridad simple, pero quizá pensaron que no habría muchos clientes externos
    • O quizá están usando GPUs nuevas como la Nvidia GB300 (Blackwell)
  • Después de ver la publicación “Claude creó un compilador de C”, me dio curiosidad la velocidad de inferencia interna en laboratorios como Anthropic y OpenAI
    Cuanto más rápida sea la inferencia, más fácil será dominar el mercado de software
    Si Anthropic publicó una velocidad 2.5 veces mayor, tal vez internamente estén usando un modo 5 a 10 veces más rápido
    En un futuro donde los agentes negocien entre sí, ganará quien tenga la capacidad de cómputo más rápida

    • Anthropic dijo que el modo 2.5 veces más rápido que ya usaban internamente lo publicaron como API oficial
      Puede que algunos servidores hayan sacrificado throughput total para aumentar la velocidad de solicitudes individuales.
      Tal vez incluso esté corriendo sobre una nueva generación de hardware
    • No tiene sentido eso de “están ocultando un rendimiento 10 veces mejor”. Una empresa SaaS en plena competencia de mercado no tiene ese lujo
      Lo realista es que solo consiguieron una mejora de velocidad de 2.5 veces mediante paralelización
    • También da la impresión de un tipo de modelo de velocidad como rehén, donde ralentizan artificialmente la velocidad base para hacerte pagar por el modo rápido
 
kimjoin2 2026-02-09

"¿Cuál sería una buena siguiente tarea?"
Parece que se agrega un cobro de 3.46$ de una sola vez y que no lo cubre el modelo de suscripción.
Hace poco creo que esos 50$ los dieron para que probáramos esto jajaja

 
elbum 2026-02-08

Ahora la IA cada vez va siendo algo que solo usan los ricos...