1 puntos por GN⁺ 2026-03-14 | 1 comentarios | Compartir por WhatsApp
  • Claude Opus 4.6 y Sonnet 4.6 ahora admiten una ventana de contexto de 1 millón de tokens (1M) con la tarifa estándar, por lo que se puede usar el rango completo sin prima adicional
  • El precio se mantiene igual: Opus 4.6 cuesta $5/$25 y Sonnet 4.6 $3/$15 (entrada/salida), y tanto una solicitud de 9K como una de 900K se cobran con la misma proporción
  • El límite de entrada de medios se amplió 6 veces, lo que permite procesar hasta 600 imágenes o páginas de PDF de una sola vez, y ya está disponible en Azure Foundry, Google Vertex AI y otros servicios
  • Los usuarios Max, Team y Enterprise de Claude Code pueden aprovechar automáticamente el contexto de 1M, reduciendo la compresión de sesiones y mejorando la capacidad de mantener la conversación
  • Se considera una función que mejora la precisión y la eficiencia al mantener contextos complejos y de largo plazo, como grandes bases de código, contratos y logs operativos

Resumen de la disponibilidad general del contexto de 1M

  • Opus 4.6 y Sonnet 4.6 ofrecen una ventana de contexto de 1M en Claude Platform con tarifa estándar
    • Opus 4.6 cuesta $5 por millón de tokens de entrada / $25 por millón de tokens de salida, y Sonnet 4.6 $3/$15
    • No hay tarifas diferenciadas según el tamaño de la solicitud
  • Se elimina la prima por contexto largo y se mantiene el mismo rendimiento en todas las longitudes de contexto
  • El límite de entrada de medios aumenta 6 veces: admite hasta 600 imágenes o páginas de PDF
  • No se requiere encabezado beta, y las solicitudes que superen 200K tokens se procesan automáticamente

Integración con Claude Code

  • El contexto de 1M se activa automáticamente al usar Opus 4.6 en los planes Max, Team y Enterprise de Claude Code
    • Menor compresión (compaction) de la conversación dentro de la sesión
    • Antes requería uso adicional, pero ahora viene incluido por defecto

Rendimiento y precisión del modelo

  • Opus 4.6 alcanza 78.3% en MRCR v2, el mejor rendimiento entre los modelos con la misma longitud de contexto
  • Incluso con contexto de 1M, mantiene la precisión y mejora el rendimiento de recuperación en textos largos
  • Puede procesar grandes bases de código, contratos y logs de agentes de largo plazo manteniendo todo el contexto intacto
    • Conserva toda la conversación sin necesidad de resumir ni reiniciar el contexto

Casos de uso reales

  • Investigación científica: permite analizar de forma integrada cientos de artículos, marcos matemáticos y código de simulación de una sola vez (Alex Wissner-Gross)
  • Trabajo legal: permite comparar varias versiones de un contrato de 100 páginas en una sola sesión (Bardia Pourvakil)
  • Análisis de sistemas operativos: mantiene visibles todas las señales y las hipótesis durante la respuesta a incidentes (Mayank Agarwal)
  • Investigación en IA y revisión de código: procesa archivos diff de gran tamaño de una sola vez para mejorar la calidad (Adhyyan Sekhsaria)
  • Análisis de datos y depuración: conserva los detalles sin pérdida al buscar en Datadog, bases de datos y código fuente (Anton Biryukov)
  • Mejora de la eficiencia de agentes: reduce 15% los eventos de compresión de contexto y conserva la información inicial incluso en sesiones largas (Jon Bell)

Plataformas disponibles y cómo empezar

  • El contexto de 1M ya está disponible en Claude Platform, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry
  • Los usuarios de Claude Code Max, Team y Enterprise basados en Opus 4.6 reciben el contexto de 1M por defecto
  • Los detalles se pueden consultar en las páginas oficiales de documentation y pricing

1 comentarios

 
GN⁺ 2026-03-14
Comentarios en Hacker News
  • Opus 4.6 está realmente a un nivel impresionante
    Maneja bien cualquier tarea que le tires, ya sea frontend, backend o algoritmos
    Si empiezas con un PRD, haces un plan por etapas y lo ejecutas una por una, en unas horas sale un resultado que de verdad funciona
    Fue la primera IA que me hizo pensar: “esto parece más inteligente que yo”
    Además, con la tecnología actual incluso se pueden correr varios agentes al mismo tiempo a una velocidad de 1k tokens por segundo

    • Yo también quería tener una experiencia así
      Le encargué a Claude Code basado en Opus 4.6 refactorizar código React, concretamente cambiar useState/useEffect → useMemo
      El plan era excelente, pero en parte del código puso declaraciones de variables en lugares equivocados y eso generó referencias undefined
      Cuando intentó corregirlo, quiso cambiar demasiado la estructura, así que al final lo arreglé a mano
      Aun así, en general sí me ahorró tiempo, pero fue una experiencia bastante frustrante
    • Tengo curiosidad por saber qué estás construyendo
      Yo intenté hacer un test harness para una herramienta de diff de base de datos con Opus 4.6, pero generó pruebas para otra herramienta existente que no tenía nada que ver
      El código de prueba ni siquiera llamaba a la función real y en su lugar implementaba la lógica directamente
      Después de 4 horas y $75, apenas conseguí algo que corriera, pero la calidad fue mala
      En la empresa también nos dijeron que aumentáramos el presupuesto para usar Claude, pero todos están sufriendo algo parecido
      Ahorita es mucho más eficiente usarlo para ediciones parciales o debugging en VS Studio
    • Una vez caí en un bucle de IA
      Era un problema de cálculo sobre acumulación de sedimentos en un tanque topográfico, y Opus siguió repitiendo tres explicaciones contradictorias
      Incluso tras tres intentos seguía atrapado en el mismo bucle, así que al final lo resolví forzando un enfoque brute force
      Una persona probablemente no habría caído en ese tipo de bucle para el segundo intento
    • Para mí, Opus 4.6 ya está a nivel AGI
      No solo sigue instrucciones, también propone por sí sola ideas de mejora que no le pediste
  • Lo clave de esta actualización es la tarifa estándar aplicada a toda la ventana de 1M tokens y el soporte para 600 imágenes/páginas PDF
    Para los usuarios de Claude Code es un cambio grande

    • Dudo que realmente sea útil llenar por completo una ventana de 1M
      A mí me resultó más estable mantenerlo por debajo del 40% (unos 80k tokens), como en la investigación de Dex Horthy
      Por cierto, el video “No vibes allowed” está aquí
    • En la empresa sí usamos la ventana de 1M en trabajo real
      Hasta 700k tokens iba bien, pero por encima de eso se sentía que se volvía un poco más torpe
      Es más estable usarlo en modo pair programming que en automatización total
    • Mientras más grande es el contexto, mayor es el costo de los tokens de entrada
      800k de entrada cuestan 8 veces más que 100k, así que si el caché no pega puede convertirse en una factura brutal de API
    • Alguien bromeó: “entonces, ¿una imagen vale 1,666 palabras?”
    • En mi caso, en la ventana de 1M la calidad al programar cae drásticamente
      A menudo olvida el contexto durante la conversación
  • Alguien comentó que simplemente es mejor escribir el código uno mismo

  • Mi carrera se movió de Python a C/C++
    Con Python, Opus a veces puede hacerlo mejor que yo, pero en embebidos sigue en nivel junior
    Creo que al final es un problema de calidad de los datos de entrenamiento
    Por eso no creo que los LLM vayan a reemplazar a los ingenieros de hardware en el corto plazo

  • Yo armé checks de CI para evitar el thrashing en código generado por IA
    Muchas veces el agente, al intentar corregir fallos de tests repetidamente, mete imports fantasma o deprecated API
    Por eso en cada PR corro un escaneo ligero para detectar paquetes npm inexistentes o salidas de contexto
    El análisis estático tradicional solo ve sintaxis, pero el código de IA muchas veces está mal semánticamente
    Creo que este tipo de validación basada en conocimiento del dominio va a ser indispensable

  • Hubo una publicación preguntando por qué el rendimiento cae cerca de los 100k tokens
    Muchos opinan que el contexto realmente utilizable es más pequeño

    • Yo casi no he sentido esa caída de rendimiento en Opus 4.6
      Quizá sea una ilusión por experiencias pasadas que todavía arrastro
    • Según mi experiencia, la context rot sigue existiendo
      Si usas 90k tokens, da igual si el límite es 100k o 1M: se degrada de forma parecida
      En codebases grandes, la calidad del prompt es la clave
    • Creo que la gráfica del benchmark ya es, por sí sola, la respuesta
    • Como la complejidad de attention en los Transformer crece al cuadrado con el tamaño del contexto,
      para procesar 1M tokens hay que usar varias técnicas de aproximación, y eso podría ser la causa de la caída de rendimiento
  • En Claude Code 2.1.75 desapareció la distinción entre Opus normal y Opus 1M
    Incluso en el plan Pro se ve así, pero en la práctica siguen existiendo límites
    Probablemente sea una estrategia de Anthropic para responder a la competencia de la ventana de 1M de GPT 5.4

    • En Max 20x sigue existiendo como modelo separado
    • En Pro, el contexto de 1M todavía tiene costo adicional
  • La política de precios de Claude es rara
    El plan 5X cuesta exactamente 5 veces más que el plan anterior
    Normalmente hay descuento por volumen, pero aquí no

    • Anthropic ya tiene una demanda que supera la oferta, así que no necesita incentivar que la gente use más
      Más bien parece que prefieren que 5 personas lo usen repartido antes que una sola persona usándolo 5 veces más
    • El plan 5X es solo de enganche, y en realidad la estrategia es vender el plan 20x
    • Alguien bromeó con “ya lo compensarán por volumen”
    • También hubo quien opinó que ambos planes son buenas ofertas subsidiadas
  • Lo probé hoy y de verdad fue un cambio interesante
    Ahora se pueden meter varias sesiones paralelas de subagentes dentro de una sola sesión maestra
    Dicen que Opus 1M está más o menos al nivel de 256k de GPT 5.4, pero casi no pierde calidad
    Eso sí, no se desploma bruscamente como el modelo q4 ’25

    • Yo usaba seguido Sonnet 4.5 1M, y el rendimiento era parecido, pero la velocidad era mucho mejor
      Probablemente porque usaba los tokens de forma agresiva sin intentar ahorrar
    • También hubo un comentario preguntando si el pago era personal o de la empresa
      Dijeron que en su empresa solo les cubren GitHub Copilot
  • Hubo una pregunta sobre si las sesiones largas consumen rápido el presupuesto de tokens
    La razón es que, conforme la conversación se alarga, el contexto anterior se sigue reenviando

    • Sí. Incluso usando caché, con 800k tokens se acumulan como $0.40 por solicitud bastante rápido
      Si hay muchas llamadas a herramientas, te pueden cobrar varias veces por minuto
    • Si aprovechas bien el context caching, puedes reducir mucho el costo
      Se pueden cachear hasta 900k tokens