Opus 4.6 y Sonnet 4.6 comienzan a ofrecer disponibilidad general de contexto de 1M

(claude.com)

1 puntos por GN⁺ 2026-03-14 | 1 comentarios | Compartir por WhatsApp

Claude Opus 4.6 y Sonnet 4.6 ahora admiten una ventana de contexto de 1 millón de tokens (1M) con la tarifa estándar, por lo que se puede usar el rango completo sin prima adicional
El precio se mantiene igual: Opus 4.6 cuesta $5/$25 y Sonnet 4.6 $3/$15 (entrada/salida), y tanto una solicitud de 9K como una de 900K se cobran con la misma proporción
El límite de entrada de medios se amplió 6 veces, lo que permite procesar hasta 600 imágenes o páginas de PDF de una sola vez, y ya está disponible en Azure Foundry, Google Vertex AI y otros servicios
Los usuarios Max, Team y Enterprise de Claude Code pueden aprovechar automáticamente el contexto de 1M, reduciendo la compresión de sesiones y mejorando la capacidad de mantener la conversación
Se considera una función que mejora la precisión y la eficiencia al mantener contextos complejos y de largo plazo, como grandes bases de código, contratos y logs operativos

Resumen de la disponibilidad general del contexto de 1M

Opus 4.6 y Sonnet 4.6 ofrecen una ventana de contexto de 1M en Claude Platform con tarifa estándar
- Opus 4.6 cuesta $5 por millón de tokens de entrada / $25 por millón de tokens de salida, y Sonnet 4.6 $3/$15
- No hay tarifas diferenciadas según el tamaño de la solicitud
Se elimina la prima por contexto largo y se mantiene el mismo rendimiento en todas las longitudes de contexto
El límite de entrada de medios aumenta 6 veces: admite hasta 600 imágenes o páginas de PDF
No se requiere encabezado beta, y las solicitudes que superen 200K tokens se procesan automáticamente

Integración con Claude Code

El contexto de 1M se activa automáticamente al usar Opus 4.6 en los planes Max, Team y Enterprise de Claude Code
- Menor compresión (compaction) de la conversación dentro de la sesión
- Antes requería uso adicional, pero ahora viene incluido por defecto

Rendimiento y precisión del modelo

Opus 4.6 alcanza 78.3% en MRCR v2, el mejor rendimiento entre los modelos con la misma longitud de contexto
Incluso con contexto de 1M, mantiene la precisión y mejora el rendimiento de recuperación en textos largos
Puede procesar grandes bases de código, contratos y logs de agentes de largo plazo manteniendo todo el contexto intacto
- Conserva toda la conversación sin necesidad de resumir ni reiniciar el contexto

Casos de uso reales

Investigación científica: permite analizar de forma integrada cientos de artículos, marcos matemáticos y código de simulación de una sola vez (Alex Wissner-Gross)
Trabajo legal: permite comparar varias versiones de un contrato de 100 páginas en una sola sesión (Bardia Pourvakil)
Análisis de sistemas operativos: mantiene visibles todas las señales y las hipótesis durante la respuesta a incidentes (Mayank Agarwal)
Investigación en IA y revisión de código: procesa archivos diff de gran tamaño de una sola vez para mejorar la calidad (Adhyyan Sekhsaria)
Análisis de datos y depuración: conserva los detalles sin pérdida al buscar en Datadog, bases de datos y código fuente (Anton Biryukov)
Mejora de la eficiencia de agentes: reduce 15% los eventos de compresión de contexto y conserva la información inicial incluso en sesiones largas (Jon Bell)

Plataformas disponibles y cómo empezar

El contexto de 1M ya está disponible en Claude Platform, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry
Los usuarios de Claude Code Max, Team y Enterprise basados en Opus 4.6 reciben el contexto de 1M por defecto
Los detalles se pueden consultar en las páginas oficiales de documentation y pricing

1 comentarios

GN⁺ 2026-03-14

Comentarios en Hacker News

Opus 4.6 está realmente a un nivel impresionante
Maneja bien cualquier tarea que le tires, ya sea frontend, backend o algoritmos
Si empiezas con un PRD, haces un plan por etapas y lo ejecutas una por una, en unas horas sale un resultado que de verdad funciona
Fue la primera IA que me hizo pensar: “esto parece más inteligente que yo”
Además, con la tecnología actual incluso se pueden correr varios agentes al mismo tiempo a una velocidad de 1k tokens por segundo
- Yo también quería tener una experiencia así
  Le encargué a Claude Code basado en Opus 4.6 refactorizar código React, concretamente cambiar useState/useEffect → useMemo
  El plan era excelente, pero en parte del código puso declaraciones de variables en lugares equivocados y eso generó referencias undefined
  Cuando intentó corregirlo, quiso cambiar demasiado la estructura, así que al final lo arreglé a mano
  Aun así, en general sí me ahorró tiempo, pero fue una experiencia bastante frustrante
- Tengo curiosidad por saber qué estás construyendo
  Yo intenté hacer un test harness para una herramienta de diff de base de datos con Opus 4.6, pero generó pruebas para otra herramienta existente que no tenía nada que ver
  El código de prueba ni siquiera llamaba a la función real y en su lugar implementaba la lógica directamente
  Después de 4 horas y $75, apenas conseguí algo que corriera, pero la calidad fue mala
  En la empresa también nos dijeron que aumentáramos el presupuesto para usar Claude, pero todos están sufriendo algo parecido
  Ahorita es mucho más eficiente usarlo para ediciones parciales o debugging en VS Studio
- Una vez caí en un bucle de IA
  Era un problema de cálculo sobre acumulación de sedimentos en un tanque topográfico, y Opus siguió repitiendo tres explicaciones contradictorias
  Incluso tras tres intentos seguía atrapado en el mismo bucle, así que al final lo resolví forzando un enfoque brute force
  Una persona probablemente no habría caído en ese tipo de bucle para el segundo intento
- Para mí, Opus 4.6 ya está a nivel AGI
  No solo sigue instrucciones, también propone por sí sola ideas de mejora que no le pediste
Lo clave de esta actualización es la tarifa estándar aplicada a toda la ventana de 1M tokens y el soporte para 600 imágenes/páginas PDF
Para los usuarios de Claude Code es un cambio grande
- Dudo que realmente sea útil llenar por completo una ventana de 1M
  A mí me resultó más estable mantenerlo por debajo del 40% (unos 80k tokens), como en la investigación de Dex Horthy
  Por cierto, el video “No vibes allowed” está aquí
- En la empresa sí usamos la ventana de 1M en trabajo real
  Hasta 700k tokens iba bien, pero por encima de eso se sentía que se volvía un poco más torpe
  Es más estable usarlo en modo pair programming que en automatización total
- Mientras más grande es el contexto, mayor es el costo de los tokens de entrada
  800k de entrada cuestan 8 veces más que 100k, así que si el caché no pega puede convertirse en una factura brutal de API
- Alguien bromeó: “entonces, ¿una imagen vale 1,666 palabras?”
- En mi caso, en la ventana de 1M la calidad al programar cae drásticamente
  A menudo olvida el contexto durante la conversación
Alguien comentó que simplemente es mejor escribir el código uno mismo
Mi carrera se movió de Python a C/C++
Con Python, Opus a veces puede hacerlo mejor que yo, pero en embebidos sigue en nivel junior
Creo que al final es un problema de calidad de los datos de entrenamiento
Por eso no creo que los LLM vayan a reemplazar a los ingenieros de hardware en el corto plazo
Yo armé checks de CI para evitar el thrashing en código generado por IA
Muchas veces el agente, al intentar corregir fallos de tests repetidamente, mete imports fantasma o deprecated API
Por eso en cada PR corro un escaneo ligero para detectar paquetes npm inexistentes o salidas de contexto
El análisis estático tradicional solo ve sintaxis, pero el código de IA muchas veces está mal semánticamente
Creo que este tipo de validación basada en conocimiento del dominio va a ser indispensable
Hubo una publicación preguntando por qué el rendimiento cae cerca de los 100k tokens
Muchos opinan que el contexto realmente utilizable es más pequeño
- Yo casi no he sentido esa caída de rendimiento en Opus 4.6
  Quizá sea una ilusión por experiencias pasadas que todavía arrastro
- Según mi experiencia, la context rot sigue existiendo
  Si usas 90k tokens, da igual si el límite es 100k o 1M: se degrada de forma parecida
  En codebases grandes, la calidad del prompt es la clave
- Creo que la gráfica del benchmark ya es, por sí sola, la respuesta
- Como la complejidad de attention en los Transformer crece al cuadrado con el tamaño del contexto,
  para procesar 1M tokens hay que usar varias técnicas de aproximación, y eso podría ser la causa de la caída de rendimiento
En Claude Code 2.1.75 desapareció la distinción entre Opus normal y Opus 1M
Incluso en el plan Pro se ve así, pero en la práctica siguen existiendo límites
Probablemente sea una estrategia de Anthropic para responder a la competencia de la ventana de 1M de GPT 5.4
- En Max 20x sigue existiendo como modelo separado
- En Pro, el contexto de 1M todavía tiene costo adicional
La política de precios de Claude es rara
El plan 5X cuesta exactamente 5 veces más que el plan anterior
Normalmente hay descuento por volumen, pero aquí no
- Anthropic ya tiene una demanda que supera la oferta, así que no necesita incentivar que la gente use más
  Más bien parece que prefieren que 5 personas lo usen repartido antes que una sola persona usándolo 5 veces más
- El plan 5X es solo de enganche, y en realidad la estrategia es vender el plan 20x
- Alguien bromeó con “ya lo compensarán por volumen”
- También hubo quien opinó que ambos planes son buenas ofertas subsidiadas
Lo probé hoy y de verdad fue un cambio interesante
Ahora se pueden meter varias sesiones paralelas de subagentes dentro de una sola sesión maestra
Dicen que Opus 1M está más o menos al nivel de 256k de GPT 5.4, pero casi no pierde calidad
Eso sí, no se desploma bruscamente como el modelo q4 ’25
- Yo usaba seguido Sonnet 4.5 1M, y el rendimiento era parecido, pero la velocidad era mucho mejor
  Probablemente porque usaba los tokens de forma agresiva sin intentar ahorrar
- También hubo un comentario preguntando si el pago era personal o de la empresa
  Dijeron que en su empresa solo les cubren GitHub Copilot
Hubo una pregunta sobre si las sesiones largas consumen rápido el presupuesto de tokens
La razón es que, conforme la conversación se alarga, el contexto anterior se sigue reenviando
- Sí. Incluso usando caché, con 800k tokens se acumulan como $0.40 por solicitud bastante rápido
  Si hay muchas llamadas a herramientas, te pueden cobrar varias veces por minuto
- Si aprovechas bien el context caching, puedes reducir mucho el costo
  Se pueden cachear hasta 900k tokens

Opus 4.6 y Sonnet 4.6 comienzan a ofrecer disponibilidad general de contexto de 1M

Resumen de la disponibilidad general del contexto de 1M

Integración con Claude Code

Rendimiento y precisión del modelo

Casos de uso reales

Plataformas disponibles y cómo empezar

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News