- Claude Opus 4.6 y Sonnet 4.6 ahora admiten una ventana de contexto de 1 millón de tokens (1M) con la tarifa estándar, por lo que se puede usar el rango completo sin prima adicional
- El precio se mantiene igual: Opus 4.6 cuesta $5/$25 y Sonnet 4.6 $3/$15 (entrada/salida), y tanto una solicitud de 9K como una de 900K se cobran con la misma proporción
- El límite de entrada de medios se amplió 6 veces, lo que permite procesar hasta 600 imágenes o páginas de PDF de una sola vez, y ya está disponible en Azure Foundry, Google Vertex AI y otros servicios
- Los usuarios Max, Team y Enterprise de Claude Code pueden aprovechar automáticamente el contexto de 1M, reduciendo la compresión de sesiones y mejorando la capacidad de mantener la conversación
- Se considera una función que mejora la precisión y la eficiencia al mantener contextos complejos y de largo plazo, como grandes bases de código, contratos y logs operativos
Resumen de la disponibilidad general del contexto de 1M
- Opus 4.6 y Sonnet 4.6 ofrecen una ventana de contexto de 1M en Claude Platform con tarifa estándar
- Opus 4.6 cuesta $5 por millón de tokens de entrada / $25 por millón de tokens de salida, y Sonnet 4.6 $3/$15
- No hay tarifas diferenciadas según el tamaño de la solicitud
- Se elimina la prima por contexto largo y se mantiene el mismo rendimiento en todas las longitudes de contexto
- El límite de entrada de medios aumenta 6 veces: admite hasta 600 imágenes o páginas de PDF
- No se requiere encabezado beta, y las solicitudes que superen 200K tokens se procesan automáticamente
Integración con Claude Code
- El contexto de 1M se activa automáticamente al usar Opus 4.6 en los planes Max, Team y Enterprise de Claude Code
- Menor compresión (
compaction) de la conversación dentro de la sesión
- Antes requería uso adicional, pero ahora viene incluido por defecto
Rendimiento y precisión del modelo
- Opus 4.6 alcanza 78.3% en MRCR v2, el mejor rendimiento entre los modelos con la misma longitud de contexto
- Incluso con contexto de 1M, mantiene la precisión y mejora el rendimiento de recuperación en textos largos
- Puede procesar grandes bases de código, contratos y logs de agentes de largo plazo manteniendo todo el contexto intacto
- Conserva toda la conversación sin necesidad de resumir ni reiniciar el contexto
Casos de uso reales
- Investigación científica: permite analizar de forma integrada cientos de artículos, marcos matemáticos y código de simulación de una sola vez (Alex Wissner-Gross)
- Trabajo legal: permite comparar varias versiones de un contrato de 100 páginas en una sola sesión (Bardia Pourvakil)
- Análisis de sistemas operativos: mantiene visibles todas las señales y las hipótesis durante la respuesta a incidentes (Mayank Agarwal)
- Investigación en IA y revisión de código: procesa archivos
diff de gran tamaño de una sola vez para mejorar la calidad (Adhyyan Sekhsaria)
- Análisis de datos y depuración: conserva los detalles sin pérdida al buscar en Datadog, bases de datos y código fuente (Anton Biryukov)
- Mejora de la eficiencia de agentes: reduce 15% los eventos de compresión de contexto y conserva la información inicial incluso en sesiones largas (Jon Bell)
Plataformas disponibles y cómo empezar
- El contexto de 1M ya está disponible en Claude Platform, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry
- Los usuarios de Claude Code Max, Team y Enterprise basados en Opus 4.6 reciben el contexto de 1M por defecto
- Los detalles se pueden consultar en las páginas oficiales de documentation y pricing
1 comentarios
Comentarios en Hacker News
Opus 4.6 está realmente a un nivel impresionante
Maneja bien cualquier tarea que le tires, ya sea frontend, backend o algoritmos
Si empiezas con un PRD, haces un plan por etapas y lo ejecutas una por una, en unas horas sale un resultado que de verdad funciona
Fue la primera IA que me hizo pensar: “esto parece más inteligente que yo”
Además, con la tecnología actual incluso se pueden correr varios agentes al mismo tiempo a una velocidad de 1k tokens por segundo
Le encargué a Claude Code basado en Opus 4.6 refactorizar código React, concretamente cambiar useState/useEffect → useMemo
El plan era excelente, pero en parte del código puso declaraciones de variables en lugares equivocados y eso generó referencias undefined
Cuando intentó corregirlo, quiso cambiar demasiado la estructura, así que al final lo arreglé a mano
Aun así, en general sí me ahorró tiempo, pero fue una experiencia bastante frustrante
Yo intenté hacer un test harness para una herramienta de diff de base de datos con Opus 4.6, pero generó pruebas para otra herramienta existente que no tenía nada que ver
El código de prueba ni siquiera llamaba a la función real y en su lugar implementaba la lógica directamente
Después de 4 horas y $75, apenas conseguí algo que corriera, pero la calidad fue mala
En la empresa también nos dijeron que aumentáramos el presupuesto para usar Claude, pero todos están sufriendo algo parecido
Ahorita es mucho más eficiente usarlo para ediciones parciales o debugging en VS Studio
Era un problema de cálculo sobre acumulación de sedimentos en un tanque topográfico, y Opus siguió repitiendo tres explicaciones contradictorias
Incluso tras tres intentos seguía atrapado en el mismo bucle, así que al final lo resolví forzando un enfoque brute force
Una persona probablemente no habría caído en ese tipo de bucle para el segundo intento
No solo sigue instrucciones, también propone por sí sola ideas de mejora que no le pediste
Lo clave de esta actualización es la tarifa estándar aplicada a toda la ventana de 1M tokens y el soporte para 600 imágenes/páginas PDF
Para los usuarios de Claude Code es un cambio grande
A mí me resultó más estable mantenerlo por debajo del 40% (unos 80k tokens), como en la investigación de Dex Horthy
Por cierto, el video “No vibes allowed” está aquí
Hasta 700k tokens iba bien, pero por encima de eso se sentía que se volvía un poco más torpe
Es más estable usarlo en modo pair programming que en automatización total
800k de entrada cuestan 8 veces más que 100k, así que si el caché no pega puede convertirse en una factura brutal de API
A menudo olvida el contexto durante la conversación
Alguien comentó que simplemente es mejor escribir el código uno mismo
Mi carrera se movió de Python a C/C++
Con Python, Opus a veces puede hacerlo mejor que yo, pero en embebidos sigue en nivel junior
Creo que al final es un problema de calidad de los datos de entrenamiento
Por eso no creo que los LLM vayan a reemplazar a los ingenieros de hardware en el corto plazo
Yo armé checks de CI para evitar el thrashing en código generado por IA
Muchas veces el agente, al intentar corregir fallos de tests repetidamente, mete imports fantasma o deprecated API
Por eso en cada PR corro un escaneo ligero para detectar paquetes npm inexistentes o salidas de contexto
El análisis estático tradicional solo ve sintaxis, pero el código de IA muchas veces está mal semánticamente
Creo que este tipo de validación basada en conocimiento del dominio va a ser indispensable
Hubo una publicación preguntando por qué el rendimiento cae cerca de los 100k tokens
Muchos opinan que el contexto realmente utilizable es más pequeño
Quizá sea una ilusión por experiencias pasadas que todavía arrastro
Si usas 90k tokens, da igual si el límite es 100k o 1M: se degrada de forma parecida
En codebases grandes, la calidad del prompt es la clave
para procesar 1M tokens hay que usar varias técnicas de aproximación, y eso podría ser la causa de la caída de rendimiento
En Claude Code 2.1.75 desapareció la distinción entre Opus normal y Opus 1M
Incluso en el plan Pro se ve así, pero en la práctica siguen existiendo límites
Probablemente sea una estrategia de Anthropic para responder a la competencia de la ventana de 1M de GPT 5.4
La política de precios de Claude es rara
El plan 5X cuesta exactamente 5 veces más que el plan anterior
Normalmente hay descuento por volumen, pero aquí no
Más bien parece que prefieren que 5 personas lo usen repartido antes que una sola persona usándolo 5 veces más
Lo probé hoy y de verdad fue un cambio interesante
Ahora se pueden meter varias sesiones paralelas de subagentes dentro de una sola sesión maestra
Dicen que Opus 1M está más o menos al nivel de 256k de GPT 5.4, pero casi no pierde calidad
Eso sí, no se desploma bruscamente como el modelo q4 ’25
Probablemente porque usaba los tokens de forma agresiva sin intentar ahorrar
Dijeron que en su empresa solo les cubren GitHub Copilot
Hubo una pregunta sobre si las sesiones largas consumen rápido el presupuesto de tokens
La razón es que, conforme la conversación se alarga, el contexto anterior se sigue reenviando
Si hay muchas llamadas a herramientas, te pueden cobrar varias veces por minuto
Se pueden cachear hasta 900k tokens