Lanzamiento de Claude Opus 4.6

(anthropic.com)

20 puntos por GN⁺ 2026-02-06 | 9 comentarios | Compartir por WhatsApp

El modelo de IA más reciente de Anthropic, con mejores capacidades de programación y mayor persistencia en tareas de larga duración, ahora ofrece una ventana de contexto de 1M tokens en beta
Obtuvo puntuaciones de nivel líder en la industria en benchmarks clave, con una ventaja de aproximadamente 144 puntos Elo sobre GPT-5.2
Se reforzó su rendimiento en tareas orientadas al trabajo real como revisión de código y depuración, manejo de bases de código a gran escala y análisis financiero y redacción de documentos
Se añadieron funciones de control para desarrolladores como Adaptive thinking, context compaction y ajuste de effort, lo que facilita operar agentes de ejecución prolongada
En evaluaciones de seguridad también mostró bajas tasas de errores, uso indebido y rechazos excesivos, por lo que se considera un modelo que logra alto rendimiento y seguridad al mismo tiempo

Principales mejoras de Claude Opus 4.6

Opus 4.6 mejora frente a la versión anterior en capacidad de planificación, persistencia de agentes y control de calidad de código
- Funciona con mayor estabilidad en bases de código grandes y fortalece su capacidad para detectar y corregir errores por sí mismo
- Puede manejar tareas largas y complejas gracias a su ventana de contexto de 1M tokens (beta)
También amplía su utilidad en el trabajo diario, permitiendo realizar tareas como análisis financiero, investigación, creación de documentos, hojas de cálculo y presentaciones
En el entorno de Cowork puede ejecutar múltiples tareas de forma autónoma, resolviendo trabajos complejos en nombre del usuario

Benchmarks y evaluación de rendimiento

Alcanzó la mejor puntuación en Terminal-Bench 2.0 y también lideró entre todos los modelos frontier en Humanity’s Last Exam
En la evaluación GDPval-AA mostró un rendimiento aproximadamente 144 puntos Elo superior a GPT-5.2 y 190 puntos por encima de Opus 4.5
También registró el mejor resultado en la prueba BrowseComp, mejorando su capacidad de búsqueda de información en línea
En MRCR v2 (1M variant) obtuvo 76%, un gran salto frente al 18.5% de Sonnet 4.5
Se mejoró la retención de contexto largo y la capacidad de rastrear información, reduciendo el fenómeno de context rot

Experiencia de uso inicial y comentarios de socios

En pruebas internas de ingeniería mejoró la capacidad para resolver problemas complejos y el criterio
- Ante problemas difíciles, repite procesos de razonamiento profundo para obtener mejores resultados
- En tareas simples, pensar demasiado puede causar demoras, por lo que esto puede ajustarse con el parámetro /effort
Los primeros socios evaluaron que Opus 4.6 sobresale en capacidad de ejecución autónoma, manejo de solicitudes complejas y apoyo al trabajo colaborativo en equipo
- Mostró gran precisión al explorar bases de código grandes, ejecutar subtareas en paralelo e identificar bloqueadores
- Alta precisión en análisis de contenido legal, financiero y técnico (por ejemplo, BigLaw Bench 90.2%)
- En pruebas reales, ofreció mejores resultados que Opus 4.5 en 38 de 40 investigaciones de ciberseguridad
- Se reportó un caso en el que completó la migración de millones de líneas de código en la mitad del tiempo

Refuerzos en seguridad y protección

En la auditoría automatizada de comportamiento mostró bajas tasas de conductas no alineadas como engaño, adulación o colaboración en usos indebidos
Es el modelo Claude con la menor tasa de rechazo excesivo (over-refusal)
Se realizaron nuevas evaluaciones de seguridad sobre bienestar del usuario, rechazo de solicitudes riesgosas y detección de conductas dañinas encubiertas
Mediante investigación de interpretabilidad se analizaron las causas del funcionamiento interno del modelo y se detectaron posibles problemas
Con el fortalecimiento de sus capacidades de ciberseguridad, se incorporaron 6 nuevas sondas de seguridad para reforzar la detección de abusos
Como uso defensivo, apoya la detección y corrección de vulnerabilidades en open source, con planes futuros para bloquear abusos en tiempo real

Actualizaciones de producto y API

En la Claude Developer Platform se añadieron las siguientes funciones
- Adaptive thinking: el modelo decide automáticamente si necesita razonamiento profundo según la situación
- Nivel de effort: ofrece cuatro niveles, low, medium, high (predeterminado) y max
- Context compaction (beta): cuando una conversación se alarga, resume y reemplaza contexto antiguo
- Compatibilidad con contexto de 1M tokens (beta) y 128k tokens de salida
- Opción de US-only inference (tarifa 1.1x)
Claude Code añade la función agent teams, permitiendo colaboración paralela entre varios agentes
Claude in Excel mejora su capacidad para estructurar datos no estructurados y procesar cambios en múltiples pasos
Claude in PowerPoint (research preview) reconoce plantillas de diapositivas, fuentes y diseños para mantener consistencia de marca

Acceso y precios

Opus 4.6 está disponible de inmediato en claude.ai, la API y las principales plataformas cloud
El nombre del modelo en la API es claude-opus-4-6, y el precio se mantiene igual que antes: $5/$25 per million tokens
Para prompts de más de 200k tokens se aplica una tarifa premium ($10/$37.50 per million tokens)

Conclusión

Claude Opus 4.6 representa un gran salto en manejo de contexto de largo plazo, trabajo autónomo de agentes y razonamiento avanzado
Como modelo que refuerza a la vez rendimiento, seguridad y control para desarrolladores, plantea un nuevo estándar para las herramientas de IA orientadas al trabajo real

9 comentarios

heim2 2026-02-06

Como uso Max, mientras más tokens gasto, más satisfecho me siento... Si no los uso, siento que es un desperdicio...

duse0001 2026-02-06

Parece que la rebaja de precio que andaba circulando en internet no se aplicó, qué pena :(

wegaia 2026-02-06

Parece que en Reddit están lloviendo publicaciones diciendo que a los suscriptores se les agotan los límites a velocidad de la luz.
Como además tengo otras cosas entre manos, por ahora sigo usando 4.5

xguru 2026-02-06

Parece que durante un período limitado también darán 50 dólares adicionales en créditos de uso. jaja

duse0001 2026-02-06

Esperaba que si bajaban los precios de la API, naturalmente también subiría el límite semanal, pero qué pena T_T. El límite semanal del plan de 200 dólares no es nada holgado..

princox 2026-02-06

Uf, está demasiado caro... ¡Anthropic debería soltar más tokens..!!

hmmhmmhm 2026-02-06

Oooh, por fin~~~~