- El modelo de IA más reciente de Anthropic, con mejores capacidades de programación y mayor persistencia en tareas de larga duración, ahora ofrece una ventana de contexto de 1M tokens en beta
- Obtuvo puntuaciones de nivel líder en la industria en benchmarks clave, con una ventaja de aproximadamente 144 puntos Elo sobre GPT-5.2
- Se reforzó su rendimiento en tareas orientadas al trabajo real como revisión de código y depuración, manejo de bases de código a gran escala y análisis financiero y redacción de documentos
- Se añadieron funciones de control para desarrolladores como Adaptive thinking, context compaction y ajuste de effort, lo que facilita operar agentes de ejecución prolongada
- En evaluaciones de seguridad también mostró bajas tasas de errores, uso indebido y rechazos excesivos, por lo que se considera un modelo que logra alto rendimiento y seguridad al mismo tiempo
Principales mejoras de Claude Opus 4.6
- Opus 4.6 mejora frente a la versión anterior en capacidad de planificación, persistencia de agentes y control de calidad de código
- Funciona con mayor estabilidad en bases de código grandes y fortalece su capacidad para detectar y corregir errores por sí mismo
- Puede manejar tareas largas y complejas gracias a su ventana de contexto de 1M tokens (beta)
- También amplía su utilidad en el trabajo diario, permitiendo realizar tareas como análisis financiero, investigación, creación de documentos, hojas de cálculo y presentaciones
- En el entorno de Cowork puede ejecutar múltiples tareas de forma autónoma, resolviendo trabajos complejos en nombre del usuario
Benchmarks y evaluación de rendimiento
- Alcanzó la mejor puntuación en Terminal-Bench 2.0 y también lideró entre todos los modelos frontier en Humanity’s Last Exam
- En la evaluación GDPval-AA mostró un rendimiento aproximadamente 144 puntos Elo superior a GPT-5.2 y 190 puntos por encima de Opus 4.5
- También registró el mejor resultado en la prueba BrowseComp, mejorando su capacidad de búsqueda de información en línea
- En MRCR v2 (1M variant) obtuvo 76%, un gran salto frente al 18.5% de Sonnet 4.5
- Se mejoró la retención de contexto largo y la capacidad de rastrear información, reduciendo el fenómeno de context rot
Experiencia de uso inicial y comentarios de socios
- En pruebas internas de ingeniería mejoró la capacidad para resolver problemas complejos y el criterio
- Ante problemas difíciles, repite procesos de razonamiento profundo para obtener mejores resultados
- En tareas simples, pensar demasiado puede causar demoras, por lo que esto puede ajustarse con el parámetro
/effort
- Los primeros socios evaluaron que Opus 4.6 sobresale en capacidad de ejecución autónoma, manejo de solicitudes complejas y apoyo al trabajo colaborativo en equipo
- Mostró gran precisión al explorar bases de código grandes, ejecutar subtareas en paralelo e identificar bloqueadores
- Alta precisión en análisis de contenido legal, financiero y técnico (por ejemplo, BigLaw Bench 90.2%)
- En pruebas reales, ofreció mejores resultados que Opus 4.5 en 38 de 40 investigaciones de ciberseguridad
- Se reportó un caso en el que completó la migración de millones de líneas de código en la mitad del tiempo
Refuerzos en seguridad y protección
- En la auditoría automatizada de comportamiento mostró bajas tasas de conductas no alineadas como engaño, adulación o colaboración en usos indebidos
- Es el modelo Claude con la menor tasa de rechazo excesivo (over-refusal)
- Se realizaron nuevas evaluaciones de seguridad sobre bienestar del usuario, rechazo de solicitudes riesgosas y detección de conductas dañinas encubiertas
- Mediante investigación de interpretabilidad se analizaron las causas del funcionamiento interno del modelo y se detectaron posibles problemas
- Con el fortalecimiento de sus capacidades de ciberseguridad, se incorporaron 6 nuevas sondas de seguridad para reforzar la detección de abusos
- Como uso defensivo, apoya la detección y corrección de vulnerabilidades en open source, con planes futuros para bloquear abusos en tiempo real
Actualizaciones de producto y API
- En la Claude Developer Platform se añadieron las siguientes funciones
- Adaptive thinking: el modelo decide automáticamente si necesita razonamiento profundo según la situación
- Nivel de effort: ofrece cuatro niveles, low, medium, high (predeterminado) y max
- Context compaction (beta): cuando una conversación se alarga, resume y reemplaza contexto antiguo
- Compatibilidad con contexto de 1M tokens (beta) y 128k tokens de salida
- Opción de US-only inference (tarifa 1.1x)
- Claude Code añade la función agent teams, permitiendo colaboración paralela entre varios agentes
- Claude in Excel mejora su capacidad para estructurar datos no estructurados y procesar cambios en múltiples pasos
- Claude in PowerPoint (research preview) reconoce plantillas de diapositivas, fuentes y diseños para mantener consistencia de marca
Acceso y precios
- Opus 4.6 está disponible de inmediato en claude.ai, la API y las principales plataformas cloud
- El nombre del modelo en la API es
claude-opus-4-6, y el precio se mantiene igual que antes: $5/$25 per million tokens
- Para prompts de más de 200k tokens se aplica una tarifa premium ($10/$37.50 per million tokens)
Conclusión
- Claude Opus 4.6 representa un gran salto en manejo de contexto de largo plazo, trabajo autónomo de agentes y razonamiento avanzado
- Como modelo que refuerza a la vez rendimiento, seguridad y control para desarrolladores, plantea un nuevo estándar para las herramientas de IA orientadas al trabajo real
9 comentarios
Como uso Max, mientras más tokens gasto, más satisfecho me siento... Si no los uso, siento que es un desperdicio...
Parece que la rebaja de precio que andaba circulando en internet no se aplicó, qué pena :(
Parece que en Reddit están lloviendo publicaciones diciendo que a los suscriptores se les agotan los límites a velocidad de la luz.
Como además tengo otras cosas entre manos, por ahora sigo usando 4.5
Parece que durante un período limitado también darán 50 dólares adicionales en créditos de uso. jaja
Esperaba que si bajaban los precios de la API, naturalmente también subiría el límite semanal, pero qué pena T_T. El límite semanal del plan de 200 dólares no es nada holgado..
Uf, está demasiado caro... ¡Anthropic debería soltar más tokens..!!
Oooh, por fin~~~~
Esperaba Sonnet 5, pero era Opus 4.6 jaja
Opiniones de Hacker News
El cuadro de la bicicleta está un poco torcido, pero el pelícano en sí está excelente
La imagen puede verse aquí
Noté enseguida que las dos patas del pelícano estaban del mismo lado, y confirmé en Wikipedia que en realidad no es así
También me pregunto si probaron ir ajustando el prompt repetidamente para obtener un resultado más realista
Suelen equivocarse en la estructura del cuadro o en las proporciones geométricas
Enlace
GPT‑5.3 Codex mostró un rendimiento aplastante de 77.3% en Terminal Bench
Sorprende que el récord se haya roto en apenas 35 minutos
También me pregunto si justo después del lanzamiento lo ejecutan al máximo rendimiento y luego lo bajan para reducir costos
Me gustaría probarlo yo mismo y luego compartir una opinión
Quizás ya llegamos a un punto de saturación en los benchmarks
Este es un resumen de las notas de lanzamiento de Claude Code
Incluye varias actualizaciones, como la incorporación de Opus 4.6, colaboración multi-agent, guardado automático de memoria, resúmenes parciales de conversaciones y mejoras en VSCode
Viendo la documentación de memoria, parece un concepto parecido al Knowledge artifact de Google Antigravity
Creo que en la discusión se están mezclando dos cosas
La primera es la rentabilidad basada en precio por token, y la segunda es la economía del ciclo de vida del modelo
El costo de inferencia puede ser rentable, pero el programa completo del modelo todavía puede operar con pérdidas
La verdadera pregunta es: “¿cuánto tiempo necesita mantenerse competitivo un modelo para que tenga sentido económicamente?”
Aunque no sea el mejor, si es suficientemente bueno y el costo de cambio es alto, puede dominar el mercado
Al principio, incluso aceptando pérdidas, puede ser razonable asegurar mercado alrededor de un dominio específico (por ejemplo, programación)
Pero un plan donde el uso aumenta 20 veces genera dudas sobre su sostenibilidad
No sé si este actual “renacimiento del vibe-coding” pueda mantenerse con una estructura de costos así
Ver ganancias y pérdidas por año no encaja bien con la naturaleza de una empresa de IA
Eso es lo que hoy sostiene el boom del coding con agentes
Probablemente sí lo esté un poco, pero a largo plazo podría subir más o menos al doble
La llegada de una ventana de contexto de 1M es una mejora enorme y me tiene muy satisfecho
Todavía no termino de entender la estrategia de Anthropic
Hace marketing para el mercado masivo, pero su fortaleza real está claramente en la programación
Para investigación general o búsqueda de información, ChatGPT o Gemini son mucho más profundos y también se expresan mejor
Hacen marketing de humanidad con cosas como la “constitución” o los “derechos humanos”, pero al final se sienten como los más transaccionales
Aun así, para programar es excelente, así que lo sigo pagando
Amigos no técnicos míos se pasaron de ChatGPT a Claude y no he visto a ninguno regresar
Hace 8 meses solo valía la pena en la API, pero ahora mejoró muchísimo
Yo uso checo, y Claude inventa palabras; Grok a veces hasta responde en ruso
Para programar sirve, pero para conversación general es imposible
Es bueno para tareas agentivas o uso de herramientas, pero no lo uso para preguntas del día a día
Opus 4.6 no me aparecía en la instalación, pero al volver a ejecutar el comando de instalación sí apareció (v2.1.32)
Guía de instalación
Me pregunto si en realidad los costos operativos de AI/LLM sí están bajando
El concepto de “equipo de agentes” suena genial, pero si ejecutas varios modelos al mismo tiempo, el costo sube tanto que parece poco realista
OpenAI redujo el precio de o3 a 1/5 mediante optimización de ingeniería, y otras empresas también lograron recortes parecidos
Ese viejo comentario de que “pierden dinero en cada solicitud” no es cierto
La empresa completa puede perder dinero por I+D y entrenamiento, pero el uso de la API en sí deja ganancia
Incluso modelos abiertos como DeepSeek generan ingresos con precios mucho más bajos
Por ejemplo, Claude 4 (unos 400B parámetros) es mucho más caro que DeepSeek V3 (680B)
Claude entrada $1/M, salida $5/M vs DeepSeek entrada $0.4/M, salida $1.2/M
Esa diferencia existe porque Anthropic necesita recuperar el costo de entrenamiento
Precios de DeepSeek, Precios de Claude
Si solo miras el ingreso por inferencia, parece rentable, pero si miras el costo total quizá no lo sea
Los uso como apoyo para programar, pero a menudo hace falta corregirles el rumbo
Aun así, siguen siendo mucho más baratos que contratar personal altamente capacitado
La frase “We build Claude with Claude” me parece bastante interesante
Aunque se limpian automáticamente tras 60 días de inactividad, el número sigue creciendo
Fuera de revelar cierto sesgo, esa frase no significa demasiado
Usar tu propio producto es la mejor manera de mejorar la calidad
Esa es una de las razones de la explosión actual de wrappers, y da la impresión de que algún día habrá un incidente de seguridad
Están ofreciendo $50 de crédito extra para que la gente pruebe Opus 4.6
Se puede reclamar directamente desde la página de uso
Supongo que esperan un aumento en el uso de tokens o simplemente quieren promocionar el modelo