- Claude Opus 4.5 es un modelo de IA con desempeño de primer nivel en escritura de código, ejecución de agentes y uso de computadoras
- Logró la puntuación más alta en la prueba real de ingeniería de software (SWE-bench Verified), con grandes mejoras en eficiencia de tokens y capacidad de razonamiento
- El precio baja a $5/$25 por millón de tokens, lo que permite que más desarrolladores y empresas aprovechen capacidades de nivel Opus
- El nuevo parámetro
effort, la gestión de contexto y las mejoras en uso de herramientas actualizan de forma importante Claude Developer Platform y Claude Code
- El refuerzo de seguridad y alineación, junto con una mejor defensa ante prompt injection, marca un punto de inflexión para aumentar la confianza en el uso de IA en toda la industria
Resumen de Claude Opus 4.5
- Anthropic presentó Claude Opus 4.5, al que describe como un modelo de clase mundial en codificación, agentes y uso de computadoras
- También mejora en tareas cotidianas como investigación, presentaciones y manejo de hojas de cálculo
- Se evalúa como un paso que amplía el rango de tareas que los sistemas de IA pueden realizar
- Opus 4.5 obtuvo la puntuación más alta en la prueba SWE-bench Verified
- Está disponible de inmediato en la app de Anthropic, la API y las tres principales plataformas de nube
- Nombre del modelo en la API:
claude-opus-4-5-20251101
- Precio: entrada $5 / salida $25 (por millón de tokens)
Comentarios de usuarios iniciales y pruebas
- En pruebas internas se reportó una mejora en la capacidad para manejar problemas ambiguos y resolver bugs complejos
- Usuarios tempranos de varias empresas compartieron comentarios como los siguientes
- Mejora en la calidad del código y reducción del uso de tokens a la mitad
- Muy buen desempeño en razonamiento de múltiples pasos, trabajo autónomo de largo plazo y flujos de trabajo con agentes
- Más de 15% de mejora en eficiencia frente a Sonnet 4.5
- Confirmación de la posibilidad de implementar agentes de IA con auto-mejora
- Mejoras en áreas como automatización de Excel, visualización 3D, revisión de código y generación de historias
- Reportes de reducción de 50 a 75% en errores de llamadas a herramientas y errores de build, además de mejoras de velocidad
Evaluación de desempeño
- En el examen interno de ingeniería de software de Anthropic, superó la mejor puntuación de los candidatos humanos
- Logró el mejor resultado dentro de un límite de 2 horas
- Las capacidades de visión, razonamiento y matemáticas mejoraron de forma general, alcanzando estado del arte (SOTA) en varios benchmarks
- En la prueba τ2-bench se presentó un caso de resolución creativa de problemas
- Sin evadir la política que impedía cambiar un boleto de avión, lo resolvió mediante un procedimiento legal (mejorar el asiento y luego cambiar el itinerario)
- Aunque el benchmark lo registró como un fallo, se mencionó como ejemplo de capacidad de razonamiento creativo
Mejoras en seguridad y alineación
- Claude Opus 4.5 es el modelo más fuertemente alineado que Anthropic ha lanzado
- Su resistencia a ataques de prompt injection está entre las mejores de la industria
- También mostró resultados sobresalientes en un benchmark de ataques avanzados desarrollado por Gray Swan
- Tiene una puntuación baja en “comportamiento preocupante (concerning behavior)”, lo que reduce la posibilidad de uso malicioso y fallos autónomos
- La evaluación detallada de seguridad y desempeño está incluida en la Claude Opus 4.5 system card
Actualizaciones de Claude Developer Platform
- Opus 4.5 logra mejores resultados con menos tokens
- El nuevo parámetro
effort permite ajustar el equilibrio entre velocidad, costo y desempeño
- En un nivel intermedio de effort, iguala el desempeño de Sonnet 4.5 con una reducción de 76% en tokens de salida
- En el nivel más alto de effort, mejora 4.3% en desempeño frente a Sonnet 4.5, con 48% menos tokens
- Las funciones de effort control, context compaction y uso avanzado de herramientas mejoran la eficiencia en tareas de larga duración
- La gestión de contexto y las funciones de memoria mejoran en 15% el desempeño en tareas de agentes
- La plataforma evoluciona gradualmente hacia una estructura modular y componible
Actualizaciones de producto
- Claude Code mejora la precisión y capacidad de ejecución de Plan Mode con base en Opus 4.5
- Antes de ejecutar, genera un archivo plan.md para revisión del usuario
- En la app de escritorio admite ejecución paralela de múltiples sesiones
- La app de Claude mantiene el contexto con una función de resumen automático de conversaciones largas
- Claude for Chrome ya está disponible para todos los usuarios Max
- Claude for Excel amplía su beta a usuarios Max, Team y Enterprise
- El aumento en los límites de uso exclusivos de Opus 4.5 permite usarlo en trabajo cotidiano
Información adicional
- Todas las evaluaciones (evals) se realizaron promediando 5 ejecuciones con 64K thinking budget, ventana de contexto de 200K y configuración predeterminada de effort (high)
- Algunas pruebas como SWE-bench Verified y Terminal Bench usaron configuraciones separadas
- La investigación relacionada y los resultados detallados pueden consultarse en la Claude Opus 4.5 system card
Noticias relacionadas
- Claude se integró en Microsoft Foundry y Microsoft 365 Copilot
- Se firmó una alianza estratégica entre Microsoft, NVIDIA y Anthropic
- Anthropic planea comprar capacidad de cómputo en Azure por 30 mil millones de dólares y sumar un contrato adicional de hasta 1GW
- Colaboración con el gobierno de Ruanda y ALX para ampliar la educación en IA en África
2 comentarios
Hay que pagar la tarifa del 5G, también suscribirse a Netflix, y ahora hasta a la IA también hay que suscribirse también, snif snif.
Opiniones en Hacker News
El punto clave de este anuncio es la rebaja de precio de Opus 4.5
$5/$25 por MTok representa una reducción de 3 veces frente a Opus 4, así que ya no es un “modelo para usar solo en cosas importantes”, sino un modelo viable para cargas de trabajo reales en producción
Además, afirman que su resistencia a prompt injection está a nivel SOTA; si las métricas de la system card se mantienen incluso bajo pruebas agresivas, eso sería muy significativo para quienes despliegan agentes con permisos de acceso a herramientas
Aun así, la expresión “el modelo más alineado” suena un poco exagerada, y da curiosidad ver los resultados de red teaming de terceros
Se eliminó el límite exclusivo para Opus, y ahora los usuarios de Max y Team Premium pueden usar una cantidad de tokens similar a la época de Sonnet
Dicen que ajustaron los límites de uso para que sea posible aprovechar Opus 4.5 en el trabajo diario
El costo promedio por hilo del equipo de Amp fue de $1.83 para Sonnet 4.5 y de $1.30 para Opus 4.5
Más que el precio por token, el mayor ahorro vino de la reducción de errores gracias a la mejora en inteligencia
Parece que reforzaron el fine-tuning orientado a benchmarks, y da curiosidad cómo rendirá en pruebas no objetivo como eqbench.com
Parece que el término “seguridad” está evolucionando hacia otro significado
Puede que eso sea algo distinto de la resistencia a prompt injection
Este modelo será revolucionario por 2 a 4 semanas, y luego vendrá el “nerf”
Durante los meses siguientes, a quienes señalen una caída de rendimiento los acusarán de “falta de habilidad”, y después de que un ingeniero anuncie que encontró “algunos bugs”, saldrá Opus 4.7
Ahora mi lealtad se mide en ciclos de nerf
Porque en benchmarks no hay evidencia de degradación
Si la caída que perciben los humanos fuera real, eso sugeriría que existe un factor x que los benchmarks no capturan
Desde la generación v2.5 no ha habido degradación, y sospecho que Anthropic quizá esté reemplazando modelos cuantizados
En consultas aisladas con poca dependencia del contexto, la caída de rendimiento se nota menos
Probé Gemini 3 Pro en Cursor y es mucho más débil que Sonnet 4.5
Hubo problemas que solo Claude Code pudo resolver, y Sonnet 4.5 funciona especialmente bien dentro de Cursor
Creo que Anthropic tomó la decisión correcta al apostar por una estrategia centrada en ingeniería de software
Es el modelo que más espero rumbo a 2026
str_replace_editorCursor no tiene herramientas así, y por eso aparece la diferencia de rendimiento
El tuit relacionado está aquí
Opus/Sonnet/GPT son mucho más adecuados para flujos de trabajo con agentes
Azure GPT-4.1, Bedrock Sonnet 4 y Perplexity fueron mucho más estables
Me da curiosidad la experiencia de otras personas
serialize()codificado en base64 y le pedí extraer URLs, y devolvió el link de YouTube de Rick AstleyLa system card de Claude Opus 4.5 es mucho más detallada que el blog de marketing
Es un PDF de 150 páginas, y la sección sobre engaño (deception) es especialmente interesante
Por ejemplo, hay un caso en el que, incluso tras recibir la noticia de la disolución del equipo de seguridad de Anthropic, oculta esa información al usuario
También trata riesgos relacionados con CBRN, y Opus sigue en nivel ASL-3, así que no representa un riesgo a gran escala
Subí un resumen del blog sobre esto aquí
Estos resultados de benchmarks realmente me alegran
Gracias a esto pude mantener mi Coding Agent actual
En un entorno de IA que cambia tan rápido, cada vez era más difícil mantenerse al día sin FOMO, pero esta vez Anthropic vuelve a demostrar competitividad
La combinación de Sonnet y Claude Code ya era suficientemente estable, y después de 4.5 mejoró automáticamente
Simplemente ignoré la tentación de cambiarme a Codex
Aunque Claude genere código un poco mejor, GPT permite solicitudes ilimitadas, lo que da más libertad para experimentar
Opus sí es un avance significativo, pero no parece un cambio fundamental de flujo de trabajo
Ojalá aguante bien en la competencia
Solo uso Codex temporalmente cuando aparecen restricciones
Lo que más me impresionó de Opus 4.5 fueron sus funciones avanzadas de herramientas
Según el documento Advanced Tool Use, permite búsqueda de herramientas, llamadas programáticas y aprendizaje con ejemplos in-context, entre otras cosas
Sorprende que hayan usado 130 mil tokens solo para definir herramientas
El video de demostración del juego de acertijos también fue interesante
Leí la reseña de Opus de Simon Willison
En la mayoría de las tareas, la brecha de tooling es mayor que la del modelo
There model→Their modelSi miras el leaderboard de ARC-AGI-2, la comparación costo/rendimiento entre modelos queda clara
Opus 4.5 muestra un resultado excelente frente a Gemini 3, y Gemini 3 Deep Think sigue en primer lugar, pero cuesta más de 30 veces más
En diciembre de 2024, cuando OpenAI superó el rendimiento humano en ARC-AGI-1, costaba $3,000 por tarea, y ahora bajó a unos pocos dólares, una reducción de 80 veces
Consulta el leaderboard y el blog relacionado
Si ambos tuvieran el mismo acceso a herramientas, la brecha entre los dos modelos sería menor
Últimamente da la impresión de que la velocidad de mejora de los LLM se ha desacelerado
La mejora en precisión es pequeña, pero la eficiencia sí ha mejorado mucho
Últimamente Sonnet 4.5 parece haberse vuelto más tonto
Ni siquiera pudo manejar bien un CSS sencillo
Está bien que Opus sea 3 veces más barato, pero en la suscripción Claude Code Pro todavía no se puede usar
Se puede usar Opus en la etapa de planificación con el comando
/model opusplan, pero la estructura de consumo de créditos no es transparenteUn arreglo simple de CSS costó $0.95, demasiado caro
En adelante voy a probar cambiar manualmente entre Opus y Sonnet
En horas pico la degradación parece inevitable, así que estaría bien contar con una señal de carga
Quizá la bajaron intencionalmente para promocionar el nuevo modelo, o tal vez, por el aumento de carga al repartir créditos gratis, estén ejecutando una versión cuantizada
Da pena la falta de transparencia e inestabilidad de Anthropic
Pensé que era solo un error temporal, pero da la impresión de que algo cambió