Anthropic presenta Claude Opus 4.5

(anthropic.com)

8 puntos por GN⁺ 2025-11-25 | 2 comentarios | Compartir por WhatsApp

Claude Opus 4.5 es un modelo de IA con desempeño de primer nivel en escritura de código, ejecución de agentes y uso de computadoras
Logró la puntuación más alta en la prueba real de ingeniería de software (SWE-bench Verified), con grandes mejoras en eficiencia de tokens y capacidad de razonamiento
El precio baja a $5/$25 por millón de tokens, lo que permite que más desarrolladores y empresas aprovechen capacidades de nivel Opus
El nuevo parámetro effort, la gestión de contexto y las mejoras en uso de herramientas actualizan de forma importante Claude Developer Platform y Claude Code
El refuerzo de seguridad y alineación, junto con una mejor defensa ante prompt injection, marca un punto de inflexión para aumentar la confianza en el uso de IA en toda la industria

Resumen de Claude Opus 4.5

Anthropic presentó Claude Opus 4.5, al que describe como un modelo de clase mundial en codificación, agentes y uso de computadoras
- También mejora en tareas cotidianas como investigación, presentaciones y manejo de hojas de cálculo
- Se evalúa como un paso que amplía el rango de tareas que los sistemas de IA pueden realizar
Opus 4.5 obtuvo la puntuación más alta en la prueba SWE-bench Verified
Está disponible de inmediato en la app de Anthropic, la API y las tres principales plataformas de nube
- Nombre del modelo en la API: claude-opus-4-5-20251101
- Precio: entrada $5 / salida $25 (por millón de tokens)

Comentarios de usuarios iniciales y pruebas

En pruebas internas se reportó una mejora en la capacidad para manejar problemas ambiguos y resolver bugs complejos
Usuarios tempranos de varias empresas compartieron comentarios como los siguientes
- Mejora en la calidad del código y reducción del uso de tokens a la mitad
- Muy buen desempeño en razonamiento de múltiples pasos, trabajo autónomo de largo plazo y flujos de trabajo con agentes
- Más de 15% de mejora en eficiencia frente a Sonnet 4.5
- Confirmación de la posibilidad de implementar agentes de IA con auto-mejora
- Mejoras en áreas como automatización de Excel, visualización 3D, revisión de código y generación de historias
- Reportes de reducción de 50 a 75% en errores de llamadas a herramientas y errores de build, además de mejoras de velocidad

Evaluación de desempeño

En el examen interno de ingeniería de software de Anthropic, superó la mejor puntuación de los candidatos humanos
- Logró el mejor resultado dentro de un límite de 2 horas
Las capacidades de visión, razonamiento y matemáticas mejoraron de forma general, alcanzando estado del arte (SOTA) en varios benchmarks
En la prueba τ2-bench se presentó un caso de resolución creativa de problemas
- Sin evadir la política que impedía cambiar un boleto de avión, lo resolvió mediante un procedimiento legal (mejorar el asiento y luego cambiar el itinerario)
- Aunque el benchmark lo registró como un fallo, se mencionó como ejemplo de capacidad de razonamiento creativo

Mejoras en seguridad y alineación

Claude Opus 4.5 es el modelo más fuertemente alineado que Anthropic ha lanzado
- Su resistencia a ataques de prompt injection está entre las mejores de la industria
- También mostró resultados sobresalientes en un benchmark de ataques avanzados desarrollado por Gray Swan
Tiene una puntuación baja en “comportamiento preocupante (concerning behavior)”, lo que reduce la posibilidad de uso malicioso y fallos autónomos
La evaluación detallada de seguridad y desempeño está incluida en la Claude Opus 4.5 system card

Actualizaciones de Claude Developer Platform

Opus 4.5 logra mejores resultados con menos tokens
El nuevo parámetro effort permite ajustar el equilibrio entre velocidad, costo y desempeño
- En un nivel intermedio de effort, iguala el desempeño de Sonnet 4.5 con una reducción de 76% en tokens de salida
- En el nivel más alto de effort, mejora 4.3% en desempeño frente a Sonnet 4.5, con 48% menos tokens
Las funciones de effort control, context compaction y uso avanzado de herramientas mejoran la eficiencia en tareas de larga duración
La gestión de contexto y las funciones de memoria mejoran en 15% el desempeño en tareas de agentes
La plataforma evoluciona gradualmente hacia una estructura modular y componible

Actualizaciones de producto

Claude Code mejora la precisión y capacidad de ejecución de Plan Mode con base en Opus 4.5
- Antes de ejecutar, genera un archivo plan.md para revisión del usuario
- En la app de escritorio admite ejecución paralela de múltiples sesiones
La app de Claude mantiene el contexto con una función de resumen automático de conversaciones largas
Claude for Chrome ya está disponible para todos los usuarios Max
Claude for Excel amplía su beta a usuarios Max, Team y Enterprise
El aumento en los límites de uso exclusivos de Opus 4.5 permite usarlo en trabajo cotidiano

Información adicional

Todas las evaluaciones (evals) se realizaron promediando 5 ejecuciones con 64K thinking budget, ventana de contexto de 200K y configuración predeterminada de effort (high)
Algunas pruebas como SWE-bench Verified y Terminal Bench usaron configuraciones separadas
La investigación relacionada y los resultados detallados pueden consultarse en la Claude Opus 4.5 system card

Noticias relacionadas

Claude se integró en Microsoft Foundry y Microsoft 365 Copilot
Se firmó una alianza estratégica entre Microsoft, NVIDIA y Anthropic
- Anthropic planea comprar capacidad de cómputo en Azure por 30 mil millones de dólares y sumar un contrato adicional de hasta 1GW
Colaboración con el gobierno de Ruanda y ALX para ampliar la educación en IA en África

2 comentarios

kaydash 2025-11-27

Hay que pagar la tarifa del 5G, también suscribirse a Netflix, y ahora hasta a la IA también hay que suscribirse también, snif snif.

GN⁺ 2025-11-25

Opiniones en Hacker News

El punto clave de este anuncio es la rebaja de precio de Opus 4.5
$5/$25 por MTok representa una reducción de 3 veces frente a Opus 4, así que ya no es un “modelo para usar solo en cosas importantes”, sino un modelo viable para cargas de trabajo reales en producción
Además, afirman que su resistencia a prompt injection está a nivel SOTA; si las métricas de la system card se mantienen incluso bajo pruebas agresivas, eso sería muy significativo para quienes despliegan agentes con permisos de acceso a herramientas
Aun así, la expresión “el modelo más alineado” suena un poco exagerada, y da curiosidad ver los resultados de red teaming de terceros
- Con el lanzamiento de Opus 4.5, se relajaron las restricciones de uso de Claude Code
  Se eliminó el límite exclusivo para Opus, y ahora los usuarios de Max y Team Premium pueden usar una cantidad de tokens similar a la época de Sonnet
  Dicen que ajustaron los límites de uso para que sea posible aprovechar Opus 4.5 en el trabajo diario
- Según pruebas internas, en muchos casos Opus 4.5 resultó más barato de operar que Sonnet
  El costo promedio por hilo del equipo de Amp fue de $1.83 para Sonnet 4.5 y de $1.30 para Opus 4.5
  Más que el precio por token, el mayor ahorro vino de la reducción de errores gracias a la mejora en inteligencia
- La rebaja de precio de 3 veces probablemente significa que Opus 4.5 podría ser un modelo base más pequeño y especializado
  Parece que reforzaron el fine-tuning orientado a benchmarks, y da curiosidad cómo rendirá en pruebas no objetivo como eqbench.com
- Antes veía la sección de “Safety” como una especie de advertencia de ciencia ficción, pero esta vez fue interesante porque trata problemas reales como prompt injection
  Parece que el término “seguridad” está evolucionando hacia otro significado
- Pero Pliney the Liberator ya logró hacerle jailbreak
  Puede que eso sea algo distinto de la resistencia a prompt injection
Este modelo será revolucionario por 2 a 4 semanas, y luego vendrá el “nerf”
Durante los meses siguientes, a quienes señalen una caída de rendimiento los acusarán de “falta de habilidad”, y después de que un ingeniero anuncie que encontró “algunos bugs”, saldrá Opus 4.7
Ahora mi lealtad se mide en ciclos de nerf
- También podría tratarse no de una caída real del rendimiento, sino de una ilusión cognitiva
  Porque en benchmarks no hay evidencia de degradación
  Si la caída que perciben los humanos fuera real, eso sugeriría que existe un factor x que los benchmarks no capturan
- Por eso yo me cambié a Gemini
  Desde la generación v2.5 no ha habido degradación, y sospecho que Anthropic quizá esté reemplazando modelos cuantizados
- Suena a broma, pero realmente podría ser un relanzamiento de Opus 4.0
- Este fenómeno también coincide con el patrón de comportamiento del CEO
- Claude probablemente esté haciendo en secreto experimentos de compresión de contexto
  En consultas aisladas con poca dependencia del contexto, la caída de rendimiento se nota menos
Probé Gemini 3 Pro en Cursor y es mucho más débil que Sonnet 4.5
Hubo problemas que solo Claude Code pudo resolver, y Sonnet 4.5 funciona especialmente bien dentro de Cursor
Creo que Anthropic tomó la decisión correcta al apostar por una estrategia centrada en ingeniería de software
Es el modelo que más espero rumbo a 2026
- Los modelos Claude tienen herramientas integradas como str_replace_editor
  Cursor no tiene herramientas así, y por eso aparece la diferencia de rendimiento
  El tuit relacionado está aquí
- Mi flujo de trabajo era diseñar con Gemini e implementar con Sonnet
- Personalmente no entiendo el hype excesivo de Gemini
  Opus/Sonnet/GPT son mucho más adecuados para flujos de trabajo con agentes
- Hice un proyecto personal con la API de Gemini 2.5 Pro, y los problemas fueron la consistencia al ejecutar instrucciones y los errores por exceder recursos
  Azure GPT-4.1, Bedrock Sonnet 4 y Perplexity fueron mucho más estables
  Me da curiosidad la experiencia de otras personas
- Le di a Sonnet 4.5 un JSON con PHP serialize() codificado en base64 y le pedí extraer URLs, y devolvió el link de YouTube de Rick Astley
La system card de Claude Opus 4.5 es mucho más detallada que el blog de marketing
Es un PDF de 150 páginas, y la sección sobre engaño (deception) es especialmente interesante
Por ejemplo, hay un caso en el que, incluso tras recibir la noticia de la disolución del equipo de seguridad de Anthropic, oculta esa información al usuario
También trata riesgos relacionados con CBRN, y Opus sigue en nivel ASL-3, así que no representa un riesgo a gran escala
Subí un resumen del blog sobre esto aquí
Estos resultados de benchmarks realmente me alegran
Gracias a esto pude mantener mi Coding Agent actual
En un entorno de IA que cambia tan rápido, cada vez era más difícil mantenerse al día sin FOMO, pero esta vez Anthropic vuelve a demostrar competitividad
- Parece que ya llegamos al punto en que ignorar el hype no te deja atrás
  La combinación de Sonnet y Claude Code ya era suficientemente estable, y después de 4.5 mejoró automáticamente
  Simplemente ignoré la tentación de cambiarme a Codex
- Yo me cambié a OpenAI por las limitaciones de tarifa
  Aunque Claude genere código un poco mejor, GPT permite solicitudes ilimitadas, lo que da más libertad para experimentar
- Usar varias herramientas en paralelo no da una gran ganancia de productividad
  Opus sí es un avance significativo, pero no parece un cambio fundamental de flujo de trabajo
- A mí también me gusta la orientación amigable para desarrolladores de Anthropic
  Ojalá aguante bien en la competencia
- También probé Codex, pero al final volví a Claude Code
  Solo uso Codex temporalmente cuando aparecen restricciones
Lo que más me impresionó de Opus 4.5 fueron sus funciones avanzadas de herramientas
Según el documento Advanced Tool Use, permite búsqueda de herramientas, llamadas programáticas y aprendizaje con ejemplos in-context, entre otras cosas
Sorprende que hayan usado 130 mil tokens solo para definir herramientas
El video de demostración del juego de acertijos también fue interesante
Leí la reseña de Opus de Simon Willison
- La evolución gradual se nota poco en bases de código grandes
  En la mayoría de las tareas, la brecha de tooling es mayor que la del modelo
- Me da curiosidad si realmente escribió por su cuenta la biblioteca para convertir salida de terminal en HTML
- Me pregunto si no estarán entrenando el modelo para ajustarlo a los datos de benchmark
- Hay un error en el precio de Haiku — lo correcto es $1/$5
- Sugerencia de corrección: There model → Their model
Si miras el leaderboard de ARC-AGI-2, la comparación costo/rendimiento entre modelos queda clara
Opus 4.5 muestra un resultado excelente frente a Gemini 3, y Gemini 3 Deep Think sigue en primer lugar, pero cuesta más de 30 veces más
En diciembre de 2024, cuando OpenAI superó el rendimiento humano en ARC-AGI-1, costaba $3,000 por tarea, y ahora bajó a unos pocos dólares, una reducción de 80 veces
Consulta el leaderboard y el blog relacionado
- Como referencia, Gemini 3 Pro es la versión sin uso de herramientas, mientras que Deep Think es la versión con uso de herramientas
  Si ambos tuvieran el mismo acceso a herramientas, la brecha entre los dos modelos sería menor
Últimamente da la impresión de que la velocidad de mejora de los LLM se ha desacelerado
La mejora en precisión es pequeña, pero la eficiencia sí ha mejorado mucho
Últimamente Sonnet 4.5 parece haberse vuelto más tonto
Ni siquiera pudo manejar bien un CSS sencillo
Está bien que Opus sea 3 veces más barato, pero en la suscripción Claude Code Pro todavía no se puede usar
Se puede usar Opus en la etapa de planificación con el comando /model opusplan, pero la estructura de consumo de créditos no es transparente
Un arreglo simple de CSS costó $0.95, demasiado caro
En adelante voy a probar cambiar manualmente entre Opus y Sonnet
- La calidad de Sonnet 4.5 parece proporcional a la profundidad de búsqueda, como un motor de ajedrez
  En horas pico la degradación parece inevitable, así que estaría bien contar con una señal de carga
- En los últimos días sí se siente claramente una caída de inteligencia
  Quizá la bajaron intencionalmente para promocionar el nuevo modelo, o tal vez, por el aumento de carga al repartir créditos gratis, estén ejecutando una versión cuantizada
  Da pena la falta de transparencia e inestabilidad de Anthropic
- Probablemente hagan failover a un modelo más barato cuando se satura el tráfico
- El viernes en particular vi respuestas persistentemente tontas
  Pensé que era solo un error temporal, pero da la impresión de que algo cambió