Reseña de Simon Willison sobre Claude 4.5 Opus

(simonwillison.net)

8 puntos por laeyoung 2025-11-26 | 2 comentarios | Compartir por WhatsApp

Claude Opus 4.5, y por qué cada vez es más difícil evaluar nuevos LLM

El precio es muy atractivo

La entrada cuesta 5 dólares por millón, y la salida 25 dólares por millón
Es mucho más barato que el Opus anterior, que costaba 15 dólares/75 dólares
También es competitivo frente a la familia GPT-5.1 (1.25 dólares/10 dólares) y Gemini 3 Pro (2 dólares/12 dólares, o 4 dólares/18 dólares al comprar más de 200 mil tokens)

Cambios interesantes en Opus 4.5

Opus 4.5 agrega un nuevo parámetro effort, configurado por defecto en alto
Soporta un Computer use mejorado y, en particular, ofrece una herramienta de zoom para pedirle que inspeccione áreas ampliadas de la pantalla
Los bloques de pensamiento de turnos auxiliares previos ahora se conservan por defecto en el contexto del modelo, a diferencia de antes

La dificultad de la evaluación

Se ha vuelto más difícil distinguir el rendimiento de los LLM de frontera
En benchmarks como SWE-bench Verified, las diferencias entre modelos aparecen como puntos porcentuales de un solo dígito
Pero eso no explica qué resultados traerá, ni qué diferencia habrá, cuando realmente intentas resolver problemas del mundo real
Por ahora, sigue dibujando un pelícano andando en bicicleta.

2 comentarios

youknowone 2025-11-26

Traducción: https://rosettalens.com/s/ko/claude-opus

laeyoung 2025-11-26

Anthropic publicó un gráfico de benchmarks de Opus 4.5

Si se dibuja tal cual, las alturas se ven casi iguales, así que el tramo 0-70 del eje Y del gráfico está truncado.