Reseña de Simon Willison sobre Claude 4.5 Opus
(simonwillison.net)Claude Opus 4.5, y por qué cada vez es más difícil evaluar nuevos LLM
El precio es muy atractivo
- La entrada cuesta 5 dólares por millón, y la salida 25 dólares por millón
- Es mucho más barato que el Opus anterior, que costaba 15 dólares/75 dólares
- También es competitivo frente a la familia GPT-5.1 (1.25 dólares/10 dólares) y Gemini 3 Pro (2 dólares/12 dólares, o 4 dólares/18 dólares al comprar más de 200 mil tokens)
Cambios interesantes en Opus 4.5
- Opus 4.5 agrega un nuevo parámetro
effort, configurado por defecto en alto - Soporta un
Computer usemejorado y, en particular, ofrece una herramienta dezoompara pedirle que inspeccione áreas ampliadas de la pantalla - Los bloques de pensamiento de turnos auxiliares previos ahora se conservan por defecto en el contexto del modelo, a diferencia de antes
La dificultad de la evaluación
- Se ha vuelto más difícil distinguir el rendimiento de los LLM de frontera
- En benchmarks como SWE-bench Verified, las diferencias entre modelos aparecen como puntos porcentuales de un solo dígito
- Pero eso no explica qué resultados traerá, ni qué diferencia habrá, cuando realmente intentas resolver problemas del mundo real
- Por ahora, sigue dibujando un pelícano andando en bicicleta.
2 comentarios
Traducción: https://rosettalens.com/s/ko/claude-opus
Anthropic publicó un gráfico de benchmarks de Opus 4.5