8 puntos por laeyoung 2025-11-26 | 2 comentarios | Compartir por WhatsApp

Claude Opus 4.5, y por qué cada vez es más difícil evaluar nuevos LLM

El precio es muy atractivo

  • La entrada cuesta 5 dólares por millón, y la salida 25 dólares por millón
  • Es mucho más barato que el Opus anterior, que costaba 15 dólares/75 dólares
  • También es competitivo frente a la familia GPT-5.1 (1.25 dólares/10 dólares) y Gemini 3 Pro (2 dólares/12 dólares, o 4 dólares/18 dólares al comprar más de 200 mil tokens)

Cambios interesantes en Opus 4.5

  • Opus 4.5 agrega un nuevo parámetro effort, configurado por defecto en alto
  • Soporta un Computer use mejorado y, en particular, ofrece una herramienta de zoom para pedirle que inspeccione áreas ampliadas de la pantalla
  • Los bloques de pensamiento de turnos auxiliares previos ahora se conservan por defecto en el contexto del modelo, a diferencia de antes

La dificultad de la evaluación

  • Se ha vuelto más difícil distinguir el rendimiento de los LLM de frontera
  • En benchmarks como SWE-bench Verified, las diferencias entre modelos aparecen como puntos porcentuales de un solo dígito
  • Pero eso no explica qué resultados traerá, ni qué diferencia habrá, cuando realmente intentas resolver problemas del mundo real
  • Por ahora, sigue dibujando un pelícano andando en bicicleta.

2 comentarios

 
laeyoung 2025-11-26

Anthropic publicó un gráfico de benchmarks de Opus 4.5

  • Si se dibuja tal cual, las alturas se ven casi iguales, así que el tramo 0-70 del eje Y del gráfico está truncado.