- Sistema de seguimiento que mide diariamente el rendimiento de Claude Code Opus 4.5 en tareas de SWE para detectar una degradación de rendimiento estadísticamente significativa
- Usa un subconjunto seleccionado de SWE-Bench-Pro para evaluar 50 instancias de prueba cada día, y los resultados reflejan el rendimiento real del modelo ejecutado directamente en un entorno CLI
- En los últimos 30 días se detectó una tasa promedio de aprobación del 54%, una caída estadísticamente significativa de 4.1% frente a la línea base de 58%
- Los resultados diarios y semanales se analizan con base en intervalos de confianza del 95% y umbrales de significancia (±14.0%, ±5.6%), para distinguir entre variaciones de corto plazo y tendencias de largo plazo
- Operado por una tercera parte independiente, es una herramienta para la detección temprana de degradación de rendimiento causada por cambios en el modelo o en el entorno de ejecución
Descripción general
- El objetivo de este rastreador es detectar una degradación estadísticamente significativa en el rendimiento de Claude Code Opus 4.5 en tareas de SWE
- La evaluación se realiza todos los días usando un subconjunto resistente a contaminación de SWE-Bench-Pro
- Se ejecuta directamente en Claude Code CLI, reflejando el entorno real de los usuarios sin un harness personalizado adicional
- Es una tercera parte independiente, sin afiliación con proveedores de modelos frontier
- Se opera como un recurso para detectar de forma temprana casos similares en el futuro, a raíz del postmortem de Anthropic sobre degradación de rendimiento de septiembre de 2025
Resumen de rendimiento
- Tasa de aprobación de referencia: 58%
- Tasa de aprobación de los últimos 30 días: 54% (sobre 655 evaluaciones)
- Tasa de aprobación de los últimos 7 días: 53% (sobre 250 evaluaciones)
- Tasa de aprobación del último día: 50% (sobre 50 evaluaciones)
- La degradación de rendimiento en 30 días es estadísticamente significativa al nivel p < 0.05
- Variación en 30 días: -4.1%
- Umbral de significancia: ±3.4%
- Las variaciones de 1 día (-8.0%) y 7 días (-4.8%) no son estadísticamente significativas
Tendencias diarias y semanales
- Tendencia diaria (Daily Trend)
- Visualiza la tasa de aprobación diaria de los últimos 30 días
- Línea base de 58%, rango de umbral de significancia de ±14.0%
- Puede mostrar intervalos de confianza del 95%; cuanto menor sea el tamaño de la muestra, más amplio será el intervalo
- Tendencia semanal (Weekly Trend)
- Proporciona una tendencia suavizada con un promedio móvil de 7 días para reducir la volatilidad diaria
- Línea base de 58%, rango de umbral de significancia de ±5.6%
- También puede mostrar intervalos de confianza del 95%
Resumen de cambios (Change Overview)
- Cambio de 1 día (vs. ayer): -8.0%, no es estadísticamente significativo
- Basado en 50 evaluaciones, se requiere un cambio de ±14.0% (p < 0.05)
- Cambio de 7 días (vs. la semana pasada): -4.8%, no es estadísticamente significativo
- Basado en 250 evaluaciones, se requiere un cambio de ±5.6% (p < 0.05)
- Cambio de 30 días (vs. el mes pasado): -4.1%, estadísticamente significativo
- Basado en 655 evaluaciones, se requiere un cambio de ±3.4% (p < 0.05)
Metodología (Methodology)
- Cada prueba se modela como una variable aleatoria de Bernoulli y se calculan intervalos de confianza del 95%
- Se analizan las diferencias estadísticas en las tasas de aprobación diarias, semanales y mensuales para reportar si existe una degradación de rendimiento significativa
- La evaluación se realiza con 50 instancias de prueba diarias, por lo que existe volatilidad de corto plazo
- Los resultados agregados semanales y mensuales ofrecen estimaciones más estables
- Permite detectar degradación de rendimiento tanto por cambios en el modelo como por cambios en el harness de ejecución
Función de alertas
- Si se detecta estadísticamente una degradación de rendimiento, se envía una alerta por correo electrónico
- Los usuarios pueden suscribirse registrando su dirección de correo electrónico
- Tras confirmar la suscripción, pueden recibir alertas; si ocurre un error, se indica reintentar
2 comentarios
No es que Claude Code se haya vuelto más tonto… quizá sea que quien lo usa ahora sabe aprovechar mejor a Claude…
Comentarios de Hacker News
Soy Thariq del equipo de Claude Code
Ya corregimos el problema del harness que ocurrió el 26 de enero. También hicimos rollback de inmediato el 28 de enero, así que recomendamos actualizar a la versión más reciente con el comando
claude updateSoy coautor de SWE-bench
Parece que la prueba actual solo se ejecuta una vez al día sobre 50 tareas. Para mejorar la precisión, habría que probar 300 tareas entre 5 y 10 veces al día y luego sacar el promedio. Factores aleatorios como la carga del servidor pueden afectar mucho los resultados
Resumen de por qué no creo que Anthropic esté entregando a los usuarios un modelo peor a propósito
La metodología estadística es extraña
Ellos solo consideran el intervalo de confianza del valor anterior y miran si el nuevo valor queda fuera, pero ese no es un método correcto para verificar la significancia estadística de la diferencia. Como ambas mediciones tienen incertidumbre, habría que calcular el intervalo de confianza de la diferencia en sí. Además, si la comparación es mensual, entonces habría que comparar los datos de hace 60 a 31 días con los de hace 30 días hasta ayer, así que el gráfico debería mostrar al menos dos meses
Hace como una semana Claude estuvo caído alrededor de una hora. Justo después de recuperarse, quizá porque bajó la cantidad de usuarios, la velocidad se volvió más de 3 veces mayor. En esa hora hice el trabajo que normalmente me tomaría medio día. Se sintió como ver por un momento cómo sería el futuro sin restricciones de recursos
Si se mide la frecuencia de groserías en los prompts de los usuarios, quizá se podría detectar un aumento de la hostilidad cuando baja el rendimiento del modelo
Existe la posibilidad de que con el tiempo cuanticen gradualmente el modelo (quantization). Eso facilitaría la escalabilidad y la reducción de costos, además de hacer que una nueva versión “parezca” mejor por comparación
En modo API, cuando Claude supera cierta cantidad de tokens, de pronto se vuelve más tonto y empieza a hacer cosas raras, como decir “hay un bug en la línea 23” y luego borrar toda la funcionalidad. Incluso falla en arreglos simples que ChatGPT 3.5 podría hacer. No entiendo por qué pasa esto
En la última semana la calidad del código de Claude empeoró de forma notable. Por ejemplo, sugiere usar
frozenen un Enum, o vuelve a proponerurlparsedentro de una función que ya usaurlparse. Antes no cometía este tipo de errores básicosUna gran queja sobre los proveedores de LLM es la falta de consistencia en la capacidad de razonamiento. Con ChatGPT pasa igual: al ingresar más de 45k tokens, la inteligencia cae bruscamente o la entrada se recorta. Sería mejor recibir un mensaje de “rechazo” que una degradación silenciosa, porque eso destruye la confianza. La transparencia es realmente importante