- Claude Opus 4.1 es una versión actualizada con mejoras en codificación práctica, trabajo con agentes y capacidad de razonamiento
- Alcanzó el mejor rendimiento de código de 74.5% en SWE-bench Verified, y mostró resultados sobresalientes en depuración precisa de grandes bases de código y refactorización de múltiples archivos
- Recibió evaluaciones positivas de usuarios reales como Rakuten, GitHub y Windsurf por la precisión al corregir código, la eficiencia en la depuración diaria y la mejora marcada en el benchmark de desarrolladores junior
- Mostró un rendimiento más refinado en entornos de desarrollo reales, con refactorización de múltiples archivos y modificaciones de código detalladas
- Para quienes ya usan Opus 4, está disponible de inmediato, sin costo adicional, en API, Claude Code, Amazon Bedrock y Google Vertex AI
Características principales de Claude Opus 4.1
- Con respecto a Claude Opus 4, mejoró el rendimiento en trabajo agentic, escritura de código real y tareas de razonamiento complejas
- Se esperan mejoras de mayor escala en el modelo en las próximas semanas
Principales mejoras
- Alcanzó un rendimiento de código de 74.5% en SWE-bench Verified
- Mostró una mejora notable en investigación profunda y análisis de datos, especialmente en el seguimiento detallado y la búsqueda agentic
- Obtuvo resultados excelentes en benchmarks reales basados en código para resolver problemas de corrección de bugs en repositorios open source a gran escala
- Optimizado para tareas de desarrollo en producción como refactorización de múltiples archivos y depuración precisa dentro de grandes bases de código
- En GitHub, Opus 4.1 mejoró el rendimiento frente a Opus 4 en la mayoría de funcionalidades, con un desempeño especialmente destacado en tareas de refactorización de código de múltiples archivos
- Rakuten Group destacó que Opus 4.1 corrige únicamente las partes necesarias dentro de una base de código masiva, manteniendo el estilo sin introducir cambios innecesarios ni bugs
- Windsurf reportó que, en su benchmark de desarrolladores junior, Opus 4.1 mostró una mejora de una desviación estándar sobre Opus 4 y lo calificó como un salto de rendimiento comparable al upgrade de Sonnet 3.7 a Sonnet 4
Comparación de rendimiento por métrica
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Claude Opus 4 (anterior): 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → Registró la mayor precisión en tareas reales de corrección de código open source
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (máximo)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- Razonamiento de nivel superior (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (máximo)
- Gemini 2.5 Pro: 86.4% (máximo)
- Agentic tool use (TAU-bench)
- Escenario Retail: Claude Opus 4.1 82.4% (máximo), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Escenario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro no publicó puntaje en esta sección
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (máximo)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: no publicado
- Razonamiento visual (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (máximo)
- Gemini 2.5 Pro: 82% (máximo)
- Competencia de matemáticas de nivel secundario (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (máximo)
- Gemini 2.5 Pro: 88% (máximo)
-
Resumen de la tabla de benchmarks
- Claude Opus 4.1 muestra una mejora constante en todas las áreas frente al modelo anterior y logra el mejor desempeño en benchmarks orientados al trabajo real como automatización de código, refactorización multarchivo, QA multilingüe y uso de herramientas
- En matemáticas, razonamiento visual y razonamiento avanzado (GPQA), OpenAI o3 y Gemini 2.5 Pro van por delante en algunos casos, pero en productividad de código real y QA multilingüe, Claude Opus 4.1 es superior
- En el escenario Airline (Agentic tool use) hay una ligera caída; en razonamiento visual y matemáticas, otros modelos lo superan por poco
Entorno de uso y despliegue
- Se recomienda actualizar directamente desde Opus 4 a
claude-opus-4-1-20250805 en la API
- Disponible para desplegar y usar por múltiples vías, como API, Claude Code, Amazon Bedrock y Google Vertex AI
- Mismo esquema de precios que Opus 4, y se recomienda actualizar de inmediato a los usuarios actuales
- Se publicaron también de forma detallada las métricas de benchmark y metodología de evaluación, junto con múltiples recursos como system card, descripción del modelo, precios y documentación oficial
Planes futuros
- Opus 4.1 es una actualización incremental que refleja los avances más recientes en codificación y razonamiento, y se prevé un salto mucho mayor dentro de las próximas semanas
- Se prevé una mejora continua del rendimiento y expansión de funciones incorporando activamente el feedback de los usuarios
Referencias
- Se explicitan de forma transparente la fuente de los datos comparativos y resultados de benchmarks con modelos recientes de terceros como OpenAI o3 y Gemini 2.5 Pro, así como el uso de razonamiento extendido por modelo
Aún no hay comentarios.