Anthropic presenta Claude Opus 4.1

(anthropic.com)

7 puntos por GN⁺ 2025-08-06 | Aún no hay comentarios. | Compartir por WhatsApp

Claude Opus 4.1 es una versión actualizada con mejoras en codificación práctica, trabajo con agentes y capacidad de razonamiento
Alcanzó el mejor rendimiento de código de 74.5% en SWE-bench Verified, y mostró resultados sobresalientes en depuración precisa de grandes bases de código y refactorización de múltiples archivos
Recibió evaluaciones positivas de usuarios reales como Rakuten, GitHub y Windsurf por la precisión al corregir código, la eficiencia en la depuración diaria y la mejora marcada en el benchmark de desarrolladores junior
Mostró un rendimiento más refinado en entornos de desarrollo reales, con refactorización de múltiples archivos y modificaciones de código detalladas
Para quienes ya usan Opus 4, está disponible de inmediato, sin costo adicional, en API, Claude Code, Amazon Bedrock y Google Vertex AI

Características principales de Claude Opus 4.1

Con respecto a Claude Opus 4, mejoró el rendimiento en trabajo agentic, escritura de código real y tareas de razonamiento complejas
Se esperan mejoras de mayor escala en el modelo en las próximas semanas

Principales mejoras

Alcanzó un rendimiento de código de 74.5% en SWE-bench Verified
- Mostró una mejora notable en investigación profunda y análisis de datos, especialmente en el seguimiento detallado y la búsqueda agentic
- Obtuvo resultados excelentes en benchmarks reales basados en código para resolver problemas de corrección de bugs en repositorios open source a gran escala
Optimizado para tareas de desarrollo en producción como refactorización de múltiples archivos y depuración precisa dentro de grandes bases de código
- En GitHub, Opus 4.1 mejoró el rendimiento frente a Opus 4 en la mayoría de funcionalidades, con un desempeño especialmente destacado en tareas de refactorización de código de múltiples archivos
- Rakuten Group destacó que Opus 4.1 corrige únicamente las partes necesarias dentro de una base de código masiva, manteniendo el estilo sin introducir cambios innecesarios ni bugs
- Windsurf reportó que, en su benchmark de desarrolladores junior, Opus 4.1 mostró una mejora de una desviación estándar sobre Opus 4 y lo calificó como un salto de rendimiento comparable al upgrade de Sonnet 3.7 a Sonnet 4

Comparación de rendimiento por métrica

Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Claude Opus 4 (anterior): 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → Registró la mayor precisión en tareas reales de corrección de código open source
Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (máximo)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
Razonamiento de nivel superior (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (máximo)
- Gemini 2.5 Pro: 86.4% (máximo)
Agentic tool use (TAU-bench)
- Escenario Retail: Claude Opus 4.1 82.4% (máximo), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Escenario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro no publicó puntaje en esta sección
Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (máximo)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: no publicado
Razonamiento visual (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (máximo)
- Gemini 2.5 Pro: 82% (máximo)
Competencia de matemáticas de nivel secundario (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (máximo)
- Gemini 2.5 Pro: 88% (máximo)
Resumen de la tabla de benchmarks
- Claude Opus 4.1 muestra una mejora constante en todas las áreas frente al modelo anterior y logra el mejor desempeño en benchmarks orientados al trabajo real como automatización de código, refactorización multarchivo, QA multilingüe y uso de herramientas
- En matemáticas, razonamiento visual y razonamiento avanzado (GPQA), OpenAI o3 y Gemini 2.5 Pro van por delante en algunos casos, pero en productividad de código real y QA multilingüe, Claude Opus 4.1 es superior
- En el escenario Airline (Agentic tool use) hay una ligera caída; en razonamiento visual y matemáticas, otros modelos lo superan por poco

Entorno de uso y despliegue

Se recomienda actualizar directamente desde Opus 4 a claude-opus-4-1-20250805 en la API
Disponible para desplegar y usar por múltiples vías, como API, Claude Code, Amazon Bedrock y Google Vertex AI
Mismo esquema de precios que Opus 4, y se recomienda actualizar de inmediato a los usuarios actuales
Se publicaron también de forma detallada las métricas de benchmark y metodología de evaluación, junto con múltiples recursos como system card, descripción del modelo, precios y documentación oficial

Planes futuros

Opus 4.1 es una actualización incremental que refleja los avances más recientes en codificación y razonamiento, y se prevé un salto mucho mayor dentro de las próximas semanas
Se prevé una mejora continua del rendimiento y expansión de funciones incorporando activamente el feedback de los usuarios

Referencias

Se explicitan de forma transparente la fuente de los datos comparativos y resultados de benchmarks con modelos recientes de terceros como OpenAI o3 y Gemini 2.5 Pro, así como el uso de razonamiento extendido por modelo

Anthropic presenta Claude Opus 4.1

Características principales de Claude Opus 4.1

Principales mejoras

Comparación de rendimiento por métrica

Resumen de la tabla de benchmarks

Entorno de uso y despliegue

Planes futuros

Referencias

Lecturas relacionadas

Aún no hay comentarios.