7 puntos por GN⁺ 2025-08-06 | Aún no hay comentarios. | Compartir por WhatsApp
  • Claude Opus 4.1 es una versión actualizada con mejoras en codificación práctica, trabajo con agentes y capacidad de razonamiento
  • Alcanzó el mejor rendimiento de código de 74.5% en SWE-bench Verified, y mostró resultados sobresalientes en depuración precisa de grandes bases de código y refactorización de múltiples archivos
  • Recibió evaluaciones positivas de usuarios reales como Rakuten, GitHub y Windsurf por la precisión al corregir código, la eficiencia en la depuración diaria y la mejora marcada en el benchmark de desarrolladores junior
  • Mostró un rendimiento más refinado en entornos de desarrollo reales, con refactorización de múltiples archivos y modificaciones de código detalladas
  • Para quienes ya usan Opus 4, está disponible de inmediato, sin costo adicional, en API, Claude Code, Amazon Bedrock y Google Vertex AI

Características principales de Claude Opus 4.1

  • Con respecto a Claude Opus 4, mejoró el rendimiento en trabajo agentic, escritura de código real y tareas de razonamiento complejas
  • Se esperan mejoras de mayor escala en el modelo en las próximas semanas

Principales mejoras

  • Alcanzó un rendimiento de código de 74.5% en SWE-bench Verified
    • Mostró una mejora notable en investigación profunda y análisis de datos, especialmente en el seguimiento detallado y la búsqueda agentic
    • Obtuvo resultados excelentes en benchmarks reales basados en código para resolver problemas de corrección de bugs en repositorios open source a gran escala
  • Optimizado para tareas de desarrollo en producción como refactorización de múltiples archivos y depuración precisa dentro de grandes bases de código
    • En GitHub, Opus 4.1 mejoró el rendimiento frente a Opus 4 en la mayoría de funcionalidades, con un desempeño especialmente destacado en tareas de refactorización de código de múltiples archivos
    • Rakuten Group destacó que Opus 4.1 corrige únicamente las partes necesarias dentro de una base de código masiva, manteniendo el estilo sin introducir cambios innecesarios ni bugs
    • Windsurf reportó que, en su benchmark de desarrolladores junior, Opus 4.1 mostró una mejora de una desviación estándar sobre Opus 4 y lo calificó como un salto de rendimiento comparable al upgrade de Sonnet 3.7 a Sonnet 4

Comparación de rendimiento por métrica

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • Claude Opus 4 (anterior): 72.5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • Registró la mayor precisión en tareas reales de corrección de código open source
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (máximo)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • Razonamiento de nivel superior (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (máximo)
    • Gemini 2.5 Pro: 86.4% (máximo)
  • Agentic tool use (TAU-bench)
    • Escenario Retail: Claude Opus 4.1 82.4% (máximo), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • Escenario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro no publicó puntaje en esta sección
  • Multilingual Q&A (MMMLU)
    • Claude Opus 4.1: 89.5% (máximo)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: no publicado
  • Razonamiento visual (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (máximo)
    • Gemini 2.5 Pro: 82% (máximo)
  • Competencia de matemáticas de nivel secundario (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (máximo)
    • Gemini 2.5 Pro: 88% (máximo)
  • Resumen de la tabla de benchmarks

    • Claude Opus 4.1 muestra una mejora constante en todas las áreas frente al modelo anterior y logra el mejor desempeño en benchmarks orientados al trabajo real como automatización de código, refactorización multarchivo, QA multilingüe y uso de herramientas
    • En matemáticas, razonamiento visual y razonamiento avanzado (GPQA), OpenAI o3 y Gemini 2.5 Pro van por delante en algunos casos, pero en productividad de código real y QA multilingüe, Claude Opus 4.1 es superior
    • En el escenario Airline (Agentic tool use) hay una ligera caída; en razonamiento visual y matemáticas, otros modelos lo superan por poco

Entorno de uso y despliegue

  • Se recomienda actualizar directamente desde Opus 4 a claude-opus-4-1-20250805 en la API
  • Disponible para desplegar y usar por múltiples vías, como API, Claude Code, Amazon Bedrock y Google Vertex AI
  • Mismo esquema de precios que Opus 4, y se recomienda actualizar de inmediato a los usuarios actuales
  • Se publicaron también de forma detallada las métricas de benchmark y metodología de evaluación, junto con múltiples recursos como system card, descripción del modelo, precios y documentación oficial

Planes futuros

  • Opus 4.1 es una actualización incremental que refleja los avances más recientes en codificación y razonamiento, y se prevé un salto mucho mayor dentro de las próximas semanas
  • Se prevé una mejora continua del rendimiento y expansión de funciones incorporando activamente el feedback de los usuarios

Referencias

  • Se explicitan de forma transparente la fuente de los datos comparativos y resultados de benchmarks con modelos recientes de terceros como OpenAI o3 y Gemini 2.5 Pro, así como el uso de razonamiento extendido por modelo

Aún no hay comentarios.

Aún no hay comentarios.