Anthropic presenta Claude Opus 4.1
(anthropic.com)- Claude Opus 4.1 es una versión actualizada con mejoras en codificación práctica, trabajo con agentes y capacidad de razonamiento
- Alcanzó el mejor rendimiento de código de 74.5% en SWE-bench Verified, y mostró resultados sobresalientes en depuración precisa de grandes bases de código y refactorización de múltiples archivos
- Recibió evaluaciones positivas de usuarios reales como Rakuten, GitHub y Windsurf por la precisión al corregir código, la eficiencia en la depuración diaria y la mejora marcada en el benchmark de desarrolladores junior
- Mostró un rendimiento más refinado en entornos de desarrollo reales, con refactorización de múltiples archivos y modificaciones de código detalladas
- Para quienes ya usan Opus 4, está disponible de inmediato, sin costo adicional, en API, Claude Code, Amazon Bedrock y Google Vertex AI
Características principales de Claude Opus 4.1
- Con respecto a Claude Opus 4, mejoró el rendimiento en trabajo agentic, escritura de código real y tareas de razonamiento complejas
- Se esperan mejoras de mayor escala en el modelo en las próximas semanas
Principales mejoras
- Alcanzó un rendimiento de código de 74.5% en SWE-bench Verified
- Mostró una mejora notable en investigación profunda y análisis de datos, especialmente en el seguimiento detallado y la búsqueda agentic
- Obtuvo resultados excelentes en benchmarks reales basados en código para resolver problemas de corrección de bugs en repositorios open source a gran escala
- Optimizado para tareas de desarrollo en producción como refactorización de múltiples archivos y depuración precisa dentro de grandes bases de código
- En GitHub, Opus 4.1 mejoró el rendimiento frente a Opus 4 en la mayoría de funcionalidades, con un desempeño especialmente destacado en tareas de refactorización de código de múltiples archivos
- Rakuten Group destacó que Opus 4.1 corrige únicamente las partes necesarias dentro de una base de código masiva, manteniendo el estilo sin introducir cambios innecesarios ni bugs
- Windsurf reportó que, en su benchmark de desarrolladores junior, Opus 4.1 mostró una mejora de una desviación estándar sobre Opus 4 y lo calificó como un salto de rendimiento comparable al upgrade de Sonnet 3.7 a Sonnet 4
Comparación de rendimiento por métrica
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Claude Opus 4 (anterior): 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → Registró la mayor precisión en tareas reales de corrección de código open source
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (máximo)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- Razonamiento de nivel superior (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (máximo)
- Gemini 2.5 Pro: 86.4% (máximo)
- Agentic tool use (TAU-bench)
- Escenario Retail: Claude Opus 4.1 82.4% (máximo), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Escenario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro no publicó puntaje en esta sección
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (máximo)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: no publicado
- Razonamiento visual (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (máximo)
- Gemini 2.5 Pro: 82% (máximo)
- Competencia de matemáticas de nivel secundario (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (máximo)
- Gemini 2.5 Pro: 88% (máximo)
-
Resumen de la tabla de benchmarks
- Claude Opus 4.1 muestra una mejora constante en todas las áreas frente al modelo anterior y logra el mejor desempeño en benchmarks orientados al trabajo real como automatización de código, refactorización multarchivo, QA multilingüe y uso de herramientas
- En matemáticas, razonamiento visual y razonamiento avanzado (GPQA), OpenAI o3 y Gemini 2.5 Pro van por delante en algunos casos, pero en productividad de código real y QA multilingüe, Claude Opus 4.1 es superior
- En el escenario Airline (Agentic tool use) hay una ligera caída; en razonamiento visual y matemáticas, otros modelos lo superan por poco
Entorno de uso y despliegue
- Se recomienda actualizar directamente desde Opus 4 a
claude-opus-4-1-20250805en la API - Disponible para desplegar y usar por múltiples vías, como API, Claude Code, Amazon Bedrock y Google Vertex AI
- Mismo esquema de precios que Opus 4, y se recomienda actualizar de inmediato a los usuarios actuales
- Se publicaron también de forma detallada las métricas de benchmark y metodología de evaluación, junto con múltiples recursos como system card, descripción del modelo, precios y documentación oficial
Planes futuros
- Opus 4.1 es una actualización incremental que refleja los avances más recientes en codificación y razonamiento, y se prevé un salto mucho mayor dentro de las próximas semanas
- Se prevé una mejora continua del rendimiento y expansión de funciones incorporando activamente el feedback de los usuarios
Referencias
- Se explicitan de forma transparente la fuente de los datos comparativos y resultados de benchmarks con modelos recientes de terceros como OpenAI o3 y Gemini 2.5 Pro, así como el uso de razonamiento extendido por modelo
1 comentarios
Opiniones de Hacker News
Tres laboratorios grandes anunciaron algo al mismo tiempo con diferencia de horas, y se sintió como un giro alocado de anime.
Opus 4 (4.1) es realmente caro enlace, y con Sonnet también, usando OpenRouter + Codename Goose enlace, me sale en torno a 5 dólares por hora. Lo sorprendente es que Sonnet 3.5 también enlace tiene el mismo precio. Gemini Flash enlace es lo más razonable, pero al final sigo girando sin decidir, terminando indeciso. OpenAI no está mal, pero no alcanza el rendimiento de Claude; sin embargo, en Claude, si presiono CTRL-C a mitad, la API devuelve error 400, lo cual resulta incómodo. Creo que la eficiencia es importante y la mejor relación costo-beneficio me la dio OpenAI ChatGPT 4.1 mini enlace, porque no hay desperdicio innecesario de tokens y la API funciona bien siempre; a veces se confunde, pero la mayoría de las veces se las arregla.
Se anuncia que Opus es superior en casi todo en coding, pero yo siento que en la práctica Sonnet es mucho mejor. Me pregunto si hay alguien que se haya cambiado por completo de Sonnet a Opus, o si hay casos en los que solo usa Opus para tareas específicas.
Opus 4.1 se siente tan poco útil como Opus 4, y más bien parece consumir tokens más rápido. Me gustaría poder ver el consumo de forma clara. Al menos Sonnet 4 todavía sirve, pero el resultado se está volviendo cada vez más turbio. Hoy tuve la mañana desperdiciada en Claude Code, y sentí que habría sido mejor hacerlo yo mismo.
El stream de Claude Plays Pokemon se reinició con el nuevo modelo enlace, antes estuvo atrapado varias semanas en un lugar oculto de Team Rocket.
El artículo dice que “el modelo mejorará mucho en unas semanas”; Sonnet 4 fue lo más adecuado para nuestro producto, pero me gustaría probar Haiku 4 (o 4.1) porque sale más barato, y me sorprendió que Anthropic no mencionó nada de Haiku 4 esta vez.
Hoy fue el peor día para mí usando Claude, simplemente fue un desastre. No sé si se debió al despliegue de hoy, pero aparecieron groserías en la documentación y un bug que no se corrigió en horas de ida y vuelta.
El punto del artículo que más me llamó la atención fue “que el modelo mejorará mucho en unas semanas”.
Esta actualización, incluso para ellos, parece poca mejora. No está mal, pero no creo que alguien note la diferencia.
Si Opus y Sonnet tienen el mismo precio alto, creo que el volumen de uso de Opus no va a superar a Sonnet. En el ranking de OpenRouter enlace, Sonnet 3.7 y 4 juntos procesan 17 veces más tokens que Opus 4.