7 puntos por GN⁺ 2025-08-06 | 1 comentarios | Compartir por WhatsApp
  • Claude Opus 4.1 es una versión actualizada con mejoras en codificación práctica, trabajo con agentes y capacidad de razonamiento
  • Alcanzó el mejor rendimiento de código de 74.5% en SWE-bench Verified, y mostró resultados sobresalientes en depuración precisa de grandes bases de código y refactorización de múltiples archivos
  • Recibió evaluaciones positivas de usuarios reales como Rakuten, GitHub y Windsurf por la precisión al corregir código, la eficiencia en la depuración diaria y la mejora marcada en el benchmark de desarrolladores junior
  • Mostró un rendimiento más refinado en entornos de desarrollo reales, con refactorización de múltiples archivos y modificaciones de código detalladas
  • Para quienes ya usan Opus 4, está disponible de inmediato, sin costo adicional, en API, Claude Code, Amazon Bedrock y Google Vertex AI

Características principales de Claude Opus 4.1

  • Con respecto a Claude Opus 4, mejoró el rendimiento en trabajo agentic, escritura de código real y tareas de razonamiento complejas
  • Se esperan mejoras de mayor escala en el modelo en las próximas semanas

Principales mejoras

  • Alcanzó un rendimiento de código de 74.5% en SWE-bench Verified
    • Mostró una mejora notable en investigación profunda y análisis de datos, especialmente en el seguimiento detallado y la búsqueda agentic
    • Obtuvo resultados excelentes en benchmarks reales basados en código para resolver problemas de corrección de bugs en repositorios open source a gran escala
  • Optimizado para tareas de desarrollo en producción como refactorización de múltiples archivos y depuración precisa dentro de grandes bases de código
    • En GitHub, Opus 4.1 mejoró el rendimiento frente a Opus 4 en la mayoría de funcionalidades, con un desempeño especialmente destacado en tareas de refactorización de código de múltiples archivos
    • Rakuten Group destacó que Opus 4.1 corrige únicamente las partes necesarias dentro de una base de código masiva, manteniendo el estilo sin introducir cambios innecesarios ni bugs
    • Windsurf reportó que, en su benchmark de desarrolladores junior, Opus 4.1 mostró una mejora de una desviación estándar sobre Opus 4 y lo calificó como un salto de rendimiento comparable al upgrade de Sonnet 3.7 a Sonnet 4

Comparación de rendimiento por métrica

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • Claude Opus 4 (anterior): 72.5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • Registró la mayor precisión en tareas reales de corrección de código open source
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (máximo)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • Razonamiento de nivel superior (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (máximo)
    • Gemini 2.5 Pro: 86.4% (máximo)
  • Agentic tool use (TAU-bench)
    • Escenario Retail: Claude Opus 4.1 82.4% (máximo), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • Escenario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro no publicó puntaje en esta sección
  • Multilingual Q&A (MMMLU)
    • Claude Opus 4.1: 89.5% (máximo)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: no publicado
  • Razonamiento visual (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (máximo)
    • Gemini 2.5 Pro: 82% (máximo)
  • Competencia de matemáticas de nivel secundario (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (máximo)
    • Gemini 2.5 Pro: 88% (máximo)
  • Resumen de la tabla de benchmarks

    • Claude Opus 4.1 muestra una mejora constante en todas las áreas frente al modelo anterior y logra el mejor desempeño en benchmarks orientados al trabajo real como automatización de código, refactorización multarchivo, QA multilingüe y uso de herramientas
    • En matemáticas, razonamiento visual y razonamiento avanzado (GPQA), OpenAI o3 y Gemini 2.5 Pro van por delante en algunos casos, pero en productividad de código real y QA multilingüe, Claude Opus 4.1 es superior
    • En el escenario Airline (Agentic tool use) hay una ligera caída; en razonamiento visual y matemáticas, otros modelos lo superan por poco

Entorno de uso y despliegue

  • Se recomienda actualizar directamente desde Opus 4 a claude-opus-4-1-20250805 en la API
  • Disponible para desplegar y usar por múltiples vías, como API, Claude Code, Amazon Bedrock y Google Vertex AI
  • Mismo esquema de precios que Opus 4, y se recomienda actualizar de inmediato a los usuarios actuales
  • Se publicaron también de forma detallada las métricas de benchmark y metodología de evaluación, junto con múltiples recursos como system card, descripción del modelo, precios y documentación oficial

Planes futuros

  • Opus 4.1 es una actualización incremental que refleja los avances más recientes en codificación y razonamiento, y se prevé un salto mucho mayor dentro de las próximas semanas
  • Se prevé una mejora continua del rendimiento y expansión de funciones incorporando activamente el feedback de los usuarios

Referencias

  • Se explicitan de forma transparente la fuente de los datos comparativos y resultados de benchmarks con modelos recientes de terceros como OpenAI o3 y Gemini 2.5 Pro, así como el uso de razonamiento extendido por modelo

1 comentarios

 
GN⁺ 2025-08-06
Opiniones de Hacker News
  • Tres laboratorios grandes anunciaron algo al mismo tiempo con diferencia de horas, y se sintió como un giro alocado de anime.

    • Esta situación deja en evidencia por qué existen los equipos de PR: ser visibles en la portada de HN o en sitios de noticias es crucial; aunque no se pueda quedar uno en primer lugar, creo que es necesario desviar la atención de los competidores.
    • Con el rumor de GPT-5, yo creo que todavía estamos apenas a inicios de agosto.
    • Es increíble vivir en una época como esta.
    • Da la sensación de que esperan a que un rival anuncie primero y luego lanzan al mismo tiempo para dejar que el mercado decida qué es mejor.
    • Esto, estoy seguro, no es casualidad.
  • Opus 4 (4.1) es realmente caro enlace, y con Sonnet también, usando OpenRouter + Codename Goose enlace, me sale en torno a 5 dólares por hora. Lo sorprendente es que Sonnet 3.5 también enlace tiene el mismo precio. Gemini Flash enlace es lo más razonable, pero al final sigo girando sin decidir, terminando indeciso. OpenAI no está mal, pero no alcanza el rendimiento de Claude; sin embargo, en Claude, si presiono CTRL-C a mitad, la API devuelve error 400, lo cual resulta incómodo. Creo que la eficiencia es importante y la mejor relación costo-beneficio me la dio OpenAI ChatGPT 4.1 mini enlace, porque no hay desperdicio innecesario de tokens y la API funciona bien siempre; a veces se confunde, pero la mayoría de las veces se las arregla.

    • Los modelos grandes los veo para consultas de modelos y los pequeños para preguntas de contexto; incluso Opus puede salir barato si se usa en su nicho.
    • Usarlo por suscripción en Claude Code es mucho más razonable. Yo, con el plan Max, he usado Claude Code todo el día y en las últimas dos semanas solo llegué al límite dos veces.
    • Cada vez que comparo precios, Claude API siempre fue lo más barato para mí; con un manejo correcto de caché de contexto, el precio de entrada baja cerca de 90 %, y eso es enorme.
    • También quiero mencionar alternativas como GLM 4.5, Kimi K2, Qwen Coder 3 y Gemini Pro 2.5.
  • Se anuncia que Opus es superior en casi todo en coding, pero yo siento que en la práctica Sonnet es mucho mejor. Me pregunto si hay alguien que se haya cambiado por completo de Sonnet a Opus, o si hay casos en los que solo usa Opus para tareas específicas.

    • Es posible que Opus sea técnicamente mejor, pero en realidad no se siente una gran diferencia. Es casi imposible que un LLM acierte en una sola pasada una implementación compleja; hay demasiadas cosas que explicar y al final uno tiene que enterarse del resultado correcto buscándolo dentro del código. Aunque Opus saque una respuesta que parece buena, hay que entender por qué pasó eso y por qué encaja en mi contexto; al final, gran parte de mi trabajo es avanzar en unidades pequeñas de forma repetitiva, así que creo que Sonnet me alcanza.
    • Cuando Sonnet se vuelve raro de golpe (uno o dos días por día), cambiar a Opus parece resolver el problema rápido; claro, es una experiencia no científica, y de hecho puede que mejorar pase por cambiar cualquier modelo.
    • El comentario de que “Sonnet es mejor” no tiene sustento científico, y que un modelo más grande sea mejor es obvio, así que casi nadie lo dice. En cambio, “a veces un modelo pequeño puede rendir mejor” suena más como consejo, y por eso parece verse más esa opinión. Ayer lo revisé y cada uno decía algo distinto; la conclusión útil es que, al pasar de Opus a Sonnet por un momento en el plan Max, no hay que preocuparse demasiado por una caída de calidad.
    • Opus parece mejor en resolución de problemas complejos que requieren varios pasos o en tareas largas con seguimiento de contexto. Por eso solo lo uso en problemas difíciles y el resto con Sonnet; eso suele ser suficiente y además choco mucho menos con límites de tokens.
    • Yo también uso plan Max y noto que Opus rinde un poco mejor que Sonnet en la calidad, pero eso aplica solo cuando es posible usar Opus; lo gracioso es que, incluso con Max, el límite se alcanza rápido: ayer, al llegar a la oficina, alcancé el tope en pocos minutos.
  • Opus 4.1 se siente tan poco útil como Opus 4, y más bien parece consumir tokens más rápido. Me gustaría poder ver el consumo de forma clara. Al menos Sonnet 4 todavía sirve, pero el resultado se está volviendo cada vez más turbio. Hoy tuve la mañana desperdiciada en Claude Code, y sentí que habría sido mejor hacerlo yo mismo.

    • También noto que Sonnet va bajando de rendimiento: las explicaciones se alargan y tienen más relleno, intenta convertir todo en listas y hasta asiente de más, y se me hizo hábito cansarme de cómo responden los competidores.
    • Siento que es porque mi proyecto creció; Claude Code intenta seguir un proyecto que pasó de 2 mil líneas a más de 100 mil líneas, así que es natural que se vuelva difícil.
    • El nuevo Opus 4.1, en la primera charla, quiso construir una app web entera, y a diferencia del robot atascado de antes entendió más rápido el contexto, hizo las preguntas correctas al sistema y terminó la documentación de actualización. Antes tenía que repetir la misma explicación en cada chat, lo cual era irritante; ahora no. Como contraparte, los tokens se agotan más rápido, así que ya no es posible charlar varias horas como antes. Igual, si completa la última tarea antes de quedarse sin tokens, me parece suficiente.
    • Lo de “hoy desperdicié la mañana en Claude Code” me recordó “Welcome to the machine” enlace
  • El stream de Claude Plays Pokemon se reinició con el nuevo modelo enlace, antes estuvo atrapado varias semanas en un lugar oculto de Team Rocket.

  • El artículo dice que “el modelo mejorará mucho en unas semanas”; Sonnet 4 fue lo más adecuado para nuestro producto, pero me gustaría probar Haiku 4 (o 4.1) porque sale más barato, y me sorprendió que Anthropic no mencionó nada de Haiku 4 esta vez.

  • Hoy fue el peor día para mí usando Claude, simplemente fue un desastre. No sé si se debió al despliegue de hoy, pero aparecieron groserías en la documentación y un bug que no se corrigió en horas de ida y vuelta.

  • El punto del artículo que más me llamó la atención fue “que el modelo mejorará mucho en unas semanas”.

    • Creo que es como decirles a la gente que no se vayan directo a GPT-5.
  • Esta actualización, incluso para ellos, parece poca mejora. No está mal, pero no creo que alguien note la diferencia.

    • Quizá sea más una diferencia de vibe, pero también creo que es importante. No está en benchmarks oficiales, pero dicen que Opus 4.1 mostró alrededor de 1 desviación estándar de mejora sobre Opus 4 en el benchmark de desarrollador junior, y eso sería similar al salto de Sonnet 3.7 a Sonnet 4.
    • Aunque no lo he probado a fondo, no veo una diferencia clara en calidad de salida; sí se siente que sigue mejor los documentos e instrucciones que le das, aunque todavía no lo pude cuantificar ni verificar objetivamente. Opus 4.1 parece seguir mejor esos aspectos, incluso cuando no se le pide explícitamente, y no solo al buscar información escondida tipo needles-in-the-haystack.
    • Por eso creo que le pusieron el número 4.1, y no 4.5.
    • Parece que dejaron margen para sacar unos 10 modelos más; si los benchmarks estuvieran en 100 %, no haría falta un modelo nuevo, así que esto tiene un toque de marketing de ajustar métricas de forma deliberada. Al final, como el conjunto de entrenamiento resuelve los mismos problemas, necesariamente será débil con preguntas totalmente nuevas.
    • Me resultó curioso que en la imagen de calificaciones destacaran solo Opus 4.1. Opus 4.1 está arriba en más o menos la mitad de los benchmarks y en el resto no, e incluso por debajo de Opus 4.0, pero no muestran las puntuaciones de modelos competidores.
  • Si Opus y Sonnet tienen el mismo precio alto, creo que el volumen de uso de Opus no va a superar a Sonnet. En el ranking de OpenRouter enlace, Sonnet 3.7 y 4 juntos procesan 17 veces más tokens que Opus 4.