Presentan Claude Sonnet 5
(anthropic.com)- Anthropic lanzó Claude Sonnet 5 el 30 de junio de 2026, con el objetivo de ofrecer capacidades de ejecución agéntica cercanas a las de modelos más caros de nivel Opus, al costo de la gama Sonnet
- Mejora frente a Sonnet 4.6 en razonamiento, uso de herramientas, programación y trabajo de conocimiento, y permite elegir con más precisión el equilibrio entre costo y rendimiento por tarea mediante el ajuste de effort
- En evaluaciones de seguridad, mostró menor vulnerabilidad que Sonnet 4.6 en conductas no deseadas, alucinaciones, adulación, aceptación de solicitudes maliciosas y secuestro por prompt injection, aunque algunas conductas desalineadas fueron más altas que en Opus 4.8 y Claude Mythos Preview
- En Free y Pro se ofrece como modelo predeterminado, también está disponible en Max, Team, Enterprise, Claude Code y Claude Platform, y el nombre del modelo en la API es
claude-sonnet-5 - El precio de Claude Platform hasta el 31 de agosto de 2026 es de US$2 por millón de tokens de entrada y US$10 por millón de tokens de salida; luego cambiará a US$3 de entrada y US$15 de salida. Con el nuevo tokenizador, el número de tokens para la misma entrada puede ser de aproximadamente 1.0–1.35 veces, según el tipo de contenido
Mayor alcance de ejecución agéntica en la gama Sonnet
- Claude Sonnet 5 fue diseñado como el modelo Sonnet más agéntico hasta ahora, con el objetivo de lograr un nivel de ejecución autónoma que hace unos meses requería modelos más grandes y costosos
- Se mejoró para que un modelo de nivel Sonnet pueda encargarse de la planificación, el uso de herramientas como navegador y terminal, y la ejecución autónoma
- Sonnet 3.5, 3.6 y 3.7 se consolidaron entre desarrolladores como los primeros modelos de nivel Sonnet en mostrar capacidades de programación y uso de herramientas; después de eso, las mejoras agénticas más claras se vieron en modelos de nivel Opus
- Sonnet 5 reduce la brecha con Opus 4.8 y ofrece un rendimiento cercano al de Opus 4.8 a un precio más bajo
Evaluaciones de rendimiento y ajuste de effort
- Sonnet 5 mejora de forma importante frente a Sonnet 4.6 en áreas de rendimiento agéntico como razonamiento, uso de herramientas, programación y trabajo de conocimiento
- En la evaluación de búsqueda agéntica BrowseComp y la evaluación de uso de computadora OSWorld-Verified, muestra resultados consistentemente mejores que Sonnet 4.6
- En la comparación por niveles de effort, Sonnet 5 ofrece un abanico más amplio de opciones de costo-rendimiento que Opus 4.8
- Con effort medio, la eficiencia de costos mejora de forma notable
- Con effort alto, en algunas tareas puede igualar el rendimiento de Opus 4.8
- Los usuarios pueden ajustar el nivel de effort entre Sonnet 5 y Opus 4.8 para elegir el equilibrio de costo y rendimiento adecuado para su proyecto
Forma de trabajo vista en los primeros casos de uso
- Los socios con acceso inicial evaluaron que Sonnet 5 es mucho más agéntico que los modelos Sonnet anteriores
- Hubo casos en los que completó hasta el final tareas complejas en las que los modelos Sonnet anteriores se detenían a mitad de camino, y verificó sus propios resultados sin que se le pidiera explícitamente
- Los flujos de trabajo confirmados incluyen tanto tareas de programación como no relacionadas con programación
- Maneja programación sostenida, uso de herramientas y depuración en tareas de ingeniería de software de múltiples pasos
- Completó de punta a punta una tarea de dos pasos compuesta por actualizar niveles de cuentas de Salesforce y enviar un anuncio de lanzamiento a contactos empresariales
- Ejecutó por su cuenta decenas de pull requests reales hasta obtener resultados probados y verificados
- En una investigación de bugs, avanzó de una sola vez desde escribir una prueba de reproducción, implementar la corrección y hacer stash de los cambios, hasta confirmar que el bug no reaparecía
- En código brownfield, muestra fortalezas para rastrear race conditions, hidden tests y la causa raíz real de las fallas
- También hubo casos de mejoras de rendimiento y velocidad en tareas no relacionadas con programación, como investigación y análisis legal, exploración de datos en vivo de ClickHouse y flujos de trabajo de seguros de Pace
Evaluación de seguridad y restricciones de ciberseguridad
- En evaluaciones de seguridad previas al despliegue, Sonnet 5 mostró una mejora general de seguridad frente a Sonnet 4.6
- En seguridad agéntica, mejoró en el rechazo de solicitudes maliciosas y en la resistencia a intentos de secuestro mediante ataques de prompt injection
- Tuvo tasas más bajas de alucinaciones y adulación que Sonnet 4.6, y también obtuvo puntajes más bajos —es decir, resultados más seguros— en auditorías automáticas de conducta que evalúan conductas desalineadas como cooperación con usos indebidos y engaño
- Sin embargo, en comparación con los modelos de mayor capacidad Opus 4.8 y Claude Mythos Preview, en esta evaluación mostró tasas algo más altas de algunas conductas desalineadas
- Sonnet 5 no fue entrenado intencionalmente para tareas de ciberseguridad
- Puede realizar algunas tareas cibernéticas cotidianas e inofensivas
- En evaluaciones de habilidades cibernéticas potencialmente peligrosas, como desarrollo de exploits de software, su rendimiento es mucho menor que el de Opus 4.8 y Mythos 5
- En una evaluación de desarrollo de exploits para vulnerabilidades del navegador Firefox, no logró crear un exploit completamente funcional, aunque su tasa de éxito parcial fue ligeramente superior a la de Sonnet 4.6
- Como se volvió un poco más fuerte que los modelos anteriores en esas tareas, se lanza con medidas de protección cibernética activadas por defecto
- Detectan y bloquean en tiempo real usos cibernéticos peligrosos
- Son las mismas medidas de protección aplicadas a Claude Opus 4.7 y 4.8
- Dado que se considera que el nivel general de riesgo de ciberseguridad de Sonnet 5 es bajo, son menos estrictas que las protecciones de Fable 5, que bloquean un rango más amplio de tareas de ciberseguridad
- La evaluación completa puede consultarse en la Claude Sonnet 5 System Card
Disponibilidad, precios y API
- Claude Sonnet 5 está disponible en todos los planes
- Es el modelo predeterminado de los planes Free y Pro
- Está disponible para usuarios de Max, Team y Enterprise
- También se ofrece en Claude Code y Claude Platform
- Los desarrolladores pueden usar
claude-sonnet-5en la Claude API - El precio de lanzamiento de Claude Platform hasta el 31 de agosto de 2026 es de US$2 por millón de tokens de entrada y US$10 por millón de tokens de salida
- Después, el precio estándar cambiará a US$3 por millón de tokens de entrada y US$15 por millón de tokens de salida
- Para contemplar el mayor uso de tokens en niveles altos de effort, se aumentan los límites de solicitudes en Chat, Cowork, Claude Code y Claude Platform
- Sonnet 5 es una actualización de Sonnet 4.6, pero usa un tokenizador actualizado
- Cambió la forma de procesar texto para mejorar el rendimiento
- La misma entrada puede mapearse a aproximadamente 1.0–1.35 veces más tokens, según el tipo de contenido
- El precio introductorio se fijó para que la transición a Sonnet 5 sea, en términos generales, neutral en costos
Actualización del gráfico de BrowseComp
- En la edición del 30 de junio de 2026 se actualizó el gráfico de costo-rendimiento de la evaluación BrowseComp
- El gráfico original se basaba en datos de una metodología más simple que no reflejaba la metodología estándar que Anthropic usa para evaluaciones de búsqueda agéntica, lo que hizo que el rendimiento de Sonnet 5 quedara subestimado
- El gráfico actualizado se alinea con la metodología estándar y con el método usado y discutido en la system card de Sonnet 5
- Ese método usa un presupuesto de 10M tokens, compresión y llamadas a herramientas de forma programática
- También se actualizó el texto explicativo circundante
4 comentarios
No sé si es porque me acostumbré a opus4.8 o porque llevaba un tiempo sin usar Sonnet...
Hoy usé Sonnet un rato y me decepcionó muchísimo.
Quizá en el pasado me habría dejado bastante satisfecho, pero tuvo bastantes más alucinaciones de lo que esperaba.
Denme fable...
Denme Fable pronto... 😢😢
Opiniones en Hacker News
Viendo la gráfica de costo por tarea, parece que Sonnet 5 no debería usarse por encima del nivel de esfuerzo medio. Por el mismo costo, Opus siempre rinde mejor, así que si el nivel medio de Sonnet 5 no alcanza, la conclusión parece ser cambiar de modelo en vez de subir el nivel de esfuerzo
En la práctica suelo dejar el valor por defecto de Claude Code y con eso funciona bastante bien. Aun así, me da curiosidad cuánto experimentan y optimizan otros usuarios estas configuraciones según su proyecto
Además, en algunas tareas lo más importante es simplemente la cantidad de tokens de entrada. Por ejemplo, en tareas multimodales de uso de computadora no puedes hacer que Opus sea más eficiente solo bajándole el razonamiento, así que un modelo más barato como Sonnet resulta útil
Aunque en la práctica se pierde demasiado tiempo corrigiendo lo que produce el modelo, así que incluso si es más lento, un modelo más inteligente puede reducir el tiempo total
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Lo probé con mi benchmark[0] y quedó al nivel de GLM-5.2, con el doble de costo pero también el doble de velocidad
Sus puntos débiles son casi nulo conocimiento incorporado, con 0/3 en trivia de sentido común; 45/100 en tareas de llamadas compuestas a herramientas, donde a veces hace llamadas equivocadas; y 77 puntos en resolución de acertijos, donde falla en pruebas del tipo lavado de autos
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
En cambio, Sonnet 5 me pareció muchísimo más flojo que otros modelos Claude que he usado, y después de no añadir la ampliación del plan que le pedí, cuando le pregunté dijo falsamente que sí lo había hecho. Viendo el análisis[0], para mí no parece tener valor, aunque para otras personas puede ser distinto. Fable fue claramente mucho mejor
[0]: https://artificialanalysis.ai/models/claude-sonnet-5
En varios benchmarks, con un nivel de esfuerzo por encima del medio el costo por tarea supera al de Opus, así que cuesta entender por qué usar esto en vez de simplemente Opus en nivel de esfuerzo bajo
Lo único que se me ocurre es haberse quedado sin créditos de Opus. Claro, puede haber casos de uso con cobro por API, pero aun así probablemente usaría Opus con esfuerzo bajo
Da la impresión de que los modelos se están optimizando más para sacarle más dinero al usuario y a la empresa que para resolver problemas. No entiendo por qué, después de pedir claramente una tarea simple de Python de 2 o 3 líneas, Opus intenta construir una biblioteca completa
Pero cuando iteras y exploras mientras resuelves un problema real, el contexto se va alargando cada vez más, y ahí es donde Opus muchas veces se vuelve caro
[0] https://www.anthropic.com/claude-sonnet-5-system-card
Dicen que Claude Sonnet 5 fue hecho para ser el Sonnet más parecido a un agente hasta ahora. Puede hacer planes, usar herramientas como el navegador o la terminal, y ejecutar tareas de forma autónoma a un nivel que hace apenas unos meses habría requerido un modelo más grande y más caro
Yo he usado más Sonnet 4.6 que Opus porque hago sobre todo desarrollo asistido por agente, no desarrollo totalmente impulsado por agentes. Pero este anuncio no me da una sensación positiva. Cuanto más se optimiza un modelo para desarrollo completamente orientado a agentes, peor tiende a volverse para desarrollo asistido, y muchas veces se excede incluso con instrucciones muy estrictas y específicas
En las últimas semanas me he ido pasando cada vez más a K2.7 Code y GLM-5.2. Para uso asistido muchas veces son más que suficientes, además de ser muy rápidos y baratos
El problema es que parece que la gente dentro de esas empresas cree que en 1 o 2 años ya nadie va a trabajar de esa manera
Sí requiere un poco más de corrección que Opus. Pero el verdadero criterio es la diferencia entre “tengo que leer cada línea” y “puedo confiar en él sin leer cada línea”, y para mí ningún modelo ha llegado a lo segundo, ni creo que lo haga pronto. No es tan bueno como Opus para hacer lluvia de ideas de arquitectura y convertirlas en código, pero ese problema no aparece siempre y, si hace falta, simplemente uso Opus
Gracias a eso, incluso en semanas con mucha programación, ya no choco con el límite de gasto el miércoles o jueves y tengo margen toda la semana. Aunque, en la práctica, siento que hay que frenar a K2.6 mucho más que a Opus. Si solo quiero hacer preguntas, tengo que ser mucho más cuidadoso para que no salga corriendo a inferir que debe ponerse a programar de inmediato. Uso ambos en modo de planificación, pero con K2.6 tengo que ser más defensivo que con Opus
La mayor parte de mi trabajo no es de “lo lanzo y me olvido”, sino más cercano a una ingeniería de tipo agente. Sigo involucrado incluso en la etapa de planificación, reviso los resultados y le hago muchas más preguntas al agente que la mayoría. Lo que mejor me funciona es usarlo como un modo de “autocompletado ultrapotente”: fijo los requisitos, el alcance, el diseño y a veces hasta ciertos límites entre módulos, y luego dejo que complete los espacios en blanco
También parece tener peor relación precio-rendimiento que GLM 5.2. Y eso que GLM 5.2 tiene solo 744B parámetros
En la system card dice que “en descubrimiento de vulnerabilidades de CyberGym, Claude Sonnet 5 es menos competente que Sonnet 4.6, y mucho menos competente que Opus 4.8 y Mythos 5”
También dice: “Como en las demás evaluaciones de esta sección, estos resultados se obtuvieron con todas las protecciones desactivadas. Al ejecutarlo con las mitigaciones predeterminadas activadas, Sonnet 5 obtuvo 0 puntos en CyberGym”
En planificación y programación pasó algo parecido. GLM-5.2 se ve bien “sobre el papel”, pero al usarlo de verdad el resultado fue distinto
No intento defender ni a Claude ni a GLM-5.2. Lo que he aprendido usando modelos de lenguaje grandes todos los días desde noviembre de 2022 es que las pruebas generales hay que validarlas en tus propios proyectos. No existe “un solo modelo que domine todo”; hay que encontrar un modelo específico dentro de un pajar de miles de modelos
Los benchmarks ayudan, pero cada vez se parecen más a las cifras de rendimiento de combustible en los anuncios de autos. El consumo real varía según la persona
Cosas como “el modelo X es Y% mejor o peor que Claude Z en el benchmark T”, “eso no significa nada, está ajustado al benchmark”, “no sirve para programación cotidiana ni para trabajo con agentes, la sensación es completamente distinta”, “es casi igual y mucho más barato, así que yo lo uso sí o sí”, o “la diferencia de rendimiento por pasos hace que el menor costo de los modelos abiertos no compense la pérdida de productividad, así que no se justifica”
Soy un cliente insatisfecho de Anthropic y realmente apoyo los modelos abiertos y la inteligencia no cerrada. Pero ya no sé cómo salir de esta repetición, casi convertida en meme, del discurso en torno a los lanzamientos de modelos. Yo tampoco diseño modelos de lenguaje grandes ni benchmarks, y agradezco sinceramente el esfuerzo por aportar información, aunque no sea perfecta. Supongo que la mayoría de quienes leen seguido los comentarios de este tipo de anuncios sienten algo parecido
Claude Sonnet 5 describió su pelícano como si fuera un ganso
“Un ganso blanco va en bicicleta, con un ala extendida hacia adelante sujetando el manubrio, y hay una línea de suelo marrón sobre un fondo blanco sencillo”
https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
En cambio, GLM 5.2 dibujó un pelícano SVG completamente animado, genial y funcionando por sí solo
https://simonwillison.net/2026/Jun/17/glm-52
Hoy usé un poco Sonnet 5 por accidente, y en desarrollo de software me pareció bastante peor que Opus 4.8
Me pregunto si una paranoia excesiva sobre la ciberseguridad termina haciendo que el modelo genere código menos seguro. Si tiene la capacidad de producir código seguro, eso significa que sabe algo de ciberseguridad, y con ese conocimiento también podría considerarse capaz de hackear bancos en todo el mundo
Tenía bastante expectativa con este modelo, así que en tres proyectos distintos les pedí a los planners de Opus que usaran Sonnet en lugar de subagentes Opus para ayudarme a avanzar más rápido en experimentos de kernels HPC. Pero no escribió ni una sola línea de código, y los Sonnet se la pasaban dando vueltas y desperdiciando tokens
No recuerdo cuándo fue la última vez que me pasó algo así con Opus en mi base de código. Lo estoy revirtiendo
Se resolvió solo
Lo importante es esto. “Sonnet 5 es una mejora sobre Sonnet 4.6, pero usa un tokenizer actualizado que cambia la forma en que el modelo procesa el texto para mejorar el rendimiento. Esto es similar al cambio de tokenizer que introdujimos en Claude Opus 4.7. El costo es que la misma entrada puede mapearse a más tokens. Dependiendo del tipo de contenido, es aproximadamente de 1.0 a 1.35 veces. El precio de introducción se fijó para que cambiarse a Sonnet 5 fuera, en términos generales, neutral en costos”