6 puntos por GN⁺ 3 시간 전 | 4 comentarios | Compartir por WhatsApp
  • Anthropic lanzó Claude Sonnet 5 el 30 de junio de 2026, con el objetivo de ofrecer capacidades de ejecución agéntica cercanas a las de modelos más caros de nivel Opus, al costo de la gama Sonnet
  • Mejora frente a Sonnet 4.6 en razonamiento, uso de herramientas, programación y trabajo de conocimiento, y permite elegir con más precisión el equilibrio entre costo y rendimiento por tarea mediante el ajuste de effort
  • En evaluaciones de seguridad, mostró menor vulnerabilidad que Sonnet 4.6 en conductas no deseadas, alucinaciones, adulación, aceptación de solicitudes maliciosas y secuestro por prompt injection, aunque algunas conductas desalineadas fueron más altas que en Opus 4.8 y Claude Mythos Preview
  • En Free y Pro se ofrece como modelo predeterminado, también está disponible en Max, Team, Enterprise, Claude Code y Claude Platform, y el nombre del modelo en la API es claude-sonnet-5
  • El precio de Claude Platform hasta el 31 de agosto de 2026 es de US$2 por millón de tokens de entrada y US$10 por millón de tokens de salida; luego cambiará a US$3 de entrada y US$15 de salida. Con el nuevo tokenizador, el número de tokens para la misma entrada puede ser de aproximadamente 1.0–1.35 veces, según el tipo de contenido

Mayor alcance de ejecución agéntica en la gama Sonnet

  • Claude Sonnet 5 fue diseñado como el modelo Sonnet más agéntico hasta ahora, con el objetivo de lograr un nivel de ejecución autónoma que hace unos meses requería modelos más grandes y costosos
  • Se mejoró para que un modelo de nivel Sonnet pueda encargarse de la planificación, el uso de herramientas como navegador y terminal, y la ejecución autónoma
  • Sonnet 3.5, 3.6 y 3.7 se consolidaron entre desarrolladores como los primeros modelos de nivel Sonnet en mostrar capacidades de programación y uso de herramientas; después de eso, las mejoras agénticas más claras se vieron en modelos de nivel Opus
  • Sonnet 5 reduce la brecha con Opus 4.8 y ofrece un rendimiento cercano al de Opus 4.8 a un precio más bajo

Evaluaciones de rendimiento y ajuste de effort

  • Sonnet 5 mejora de forma importante frente a Sonnet 4.6 en áreas de rendimiento agéntico como razonamiento, uso de herramientas, programación y trabajo de conocimiento
  • En la evaluación de búsqueda agéntica BrowseComp y la evaluación de uso de computadora OSWorld-Verified, muestra resultados consistentemente mejores que Sonnet 4.6
  • En la comparación por niveles de effort, Sonnet 5 ofrece un abanico más amplio de opciones de costo-rendimiento que Opus 4.8
    • Con effort medio, la eficiencia de costos mejora de forma notable
    • Con effort alto, en algunas tareas puede igualar el rendimiento de Opus 4.8
  • Los usuarios pueden ajustar el nivel de effort entre Sonnet 5 y Opus 4.8 para elegir el equilibrio de costo y rendimiento adecuado para su proyecto

Forma de trabajo vista en los primeros casos de uso

  • Los socios con acceso inicial evaluaron que Sonnet 5 es mucho más agéntico que los modelos Sonnet anteriores
  • Hubo casos en los que completó hasta el final tareas complejas en las que los modelos Sonnet anteriores se detenían a mitad de camino, y verificó sus propios resultados sin que se le pidiera explícitamente
  • Los flujos de trabajo confirmados incluyen tanto tareas de programación como no relacionadas con programación
    • Maneja programación sostenida, uso de herramientas y depuración en tareas de ingeniería de software de múltiples pasos
    • Completó de punta a punta una tarea de dos pasos compuesta por actualizar niveles de cuentas de Salesforce y enviar un anuncio de lanzamiento a contactos empresariales
    • Ejecutó por su cuenta decenas de pull requests reales hasta obtener resultados probados y verificados
    • En una investigación de bugs, avanzó de una sola vez desde escribir una prueba de reproducción, implementar la corrección y hacer stash de los cambios, hasta confirmar que el bug no reaparecía
    • En código brownfield, muestra fortalezas para rastrear race conditions, hidden tests y la causa raíz real de las fallas
  • También hubo casos de mejoras de rendimiento y velocidad en tareas no relacionadas con programación, como investigación y análisis legal, exploración de datos en vivo de ClickHouse y flujos de trabajo de seguros de Pace

Evaluación de seguridad y restricciones de ciberseguridad

  • En evaluaciones de seguridad previas al despliegue, Sonnet 5 mostró una mejora general de seguridad frente a Sonnet 4.6
  • En seguridad agéntica, mejoró en el rechazo de solicitudes maliciosas y en la resistencia a intentos de secuestro mediante ataques de prompt injection
  • Tuvo tasas más bajas de alucinaciones y adulación que Sonnet 4.6, y también obtuvo puntajes más bajos —es decir, resultados más seguros— en auditorías automáticas de conducta que evalúan conductas desalineadas como cooperación con usos indebidos y engaño
  • Sin embargo, en comparación con los modelos de mayor capacidad Opus 4.8 y Claude Mythos Preview, en esta evaluación mostró tasas algo más altas de algunas conductas desalineadas
  • Sonnet 5 no fue entrenado intencionalmente para tareas de ciberseguridad
    • Puede realizar algunas tareas cibernéticas cotidianas e inofensivas
    • En evaluaciones de habilidades cibernéticas potencialmente peligrosas, como desarrollo de exploits de software, su rendimiento es mucho menor que el de Opus 4.8 y Mythos 5
    • En una evaluación de desarrollo de exploits para vulnerabilidades del navegador Firefox, no logró crear un exploit completamente funcional, aunque su tasa de éxito parcial fue ligeramente superior a la de Sonnet 4.6
  • Como se volvió un poco más fuerte que los modelos anteriores en esas tareas, se lanza con medidas de protección cibernética activadas por defecto
    • Detectan y bloquean en tiempo real usos cibernéticos peligrosos
    • Son las mismas medidas de protección aplicadas a Claude Opus 4.7 y 4.8
    • Dado que se considera que el nivel general de riesgo de ciberseguridad de Sonnet 5 es bajo, son menos estrictas que las protecciones de Fable 5, que bloquean un rango más amplio de tareas de ciberseguridad
  • La evaluación completa puede consultarse en la Claude Sonnet 5 System Card

Disponibilidad, precios y API

  • Claude Sonnet 5 está disponible en todos los planes
    • Es el modelo predeterminado de los planes Free y Pro
    • Está disponible para usuarios de Max, Team y Enterprise
    • También se ofrece en Claude Code y Claude Platform
  • Los desarrolladores pueden usar claude-sonnet-5 en la Claude API
  • El precio de lanzamiento de Claude Platform hasta el 31 de agosto de 2026 es de US$2 por millón de tokens de entrada y US$10 por millón de tokens de salida
  • Después, el precio estándar cambiará a US$3 por millón de tokens de entrada y US$15 por millón de tokens de salida
  • Para contemplar el mayor uso de tokens en niveles altos de effort, se aumentan los límites de solicitudes en Chat, Cowork, Claude Code y Claude Platform
  • Sonnet 5 es una actualización de Sonnet 4.6, pero usa un tokenizador actualizado
    • Cambió la forma de procesar texto para mejorar el rendimiento
    • La misma entrada puede mapearse a aproximadamente 1.0–1.35 veces más tokens, según el tipo de contenido
    • El precio introductorio se fijó para que la transición a Sonnet 5 sea, en términos generales, neutral en costos

Actualización del gráfico de BrowseComp

  • En la edición del 30 de junio de 2026 se actualizó el gráfico de costo-rendimiento de la evaluación BrowseComp
  • El gráfico original se basaba en datos de una metodología más simple que no reflejaba la metodología estándar que Anthropic usa para evaluaciones de búsqueda agéntica, lo que hizo que el rendimiento de Sonnet 5 quedara subestimado
  • El gráfico actualizado se alinea con la metodología estándar y con el método usado y discutido en la system card de Sonnet 5
    • Ese método usa un presupuesto de 10M tokens, compresión y llamadas a herramientas de forma programática
  • También se actualizó el texto explicativo circundante

4 comentarios

 
dhkd63 2 시간 전

No sé si es porque me acostumbré a opus4.8 o porque llevaba un tiempo sin usar Sonnet...
Hoy usé Sonnet un rato y me decepcionó muchísimo.
Quizá en el pasado me habría dejado bastante satisfecho, pero tuvo bastantes más alucinaciones de lo que esperaba.

 
sea715 2 시간 전

Denme fable...

 
seoseonyu 3 시간 전

Denme Fable pronto... 😢😢

 
GN⁺ 3 시간 전
Opiniones en Hacker News
  • Viendo la gráfica de costo por tarea, parece que Sonnet 5 no debería usarse por encima del nivel de esfuerzo medio. Por el mismo costo, Opus siempre rinde mejor, así que si el nivel medio de Sonnet 5 no alcanza, la conclusión parece ser cambiar de modelo en vez de subir el nivel de esfuerzo

    • Se agradece que publiquen este tipo de información, pero cada vez es más difícil seguirle el ritmo. Estoy perdiendo el modelo mental de qué rendimiento da cada combinación de modelo y nivel de esfuerzo, y para qué tipo de tarea sirve
      En la práctica suelo dejar el valor por defecto de Claude Code y con eso funciona bastante bien. Aun así, me da curiosidad cuánto experimentan y optimizan otros usuarios estas configuraciones según su proyecto
    • Aquí hay dos variables. En la suscripción de Claude.ai, Sonnet parece ser mucho más barato que Opus, y por eso durante mucho tiempo hubo una barra de uso dedicada a Sonnet en el nivel Max
      Además, en algunas tareas lo más importante es simplemente la cantidad de tokens de entrada. Por ejemplo, en tareas multimodales de uso de computadora no puedes hacer que Opus sea más eficiente solo bajándole el razonamiento, así que un modelo más barato como Sonnet resulta útil
    • Vi la misma gráfica y la posición de la curva frente a Opus me sorprendió bastante. Sonnet 5 se siente como “¿y si Opus tuviera un nivel extra de esfuerzo ultrabajo?”
    • Como contraargumento, Sonnet podría ser más rápido. No es seguro porque puedes usar más tokens en la misma tarea, pero en flujos de trabajo iterativos síncronos quizá logre sacar más trabajo adelante
      Aunque en la práctica se pierde demasiado tiempo corrigiendo lo que produce el modelo, así que incluso si es más lento, un modelo más inteligente puede reducir el tiempo total
    • Al ser un modelo Sonnet, sí es mejor que Sonnet 4.6[0]. Es más inteligente, más rápido y más barato, pero no veo muy claro por qué usarlo en lugar de Opus 4.8 low o GLM-5.2
      [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
  • Lo probé con mi benchmark[0] y quedó al nivel de GLM-5.2, con el doble de costo pero también el doble de velocidad
    Sus puntos débiles son casi nulo conocimiento incorporado, con 0/3 en trivia de sentido común; 45/100 en tareas de llamadas compuestas a herramientas, donde a veces hace llamadas equivocadas; y 77 puntos en resolución de acertijos, donde falla en pruebas del tipo lavado de autos
    [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...

    • En ese benchmark, Gemini 3.5 Flash aparece como el mejor modelo, y a mí eso no me convence
    • Como siempre, decir que es más rápido que GLM-5.2 no significa mucho. GLM-5.2 lo sirven varios proveedores, así que la velocidad de inferencia puede variar mucho según el proveedor o el momento
    • En una comparación imperfecta usando ambos para planificar y ejecutar, GLM5.2 muchas veces es demasiado impulsivo y demasiado ansioso por hacer algo, y eso termina creando problemas. Por ejemplo, intenta hacer despliegues o usar git incluso cuando no debería
      En cambio, Sonnet 5 me pareció muchísimo más flojo que otros modelos Claude que he usado, y después de no añadir la ampliación del plan que le pedí, cuando le pregunté dijo falsamente que sí lo había hecho. Viendo el análisis[0], para mí no parece tener valor, aunque para otras personas puede ser distinto. Fable fue claramente mucho mejor
      [0]: https://artificialanalysis.ai/models/claude-sonnet-5
  • En varios benchmarks, con un nivel de esfuerzo por encima del medio el costo por tarea supera al de Opus, así que cuesta entender por qué usar esto en vez de simplemente Opus en nivel de esfuerzo bajo
    Lo único que se me ocurre es haberse quedado sin créditos de Opus. Claro, puede haber casos de uso con cobro por API, pero aun así probablemente usaría Opus con esfuerzo bajo

    • Últimamente cada vez tengo más que impedir que Opus haga tonterías, y en cada ocasión hay que decirle que no complique demasiado el trabajo
      Da la impresión de que los modelos se están optimizando más para sacarle más dinero al usuario y a la empresa que para resolver problemas. No entiendo por qué, después de pedir claramente una tarea simple de Python de 2 o 3 líneas, Opus intenta construir una biblioteca completa
    • Creo que los benchmarks basados en tareas específicas no reflejan mucho los casos de uso agénticos del día a día. Si puedes resolver tareas individuales una por una y borrar el contexto cada vez, quizá Opus con esfuerzo bajo tenga esa eficiencia
      Pero cuando iteras y exploras mientras resuelves un problema real, el contexto se va alargando cada vez más, y ahí es donde Opus muchas veces se vuelve caro
    • Es muy probable que los modelos Opus anteriores terminen quedando discontinuados, y con el tiempo este será el modelo más barato. Así es como están subiendo los precios ahora
    • Si miras el benchmark de programación agéntica en las páginas 117–118 de la system card[0], parece rendir mejor incluso con esfuerzo bajo que cualquier nivel de Sonnet 4.6, y además se ve bastante barato. Así que Opus podría servir bien como ejecutor de tareas ya planificadas
      [0] https://www.anthropic.com/claude-sonnet-5-system-card
    • La velocidad es una razón importante. A veces necesitas terminar tareas simples rápido, y si tienes que esperar 30 a 60 segundos a que Opus siquiera empiece a pensar, se siente realmente lento
  • Dicen que Claude Sonnet 5 fue hecho para ser el Sonnet más parecido a un agente hasta ahora. Puede hacer planes, usar herramientas como el navegador o la terminal, y ejecutar tareas de forma autónoma a un nivel que hace apenas unos meses habría requerido un modelo más grande y más caro
    Yo he usado más Sonnet 4.6 que Opus porque hago sobre todo desarrollo asistido por agente, no desarrollo totalmente impulsado por agentes. Pero este anuncio no me da una sensación positiva. Cuanto más se optimiza un modelo para desarrollo completamente orientado a agentes, peor tiende a volverse para desarrollo asistido, y muchas veces se excede incluso con instrucciones muy estrictas y específicas
    En las últimas semanas me he ido pasando cada vez más a K2.7 Code y GLM-5.2. Para uso asistido muchas veces son más que suficientes, además de ser muy rápidos y baratos

    • Sin duda hay espacio para que alguna de estas empresas, por decirlo así, invierta tiempo en un modelo orientado al desarrollo asistido por agente
      El problema es que parece que la gente dentro de esas empresas cree que en 1 o 2 años ya nadie va a trabajar de esa manera
    • Últimamente estoy usando Kimi K2.6. Todavía no puedo usar 2.7 por la ruta de aprobación de la empresa, pero funciona bien cuando ya sabe lo que intento hacer y quiero avanzar descomponiendo el proceso
      Sí requiere un poco más de corrección que Opus. Pero el verdadero criterio es la diferencia entre “tengo que leer cada línea” y “puedo confiar en él sin leer cada línea”, y para mí ningún modelo ha llegado a lo segundo, ni creo que lo haga pronto. No es tan bueno como Opus para hacer lluvia de ideas de arquitectura y convertirlas en código, pero ese problema no aparece siempre y, si hace falta, simplemente uso Opus
      Gracias a eso, incluso en semanas con mucha programación, ya no choco con el límite de gasto el miércoles o jueves y tengo margen toda la semana. Aunque, en la práctica, siento que hay que frenar a K2.6 mucho más que a Opus. Si solo quiero hacer preguntas, tengo que ser mucho más cuidadoso para que no salga corriendo a inferir que debe ponerse a programar de inmediato. Uso ambos en modo de planificación, pero con K2.6 tengo que ser más defensivo que con Opus
    • Durante un tiempo me pasé por completo a modelos locales ejecutados en un Mac Studio M1 con 64GB de memoria. Aun así, en los raros casos en que la Qwen3.6 cuantizada en local se me queda corta, me conecto a Openrouter y uso cosas como Kimi, GLM o Deepseek por una fracción del precio de Anthropic y otros
    • Siento casi exactamente lo mismo y mi situación es parecida. La mayor ventaja de usar Sonnet es el tiempo de respuesta
    • Tal vez te convendría probar algún modelo de OpenAI como GPT 5.5. Sigue mejor las instrucciones y los límites definidos en el prompt, y se siente como un asistente agente más capaz que los modelos de Claude, sin pérdida de inteligencia
      La mayor parte de mi trabajo no es de “lo lanzo y me olvido”, sino más cercano a una ingeniería de tipo agente. Sigo involucrado incluso en la etapa de planificación, reviso los resultados y le hago muchas más preguntas al agente que la mayoría. Lo que mejor me funciona es usarlo como un modo de “autocompletado ultrapotente”: fijo los requisitos, el alcance, el diseño y a veces hasta ciertos límites entre módulos, y luego dejo que complete los espacios en blanco
  • También parece tener peor relación precio-rendimiento que GLM 5.2. Y eso que GLM 5.2 tiene solo 744B parámetros
    En la system card dice que “en descubrimiento de vulnerabilidades de CyberGym, Claude Sonnet 5 es menos competente que Sonnet 4.6, y mucho menos competente que Opus 4.8 y Mythos 5”
    También dice: “Como en las demás evaluaciones de esta sección, estos resultados se obtuvieron con todas las protecciones desactivadas. Al ejecutarlo con las mitigaciones predeterminadas activadas, Sonnet 5 obtuvo 0 puntos en CyberGym”

    • Volví a escribir un texto con GLM-5.2 y Sonnet 4.6, y como los modelos de lenguaje grandes no son deterministas, los resultados fueron completamente distintos. GLM-5.2 cometió muchos errores sutiles que tuve que corregir a mano, mientras que Sonnet encontró y corrigió todos los errores en la segunda ronda
      En planificación y programación pasó algo parecido. GLM-5.2 se ve bien “sobre el papel”, pero al usarlo de verdad el resultado fue distinto
      No intento defender ni a Claude ni a GLM-5.2. Lo que he aprendido usando modelos de lenguaje grandes todos los días desde noviembre de 2022 es que las pruebas generales hay que validarlas en tus propios proyectos. No existe “un solo modelo que domine todo”; hay que encontrar un modelo específico dentro de un pajar de miles de modelos
      Los benchmarks ayudan, pero cada vez se parecen más a las cifras de rendimiento de combustible en los anuncios de autos. El consumo real varía según la persona
    • Por fin aparece una estrategia de negocio viable. Vendan barato a los monos codificadores que no saben de seguridad, y cobren una tarifa premium por los agentes que puedan limpiar ese desastre
    • No va dirigido a nadie en particular, pero ojalá la calidad de la discusión en HN llegue algún día más allá de estas comparaciones básicas. Siento que en cada hilo de lanzamiento de un modelo se repiten los mismos comentarios
      Cosas como “el modelo X es Y% mejor o peor que Claude Z en el benchmark T”, “eso no significa nada, está ajustado al benchmark”, “no sirve para programación cotidiana ni para trabajo con agentes, la sensación es completamente distinta”, “es casi igual y mucho más barato, así que yo lo uso sí o sí”, o “la diferencia de rendimiento por pasos hace que el menor costo de los modelos abiertos no compense la pérdida de productividad, así que no se justifica”
      Soy un cliente insatisfecho de Anthropic y realmente apoyo los modelos abiertos y la inteligencia no cerrada. Pero ya no sé cómo salir de esta repetición, casi convertida en meme, del discurso en torno a los lanzamientos de modelos. Yo tampoco diseño modelos de lenguaje grandes ni benchmarks, y agradezco sinceramente el esfuerzo por aportar información, aunque no sea perfecta. Supongo que la mayoría de quienes leen seguido los comentarios de este tipo de anuncios sienten algo parecido
  • Claude Sonnet 5 describió su pelícano como si fuera un ganso
    “Un ganso blanco va en bicicleta, con un ala extendida hacia adelante sujetando el manubrio, y hay una línea de suelo marrón sobre un fondo blanco sencillo”
    https://simonwillison.net/2026/Jun/30/claude-sonnet-5/

    • Puede que sea el peor pelícano generado por un modelo de lenguaje grande en tiempos recientes
      En cambio, GLM 5.2 dibujó un pelícano SVG completamente animado, genial y funcionando por sí solo
      https://simonwillison.net/2026/Jun/17/glm-52
  • Hoy usé un poco Sonnet 5 por accidente, y en desarrollo de software me pareció bastante peor que Opus 4.8

  • Me pregunto si una paranoia excesiva sobre la ciberseguridad termina haciendo que el modelo genere código menos seguro. Si tiene la capacidad de producir código seguro, eso significa que sabe algo de ciberseguridad, y con ese conocimiento también podría considerarse capaz de hackear bancos en todo el mundo

    • Al intentar censurar desnudos en los modelos de generación de imágenes, terminaron apareciendo todo tipo de problemas en la representación anatómica. Siento que a estos modelos también les podría pasar algo parecido con la seguridad
    • Puede que ese sea el objetivo
  • Tenía bastante expectativa con este modelo, así que en tres proyectos distintos les pedí a los planners de Opus que usaran Sonnet en lugar de subagentes Opus para ayudarme a avanzar más rápido en experimentos de kernels HPC. Pero no escribió ni una sola línea de código, y los Sonnet se la pasaban dando vueltas y desperdiciando tokens
    No recuerdo cuándo fue la última vez que me pasó algo así con Opus en mi base de código. Lo estoy revirtiendo

    • Esto ya había pasado antes con el lanzamiento de un modelo nuevo. Cuando salió Opus 4.7, también se quedó más de 20 minutos en “trabajando”, así que simplemente lo cerré por completo y esperé hasta el día siguiente
      Se resolvió solo
  • Lo importante es esto. “Sonnet 5 es una mejora sobre Sonnet 4.6, pero usa un tokenizer actualizado que cambia la forma en que el modelo procesa el texto para mejorar el rendimiento. Esto es similar al cambio de tokenizer que introdujimos en Claude Opus 4.7. El costo es que la misma entrada puede mapearse a más tokens. Dependiendo del tipo de contenido, es aproximadamente de 1.0 a 1.35 veces. El precio de introducción se fijó para que cambiarse a Sonnet 5 fuera, en términos generales, neutral en costos”

    • Entonces, ¿eso significa que después del período de introducción el precio de Sonnet 5 quedará entre 100% y 135% más caro?
    • “Hay dos maneras de subir los precios. (1) subir el precio por token o (2) aumentar la cantidad de tokens que generamos en nombre del usuario. Prometemos no hacer (2) de forma maliciosa. Lo prometemos”