Claude Sonnet 4.5

(anthropic.com)

4 puntos por GN⁺ 2025-09-30 | 1 comentarios | Compartir por WhatsApp

Claude Sonnet 4.5 es el modelo de IA más reciente y muestra un rendimiento de primer nivel en programación, razonamiento y matemáticas
Claude Code actualizado agrega checkpoints, una interfaz de terminal mejorada, extensión para VS Code y funciones de gestión de memoria, lo que le permite sostener tareas complejas durante largos periodos
El recién presentado Claude Agent SDK ofrece la infraestructura clave para desarrollar agentes, permitiendo construir directamente diversas herramientas para resolver problemas
En benchmarks como SWE-bench y OSWorld supera ampliamente a los modelos rivales, demostrando fortalezas en cálculo, razonamiento y adecuación a dominios específicos
En seguridad también es considerado el modelo mejor alineado (alignment), con mejoras en la defensa contra prompt injection y en el bloqueo de contenido riesgoso

Resumen de Claude Sonnet 4.5

Claude Sonnet 4.5 es el mejor modelo de programación disponible actualmente y ofrece el rendimiento más potente para construir agentes complejos y para el uso de computadoras
- En todos los entornos de trabajo modernos que usamos, como software, hojas de cálculo y distintas herramientas, el código es un elemento central
Su capacidad de razonamiento y resolución de problemas matemáticos también mejoró notablemente frente a modelos anteriores, aumentando su utilidad en diversas áreas especializadas
Se ofrece al mismo precio que Sonnet 4: $3 / $15 por millón de tokens

Principales actualizaciones de producto

Claude Code
- Incorpora checkpoints para guardar progreso intermedio y hacer rollback durante el trabajo
- Mejora la interfaz de terminal y lanza una extensión nativa para VS Code
- Agrega edición de contexto (context editing) y herramientas de memoria para soportar tareas complejas y de larga duración
Claude Apps
- Permite ejecutar código y crear archivos (hojas de cálculo, presentaciones y documentos) directamente dentro de la conversación
Claude for Chrome
- Ofrece una extensión para usuarios Max, con soporte para automatizar tareas dentro del navegador

Claude Agent SDK

Anthropic abrió a desarrolladores externos la infraestructura de agentes que usó internamente para crear Claude Code
Proporciona una base para resolver desafíos como gestión de memoria a largo plazo, control de permisos y coordinación de múltiples subagentes
Puede usarse para crear una variedad de agentes más allá de programación

Rendimiento y benchmarks

Logra el mejor resultado en SWE-bench Verified y puede sostener tareas de programación multietapa de largo plazo durante más de 30 horas
Alcanza 61.4% en el benchmark OSWorld (el Sonnet 4 anterior registró 42.2%)
También mejora de forma importante en razonamiento, matemáticas y evaluación multilingüe (MMMLU), y demuestra gran desempeño en evaluaciones de expertos en finanzas, derecho, medicina y STEM
Con retroalimentación de clientes, se validó su aplicabilidad en entornos de producción para trabajo prolongado, comprensión de codebases complejos e implementación rápida y precisa de código

Casos de clientes

Cursor: confirmó rendimiento líder en resolución de problemas complejos
GitHub Copilot: mejora en razonamiento multietapa y comprensión de código
Sector de seguridad: reducción de 44% en tiempo de respuesta a vulnerabilidades y aumento de 25% en precisión
Canva, Figma: mejoras revolucionarias de productividad en trabajo sobre codebases grandes y prototipado
Devin: mejora de 18% en capacidad de planificación y refuerzo en pruebas y ejecución de código

Seguridad y alineación

Sonnet 4.5 tiene el nivel más alto de alineación (alignment) entre los modelos publicados por Anthropic
Se reforzó el entrenamiento de seguridad para reducir conductas no deseadas como adulación (sycophancy), engaño, búsqueda de poder y fomento de delirios
Hubo avances significativos en la defensa contra ataques de prompt injection, y también se introdujeron técnicas de interpretación mecanística en las evaluaciones de seguridad
Cumple altos estándares de seguridad mediante un sistema automático de auditoría de acciones que calcula puntajes de riesgo de uso indebido
Se lanza bajo protección AI Safety Level 3 (ASL-3), aplicando filtrado para entradas y salidas peligrosas (por ejemplo, riesgos relacionados con química, biología, radiación y material nuclear)

Vista previa de investigación

Junto con Claude Sonnet 4.5 se ofrece una vista previa temporal de investigación llamada "Imagine with Claude"
Sin código ni funciones predefinidas, demuestra generación de software en el momento, reaccionando y adaptándose en tiempo real a las solicitudes del usuario
Disponible para suscriptores Max durante 5 días

Información adicional y migración

Para usuarios actuales de productos Claude y de la API, Sonnet 4.5 está disponible de inmediato, con el mismo precio que Sonnet 4 ($3/$15 por millón de tokens)
Las nuevas funciones, como programación, creación de archivos y ejecución de código, están disponibles en todos los planes pagos
Más detalles técnicos y resultados de evaluación pueden consultarse en System Card, Claude Model page, documentación oficial
Ver también los enlaces: Desarrollo de agentes con Claude Agent SDK, ciberseguridad, ingeniería de contexto efectiva

Conclusión y recomendación

Claude Sonnet 4.5 es un modelo de reemplazo inmediato con mejor rendimiento para todos los entornos de uso, incluidos la API, las apps y Claude Code
Reúne rendimiento de clase mundial, aplicabilidad y alineación en programación, construcción de agentes y uso de computadoras
Con políticas de seguridad sólidas y amplio soporte de herramientas para desarrolladores, acelerará la productividad y la innovación de desarrolladores y organizaciones de TI
Se recomienda actualizar, ya que ofrece funciones más potentes al mismo precio

1 comentarios

GN⁺ 2025-09-30

Opiniones de Hacker News

Este fin de semana pude acceder a una versión preliminar y dejé mis notas aquí
En lo personal me pareció muy impresionante y, más que una comparación integral, mi sensación es que rindió un poco mejor que GPT-5-Codex
Creo que destaca especialmente en el nuevo modo de intérprete de código Python/Node.js de claude.ai
Recomiendo probar con un prompt como este

Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

También manejó bien un refactor complejo de base de datos paso a paso; dejé los detalles en el blog

Hay algo que me gustaría pedirle a @simonw y a quienes siguen los benchmarks de LLM
Ojalá siempre publiquen cuánto tiempo tomó completar la tarea
Esta publicación dice que “funciona directo en claude.ai”, pero no incluye ninguna marca de tiempo sobre cuándo salió el resultado
También me parece una lástima que en los leaderboards reales de coding con LLM no haya nada de información sobre tiempos de ejecución
Entre modelos y plataformas hay diferencias enormes en tiempo, y cuando haces pruebas iterativas/reinicios o mejoras el prompt, se mezclan la velocidad de inferencia, el consumo de tokens, la eficiencia del tooling, el costo y la inteligencia del modelo
En especial modelos como Grok Code Fast y Cerebras Code, aunque no tengan el mejor desempeño absoluto, te dejan resolver mucho más trabajo con velocidades de inferencia más de 10 veces mayores; los modelos rápidos sí tienen una ventaja real
Benchmarks útiles para referencia: swebench, leaderboard de tbench, gosuevals agents
Lo intenté, pero en mi entorno no funciona
Entiendo que son comandos para configurar la herramienta CLI de LLM; la opción -e instala en modo editable y [test] instala las dependencias de pruebas
La herramienta que tengo no soporta comandos de shell (pip, pytest), ni git clone, ni ejecutar Python
Solo puede correr JavaScript en un entorno de navegador, no ejecutar comandos a nivel shell
Me da curiosidad qué esperabas exactamente: si querías que entendiera la configuración de pruebas o si esperabas esa funcionalidad como tal
Para quienes tengan curiosidad por el caso de uso del prompt “hazlo en un archivo zip”
Imagino que muchos no tendrán tiempo de abrir el gist completo, así que me gustaría escuchar si realmente funcionó bien y qué impresión te dejó el resultado
Me da curiosidad si Claude Sonnet 4.5 todavía responde a todo con un “¡tienes toda la razón!”, o si ya conversa como un programador de verdad
Me pregunto por qué pudiste obtener acceso a la vista previa anticipada
Comparto una experiencia real
Probé el mismo prompt en Sonnet 4.5 (Claude Code) y GPT-5-Codex sobre una web app grande de unas 200 mil LoC
El requerimiento era: “en ‘Go to Conversation’ o ‘Go to Report’, si el título ingresado no coincide con el elemento estándar, hacer una búsqueda difusa después de 2 segundos”
Sonnet 4.5 devolvió algo en unos 3 minutos, pero el código quedó descuidado y ni siquiera reutilizó la autenticación existente; intentó crear autenticación del lado servidor desde cero
Incluso después de señalarle el problema y re-prompting, no mejoró mucho, y tampoco escribió los tests, que eran un requisito indispensable
En cambio, GPT-5-Codex tardó unos 20 minutos, pero manejó a fondo el error handling y varios edge cases, y además escribió tests sin que se lo pidiera explícitamente
La API también funcionó de forma fluida, y el nivel general de la implementación fue de calidad tipo desarrollador Senior
Yo no quiero una implementación “rápida y sucia” en 3 minutos, así que elijo los 20 minutos sin dudar
Me sorprendió que Sonnet diera un resultado tan rápido, pero una implementación sin calidad real ni pruebas no me sirve de nada
- Me preocupa que suene a crítica, pero creo que si empiezas con un prompt tan simple, casi en forma de una sola frase, el resultado necesariamente va a ser algo aleatorio
  Lo importante es estructurar mejor los grupos lógicos y las condiciones detalladas, y el ejemplo de prompt se parece más a una run-on sentence
  Para tareas complejas o importantes, yo diría que el prompt debe ser entre 5 y 20 veces más específico
  Si el input está estructurado y el codebase sigue patrones claros, la IA devuelve resultados mucho mejores
  En la práctica, si a un desarrollador junior o a un equipo le dieras solo una frase vaga sin más detalles, también sería comprensible que no entregaran justo lo que querías
  Mi consejo es invertir unos minutos más en preparar el prompt inicial para aumentar bastante la probabilidad de obtener un resultado satisfactorio
- Me da curiosidad si usas el plan de pago ChatGPT Pro y si Codex CLI viene incluido
  Yo uso Sonnet/Opus por el plan Max de Claude, pero si ChatGPT Pro permite usar Codex, consideraría cambiarme
- Tuve exactamente la misma experiencia
  La semana pasada desarrollé con éxito un parser completo de XPath 1.0 en C++20 usando Codex, y ahora ya voy por soporte para XPath 2.0
  Codex sigue dándome resultados excelentes y, salvo por el hecho de que uso la versión en la nube porque la local tiene bugs, no tengo mayores problemas
  Sonnet sigue atorándose en tareas de alta complejidad y en 4.5 tampoco siento una mejora clara
  En concreto, Claude prácticamente se rinde con el manejo de date-time, mientras que Codex lo resuelve perfectamente
  La verdad yo le tenía simpatía a Anthropic, pero hasta ahora me parece que OpenAI va bastante más adelante
  Si Claude quiere competir con Codex necesita un avance importante, y además es caro y los problemas de calidad del servicio están haciendo que mucha gente se vaya
- Eso coincide con mis expectativas
  Codex se parece más a una herramienta de vibe coding, mientras que Claude Code está más enfocado en ai assisted development
  Yo, de hecho, prefiero más a Claude
  Codex funciona muy bien por su cuenta, pero cuando la dirección cambia —por ejemplo, incluso para una edición muy simple de archivo insiste en resolverlo con un script en Python— se pone sutilmente terco y además refleja peor la información reciente
  Cuando le pides explicaciones, también tiene tendencia a ejecutar sin contexto en vez de dialogar
  Los problemas de manejo de permisos siguen ahí. El sandbox de Codex está padre, pero me preocupa que haga commits por accidente; preferiría que se quedara solo en editar
  También se puede usar Codex como servidor MCP, pero personalmente prefiero tener a Claude como planificador colaborativo, armar el plan con Codex y luego trabajar junto a Claude adaptándolo a mi estilo
- También recomiendo probar agregando ultrathink al prompt y poner música mientras experimentas
  Referencia: enlace de Reddit sobre ultrathink
Ver las capacidades de los modelos recientes me deprime un poco
Siento que todos esos detalles finos para escribir código limpio, que me costó años desarrollar, se están volviendo detalles irrelevantes
Cosas que antes consideraba esenciales ahora se están convirtiendo en simples “detalles de implementación” dentro del prompt
Es como si mis capacidades fueran siendo reemplazadas poco a poco por la automatización
- Esos detalles finos siempre tuvieron una importancia algo ambigua; la habilidad real al final está en todo el proceso de ganar dinero con software
  Por la IA se va a generar todavía más software y va a hacer falta supervisión experta
- A mí me pasó igual cuando me enfoqué unos meses en trabajo especializado con IA
  Durante las primeras cuatro semanas o más sentí esa misma crisis
  Sobre todo me confundía la sensación de que 25 años de experiencia como desarrollador se habían vuelto irrelevantes
  Si lo aceptas y te adaptas un poco más, vas a sentirte mucho mejor
  De verdad espero que recuerdes que eres mucho más que tu habilidad para programar
- Antes seguramente te alegraba que la automatización reemplazara a otros, pero ahora te tocó a ti
  Eso es justamente la “destrucción creativa” que vuelve dinámica a la economía
- Yo también pensaba así antes, pero últimamente al usarlo de verdad llegué a la conclusión de que no es tan práctico
  Sobre todo cuando gente sin experiencia depende del vibe coding, solo salen resultados sin sentido, y en tareas apenas un poco complejas aparecen errores/fallas graves con mucha frecuencia
  La automatización de frontend tampoco me deja satisfecho; por ejemplo, hasta para tareas muy simples genera código mucho más largo de lo necesario
  Al final solo sirve para frontend básico de React/Next.js y clones de sitios populares; para requisitos raros o diseños finos, en mi experiencia se queda corto
- En la práctica, las herramientas de vibe coding no aumentan tanto la productividad
  En resumen, el mantenimiento de sistemas (código, infraestructura, etc.) sigue siendo responsabilidad humana, y el proceso por el que las personas entienden la estructura y el funcionamiento del sistema jamás se va a poder automatizar
  Al final, los desarrolladores con pensamiento experto van a volverse todavía más escasos y más importantes
Le pedí una tarea sencilla de reemplazo de código a Sonnet 4 y Opus 4.1, y ambos fallaron
Era una conversión que hasta un principiante podía hacer, y me preocupa que los modelos estén persiguiendo solo puntajes de benchmark mientras descuidan el rendimiento real en uso cotidiano
Luego di un prompt de seguimiento (“sigue exactamente mi solicitud”) y Sonnet sí lo logró, pero Opus cayó en un loop infinito
- Hace tiempo que me preocupa que la obsesión con los benchmarks pueda dañar el rendimiento real
  Con Claude, mi percepción es que al pasar de 3.7 a 4 el rendimiento práctico incluso bajó, mientras que los benchmarks subieron muchísimo
  Entiendo que el benchmarking mismo se ha quedado rezagado respecto al avance de la IA
- Creo que básicamente seguimos en un ciclo de “correr benchmarks, marcar el mejor puntaje, bajar el desempeño real y repetir unas semanas después con otro modelo mejor”
- Como los modelos se alimentan de las mismas fuentes de datos (internet, github, libros, etc.) y optimizan pruebas estandarizadas, ya no sé qué diferenciación o valor propio queda más allá del puntaje
- Creo que ya sería bueno reunir en una base de datos comunitaria ejemplos de cosas que los LLM resolvieron mal; yo mismo tengo bastantes casos así
- Para cosas como pedirle que corrija un error simple de lint, me parece mejor resolverlo uno mismo y seguir
  En vez de intentar darle significado a cada tarea trivial, hay que buscar la utilidad donde la IA sí da resultados excelentes: problemas mucho más complejos
En los gráficos parece que Sonnet 4 ya supera a GPT-5-codex en el benchmark SWE verified, pero en mi experiencia real GPT-5-codex es muchísimo mejor para problemas complejos
- Para mí, GPT-5 es como ese compañero de béisbol que pega home runs pero falla en lo básico del outfield
  Incluso colaborando con otros agentes a veces arma dramas, y hace poco, cuando dije que iba a cambiarme a claude code, se empeñó en hacer git reset --hard, con comportamientos impredecibles
  En cambio, gemini y claude son excelentes colaboradores
  No creo que toda esta tendencia haya sido intencional en GPT-5; más bien me da la impresión de que es resultado de una moral muy baja dentro de OpenAI
- En mi caso, 5-codex consumía tokens demasiado rápido y seguía menos las instrucciones de agents.md que Claude
  En especial, incluso para comandos sin importancia intentaba escribir grandes scripts en bash o python
- Mi experiencia es justo la opuesta: GPT-5-codex es lentísimo y los resultados son mediocres
  Si me obligaran a usarlo, preferiría abandonar por completo el uso de IA
- No creo que exista un criterio absoluto de rendimiento del modelo
  Por ejemplo, a veces incluso especificando Claude-Opus termina respondiendo peor que un modelo baratísimo
  La variabilidad de rendimiento es alta; sospecho que según el tráfico cambian los recursos de servidor disponibles
  Anthropic incluso llegó a mencionar oficialmente una degradación de rendimiento por efectos de ciertos experimentos
  También me imagino que GPT puede degradarse en hora pico por problemas de capacidad del data center
- Los modelos de Anthropic parecen ajustados para vibe-coding
  Funcionan bien con Python/TypeScript sencillos, pero son débiles para código científico/complejo y codebases grandes
  No espero grandes cambios con el nuevo Sonnet
Me interesa mucho el mensaje promocional de “mantener la concentración durante más de 30 horas y ejecutar tareas complejas de múltiples pasos”
Según artículos como el de The Verge, realmente generó durante 30 horas seguidas un clon de Slack usando 11,000 líneas de código
Pero soy escéptico sobre qué tanta calidad real pueda tener el resultado de dejar un LLM trabajando sin supervisión durante 30 horas
Artículo relacionado
- Llegar a 30 horas continuas no es algo que se logre simplemente dejando solo a un LLM
  Hace falta integrar herramientas externas, manejar el contexto y preparar el entorno; incluso exige configurar un sistema multiagente
  Es una tarea que requiere muchísimo esfuerzo de infraestructura y setup
- La frase “trabajó sin supervisión durante 30 horas” es demasiado ambigua y no aporta concreción
  Por ejemplo, si procesara 1 token por hora, apenas alcanzaría para producir una sola línea en todo ese tiempo
- Me gustaría conocer los detalles técnicos: si realmente usaron herramientas de manejo de contexto del modelo y cómo operaron prompts de 200 mil a 1 millón de tokens
Acabo de probar con un issue simple y, igual que los modelos anteriores, Sonnet 4.5 se fue por la madriguera del conejo y trató el problema de forma innecesariamente compleja
La mayor parte del tiempo fue puro trial & error, repitiendo comentarios del tipo “ahora sí creo que ya quedó resuelto”
Por ejemplo, había un error en un pipeline de GH Actions donde el build system no se detectaba porque faltaba un source file, y Sonnet 4.5 insistió en soluciones distorsionadas (crear un archivo JSON dummy, configurar parámetros de workflow inexistentes)
Cuando en realidad bastaba con algo simple: overridear el step para que solo imprimiera “Hello world”
Me intriga por qué la IA es tan mala para ese tipo de pensamiento simple “fuera de la caja”
Es como un genio de 170 de IQ que ni siquiera sabe usar el transporte público
Pago suscripción de Gemini, Claude y OpenAI, y últimamente llegué a la conclusión de que ChatGPT se está despegando bastante
Responde de forma más concisa, ofrece mejor información y, tras probar Claude 4.5, tampoco sentí una mejora tan grande
- Yo igual pago las tres
  Para analizar situaciones complejas, ChatGPT es el mejor, pero para escribir código Claude lo hace mejor
  Diseño y resuelvo problemas con ChatGPT, y luego paso esa respuesta a Claude o Gemini para implementar
  Gemini está por encima del promedio en ambas cosas
- En general ChatGPT sí está un poco mejor, pero Gemini también puede volverse el mejor en contexto de uso real si aprovechas AI Studio, optimizas la configuración y ajustas el system prompt
  Por ejemplo, nano banana es SOTA, pero siento que Qwen-Edit tiene menos censura y por eso resulta más útil en la práctica
  En mi servicio de comercio electrónico localizado, nano banana no me sirve porque restringe la generación de imágenes de mujeres, mientras que Qwen-Edit lo puedo usar sin mayores problemas
- Yo también pago tanto Claude Max como ChatGPT Codex
  Antes era fan de Claude, pero últimamente uso casi puro codex
  Si se atasca, le dejo a Claude solo tareas simples o los pruebo en paralelo, pero en Claude Code Sonnet/Opus claramente quedan por debajo de Codex
- ¿Podrías aclarar si de verdad te refieres a codex?
- ¿Qué tal va Grok? Me da curiosidad si ya se está acercando
Todavía no he podido usar Claude, pero sí uso IA para varias tareas, como corregir textos políticos
En ciertos temas sensibles (por ejemplo, un caso de violación de una niña de 12 años en Austria), me ha pasado que ChatGPT se detiene por completo por los guardrails
No me parece aceptable que detecte palabras como “sex + kid” sin importar el contexto real y bloquee automáticamente
Es como si el procesador de texto censurara el tema e impidiera escribir; siento que así deja de cumplir su papel como herramienta
- En estos temas, la proporción de contenido no permitido frente a conversación legítima es tan alta que, desde la perspectiva de la mayoría de los proveedores, bloquear sí parece razonable
  Por ejemplo, en una app que desarrollo para gestionar pedigrís de animales de parentesco, me ha pasado el caso molesto de que con solo poner términos como breeding/breeders ya me bloquea
- Un “servicio” no es una herramienta
  Si de verdad necesitas una herramienta, la respuesta es correr un LLM localmente
- Al final creo que la IA con menos guardrails va a dominar el mercado
  Entre los frontier models actuales, Grok es el menos restrictivo, aunque todavía tiene margen de mejora
- Algo parecido: intenté hacer con ChatGPT/DallE una imagen de cupones de cumpleaños para mi hija y terminé gastando tres cuartas partes del tiempo solo en esquivar políticas de contenido
- En mi experiencia modesta, Claude corta la conversación mucho más rápido y con más dureza en temas “controvertidos”
Hice una prueba rápida junto con System Initiative
Un error 503 de infraestructura, que a mano me habría tomado más de 2 horas, quedó resuelto en 15 minutos al combinar ambas cosas
Dejé otros casos de uso en el blog
System Initiative oficial
Blog con la experiencia de uso

Claude Sonnet 4.5

Resumen de Claude Sonnet 4.5

Principales actualizaciones de producto

Claude Agent SDK

Rendimiento y benchmarks

Casos de clientes

Seguridad y alineación

Vista previa de investigación

Información adicional y migración

Conclusión y recomendación

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News