- Claude Sonnet 4.5 es el modelo de IA más reciente y muestra un rendimiento de primer nivel en programación, razonamiento y matemáticas
- Claude Code actualizado agrega checkpoints, una interfaz de terminal mejorada, extensión para VS Code y funciones de gestión de memoria, lo que le permite sostener tareas complejas durante largos periodos
- El recién presentado Claude Agent SDK ofrece la infraestructura clave para desarrollar agentes, permitiendo construir directamente diversas herramientas para resolver problemas
- En benchmarks como SWE-bench y OSWorld supera ampliamente a los modelos rivales, demostrando fortalezas en cálculo, razonamiento y adecuación a dominios específicos
- En seguridad también es considerado el modelo mejor alineado (alignment), con mejoras en la defensa contra prompt injection y en el bloqueo de contenido riesgoso
Resumen de Claude Sonnet 4.5
- Claude Sonnet 4.5 es el mejor modelo de programación disponible actualmente y ofrece el rendimiento más potente para construir agentes complejos y para el uso de computadoras
- En todos los entornos de trabajo modernos que usamos, como software, hojas de cálculo y distintas herramientas, el código es un elemento central
- Su capacidad de razonamiento y resolución de problemas matemáticos también mejoró notablemente frente a modelos anteriores, aumentando su utilidad en diversas áreas especializadas
- Se ofrece al mismo precio que Sonnet 4: $3 / $15 por millón de tokens
Principales actualizaciones de producto
- Claude Code
- Incorpora checkpoints para guardar progreso intermedio y hacer rollback durante el trabajo
- Mejora la interfaz de terminal y lanza una extensión nativa para VS Code
- Agrega edición de contexto (
context editing) y herramientas de memoria para soportar tareas complejas y de larga duración
- Claude Apps
- Permite ejecutar código y crear archivos (hojas de cálculo, presentaciones y documentos) directamente dentro de la conversación
- Claude for Chrome
- Ofrece una extensión para usuarios Max, con soporte para automatizar tareas dentro del navegador
Claude Agent SDK
- Anthropic abrió a desarrolladores externos la infraestructura de agentes que usó internamente para crear Claude Code
- Proporciona una base para resolver desafíos como gestión de memoria a largo plazo, control de permisos y coordinación de múltiples subagentes
- Puede usarse para crear una variedad de agentes más allá de programación
Rendimiento y benchmarks
- Logra el mejor resultado en SWE-bench Verified y puede sostener tareas de programación multietapa de largo plazo durante más de 30 horas
- Alcanza 61.4% en el benchmark OSWorld (el Sonnet 4 anterior registró 42.2%)
- También mejora de forma importante en razonamiento, matemáticas y evaluación multilingüe (MMMLU), y demuestra gran desempeño en evaluaciones de expertos en finanzas, derecho, medicina y STEM
- Con retroalimentación de clientes, se validó su aplicabilidad en entornos de producción para trabajo prolongado, comprensión de codebases complejos e implementación rápida y precisa de código
Casos de clientes
- Cursor: confirmó rendimiento líder en resolución de problemas complejos
- GitHub Copilot: mejora en razonamiento multietapa y comprensión de código
- Sector de seguridad: reducción de 44% en tiempo de respuesta a vulnerabilidades y aumento de 25% en precisión
- Canva, Figma: mejoras revolucionarias de productividad en trabajo sobre codebases grandes y prototipado
- Devin: mejora de 18% en capacidad de planificación y refuerzo en pruebas y ejecución de código
Seguridad y alineación
- Sonnet 4.5 tiene el nivel más alto de alineación (alignment) entre los modelos publicados por Anthropic
- Se reforzó el entrenamiento de seguridad para reducir conductas no deseadas como adulación (
sycophancy), engaño, búsqueda de poder y fomento de delirios
- Hubo avances significativos en la defensa contra ataques de prompt injection, y también se introdujeron técnicas de interpretación mecanística en las evaluaciones de seguridad
- Cumple altos estándares de seguridad mediante un sistema automático de auditoría de acciones que calcula puntajes de riesgo de uso indebido
- Se lanza bajo protección AI Safety Level 3 (ASL-3), aplicando filtrado para entradas y salidas peligrosas (por ejemplo, riesgos relacionados con química, biología, radiación y material nuclear)
Vista previa de investigación
- Junto con Claude Sonnet 4.5 se ofrece una vista previa temporal de investigación llamada "Imagine with Claude"
- Sin código ni funciones predefinidas, demuestra generación de software en el momento, reaccionando y adaptándose en tiempo real a las solicitudes del usuario
- Disponible para suscriptores Max durante 5 días
Información adicional y migración
Conclusión y recomendación
- Claude Sonnet 4.5 es un modelo de reemplazo inmediato con mejor rendimiento para todos los entornos de uso, incluidos la API, las apps y Claude Code
- Reúne rendimiento de clase mundial, aplicabilidad y alineación en programación, construcción de agentes y uso de computadoras
- Con políticas de seguridad sólidas y amplio soporte de herramientas para desarrolladores, acelerará la productividad y la innovación de desarrolladores y organizaciones de TI
- Se recomienda actualizar, ya que ofrece funciones más potentes al mismo precio
1 comentarios
Opiniones de Hacker News
En lo personal me pareció muy impresionante y, más que una comparación integral, mi sensación es que rindió un poco mejor que GPT-5-Codex
Creo que destaca especialmente en el nuevo modo de intérprete de código Python/Node.js de claude.ai
Recomiendo probar con un prompt como este
También manejó bien un refactor complejo de base de datos paso a paso; dejé los detalles en el blog
Hay algo que me gustaría pedirle a @simonw y a quienes siguen los benchmarks de LLM
Ojalá siempre publiquen cuánto tiempo tomó completar la tarea
Esta publicación dice que “funciona directo en claude.ai”, pero no incluye ninguna marca de tiempo sobre cuándo salió el resultado
También me parece una lástima que en los leaderboards reales de coding con LLM no haya nada de información sobre tiempos de ejecución
Entre modelos y plataformas hay diferencias enormes en tiempo, y cuando haces pruebas iterativas/reinicios o mejoras el prompt, se mezclan la velocidad de inferencia, el consumo de tokens, la eficiencia del tooling, el costo y la inteligencia del modelo
En especial modelos como Grok Code Fast y Cerebras Code, aunque no tengan el mejor desempeño absoluto, te dejan resolver mucho más trabajo con velocidades de inferencia más de 10 veces mayores; los modelos rápidos sí tienen una ventaja real
Benchmarks útiles para referencia: swebench, leaderboard de tbench, gosuevals agents
Lo intenté, pero en mi entorno no funciona
Entiendo que son comandos para configurar la herramienta CLI de LLM; la opción
-einstala en modo editable y[test]instala las dependencias de pruebasLa herramienta que tengo no soporta comandos de shell (
pip,pytest), nigit clone, ni ejecutar PythonSolo puede correr JavaScript en un entorno de navegador, no ejecutar comandos a nivel shell
Me da curiosidad qué esperabas exactamente: si querías que entendiera la configuración de pruebas o si esperabas esa funcionalidad como tal
Para quienes tengan curiosidad por el caso de uso del prompt “hazlo en un archivo zip”
Imagino que muchos no tendrán tiempo de abrir el gist completo, así que me gustaría escuchar si realmente funcionó bien y qué impresión te dejó el resultado
Me da curiosidad si Claude Sonnet 4.5 todavía responde a todo con un “¡tienes toda la razón!”, o si ya conversa como un programador de verdad
Me pregunto por qué pudiste obtener acceso a la vista previa anticipada
Comparto una experiencia real
Probé el mismo prompt en Sonnet 4.5 (Claude Code) y GPT-5-Codex sobre una web app grande de unas 200 mil LoC
El requerimiento era: “en ‘Go to Conversation’ o ‘Go to Report’, si el título ingresado no coincide con el elemento estándar, hacer una búsqueda difusa después de 2 segundos”
Sonnet 4.5 devolvió algo en unos 3 minutos, pero el código quedó descuidado y ni siquiera reutilizó la autenticación existente; intentó crear autenticación del lado servidor desde cero
Incluso después de señalarle el problema y re-prompting, no mejoró mucho, y tampoco escribió los tests, que eran un requisito indispensable
En cambio, GPT-5-Codex tardó unos 20 minutos, pero manejó a fondo el error handling y varios edge cases, y además escribió tests sin que se lo pidiera explícitamente
La API también funcionó de forma fluida, y el nivel general de la implementación fue de calidad tipo desarrollador Senior
Yo no quiero una implementación “rápida y sucia” en 3 minutos, así que elijo los 20 minutos sin dudar
Me sorprendió que Sonnet diera un resultado tan rápido, pero una implementación sin calidad real ni pruebas no me sirve de nada
Me preocupa que suene a crítica, pero creo que si empiezas con un prompt tan simple, casi en forma de una sola frase, el resultado necesariamente va a ser algo aleatorio
Lo importante es estructurar mejor los grupos lógicos y las condiciones detalladas, y el ejemplo de prompt se parece más a una run-on sentence
Para tareas complejas o importantes, yo diría que el prompt debe ser entre 5 y 20 veces más específico
Si el input está estructurado y el codebase sigue patrones claros, la IA devuelve resultados mucho mejores
En la práctica, si a un desarrollador junior o a un equipo le dieras solo una frase vaga sin más detalles, también sería comprensible que no entregaran justo lo que querías
Mi consejo es invertir unos minutos más en preparar el prompt inicial para aumentar bastante la probabilidad de obtener un resultado satisfactorio
Me da curiosidad si usas el plan de pago ChatGPT Pro y si Codex CLI viene incluido
Yo uso Sonnet/Opus por el plan Max de Claude, pero si ChatGPT Pro permite usar Codex, consideraría cambiarme
Tuve exactamente la misma experiencia
La semana pasada desarrollé con éxito un parser completo de XPath 1.0 en C++20 usando Codex, y ahora ya voy por soporte para XPath 2.0
Codex sigue dándome resultados excelentes y, salvo por el hecho de que uso la versión en la nube porque la local tiene bugs, no tengo mayores problemas
Sonnet sigue atorándose en tareas de alta complejidad y en 4.5 tampoco siento una mejora clara
En concreto, Claude prácticamente se rinde con el manejo de date-time, mientras que Codex lo resuelve perfectamente
La verdad yo le tenía simpatía a Anthropic, pero hasta ahora me parece que OpenAI va bastante más adelante
Si Claude quiere competir con Codex necesita un avance importante, y además es caro y los problemas de calidad del servicio están haciendo que mucha gente se vaya
Eso coincide con mis expectativas
Codex se parece más a una herramienta de vibe coding, mientras que Claude Code está más enfocado en ai assisted development
Yo, de hecho, prefiero más a Claude
Codex funciona muy bien por su cuenta, pero cuando la dirección cambia —por ejemplo, incluso para una edición muy simple de archivo insiste en resolverlo con un script en Python— se pone sutilmente terco y además refleja peor la información reciente
Cuando le pides explicaciones, también tiene tendencia a ejecutar sin contexto en vez de dialogar
Los problemas de manejo de permisos siguen ahí. El sandbox de Codex está padre, pero me preocupa que haga commits por accidente; preferiría que se quedara solo en editar
También se puede usar Codex como servidor MCP, pero personalmente prefiero tener a Claude como planificador colaborativo, armar el plan con Codex y luego trabajar junto a Claude adaptándolo a mi estilo
También recomiendo probar agregando
ultrathinkal prompt y poner música mientras experimentasReferencia: enlace de Reddit sobre ultrathink
Ver las capacidades de los modelos recientes me deprime un poco
Siento que todos esos detalles finos para escribir código limpio, que me costó años desarrollar, se están volviendo detalles irrelevantes
Cosas que antes consideraba esenciales ahora se están convirtiendo en simples “detalles de implementación” dentro del prompt
Es como si mis capacidades fueran siendo reemplazadas poco a poco por la automatización
Esos detalles finos siempre tuvieron una importancia algo ambigua; la habilidad real al final está en todo el proceso de ganar dinero con software
Por la IA se va a generar todavía más software y va a hacer falta supervisión experta
A mí me pasó igual cuando me enfoqué unos meses en trabajo especializado con IA
Durante las primeras cuatro semanas o más sentí esa misma crisis
Sobre todo me confundía la sensación de que 25 años de experiencia como desarrollador se habían vuelto irrelevantes
Si lo aceptas y te adaptas un poco más, vas a sentirte mucho mejor
De verdad espero que recuerdes que eres mucho más que tu habilidad para programar
Antes seguramente te alegraba que la automatización reemplazara a otros, pero ahora te tocó a ti
Eso es justamente la “destrucción creativa” que vuelve dinámica a la economía
Yo también pensaba así antes, pero últimamente al usarlo de verdad llegué a la conclusión de que no es tan práctico
Sobre todo cuando gente sin experiencia depende del vibe coding, solo salen resultados sin sentido, y en tareas apenas un poco complejas aparecen errores/fallas graves con mucha frecuencia
La automatización de frontend tampoco me deja satisfecho; por ejemplo, hasta para tareas muy simples genera código mucho más largo de lo necesario
Al final solo sirve para frontend básico de React/Next.js y clones de sitios populares; para requisitos raros o diseños finos, en mi experiencia se queda corto
En la práctica, las herramientas de vibe coding no aumentan tanto la productividad
En resumen, el mantenimiento de sistemas (código, infraestructura, etc.) sigue siendo responsabilidad humana, y el proceso por el que las personas entienden la estructura y el funcionamiento del sistema jamás se va a poder automatizar
Al final, los desarrolladores con pensamiento experto van a volverse todavía más escasos y más importantes
Le pedí una tarea sencilla de reemplazo de código a Sonnet 4 y Opus 4.1, y ambos fallaron
Era una conversión que hasta un principiante podía hacer, y me preocupa que los modelos estén persiguiendo solo puntajes de benchmark mientras descuidan el rendimiento real en uso cotidiano
Luego di un prompt de seguimiento (“sigue exactamente mi solicitud”) y Sonnet sí lo logró, pero Opus cayó en un loop infinito
Hace tiempo que me preocupa que la obsesión con los benchmarks pueda dañar el rendimiento real
Con Claude, mi percepción es que al pasar de 3.7 a 4 el rendimiento práctico incluso bajó, mientras que los benchmarks subieron muchísimo
Entiendo que el benchmarking mismo se ha quedado rezagado respecto al avance de la IA
Creo que básicamente seguimos en un ciclo de “correr benchmarks, marcar el mejor puntaje, bajar el desempeño real y repetir unas semanas después con otro modelo mejor”
Como los modelos se alimentan de las mismas fuentes de datos (internet, github, libros, etc.) y optimizan pruebas estandarizadas, ya no sé qué diferenciación o valor propio queda más allá del puntaje
Creo que ya sería bueno reunir en una base de datos comunitaria ejemplos de cosas que los LLM resolvieron mal; yo mismo tengo bastantes casos así
Para cosas como pedirle que corrija un error simple de lint, me parece mejor resolverlo uno mismo y seguir
En vez de intentar darle significado a cada tarea trivial, hay que buscar la utilidad donde la IA sí da resultados excelentes: problemas mucho más complejos
En los gráficos parece que Sonnet 4 ya supera a GPT-5-codex en el benchmark SWE verified, pero en mi experiencia real GPT-5-codex es muchísimo mejor para problemas complejos
Para mí, GPT-5 es como ese compañero de béisbol que pega home runs pero falla en lo básico del outfield
Incluso colaborando con otros agentes a veces arma dramas, y hace poco, cuando dije que iba a cambiarme a claude code, se empeñó en hacer
git reset --hard, con comportamientos impredeciblesEn cambio, gemini y claude son excelentes colaboradores
No creo que toda esta tendencia haya sido intencional en GPT-5; más bien me da la impresión de que es resultado de una moral muy baja dentro de OpenAI
En mi caso, 5-codex consumía tokens demasiado rápido y seguía menos las instrucciones de
agents.mdque ClaudeEn especial, incluso para comandos sin importancia intentaba escribir grandes scripts en bash o python
Mi experiencia es justo la opuesta: GPT-5-codex es lentísimo y los resultados son mediocres
Si me obligaran a usarlo, preferiría abandonar por completo el uso de IA
No creo que exista un criterio absoluto de rendimiento del modelo
Por ejemplo, a veces incluso especificando Claude-Opus termina respondiendo peor que un modelo baratísimo
La variabilidad de rendimiento es alta; sospecho que según el tráfico cambian los recursos de servidor disponibles
Anthropic incluso llegó a mencionar oficialmente una degradación de rendimiento por efectos de ciertos experimentos
También me imagino que GPT puede degradarse en hora pico por problemas de capacidad del data center
Los modelos de Anthropic parecen ajustados para vibe-coding
Funcionan bien con Python/TypeScript sencillos, pero son débiles para código científico/complejo y codebases grandes
No espero grandes cambios con el nuevo Sonnet
Me interesa mucho el mensaje promocional de “mantener la concentración durante más de 30 horas y ejecutar tareas complejas de múltiples pasos”
Según artículos como el de The Verge, realmente generó durante 30 horas seguidas un clon de Slack usando 11,000 líneas de código
Pero soy escéptico sobre qué tanta calidad real pueda tener el resultado de dejar un LLM trabajando sin supervisión durante 30 horas
Artículo relacionado
Llegar a 30 horas continuas no es algo que se logre simplemente dejando solo a un LLM
Hace falta integrar herramientas externas, manejar el contexto y preparar el entorno; incluso exige configurar un sistema multiagente
Es una tarea que requiere muchísimo esfuerzo de infraestructura y setup
La frase “trabajó sin supervisión durante 30 horas” es demasiado ambigua y no aporta concreción
Por ejemplo, si procesara 1 token por hora, apenas alcanzaría para producir una sola línea en todo ese tiempo
Me gustaría conocer los detalles técnicos: si realmente usaron herramientas de manejo de contexto del modelo y cómo operaron prompts de 200 mil a 1 millón de tokens
Acabo de probar con un issue simple y, igual que los modelos anteriores, Sonnet 4.5 se fue por la madriguera del conejo y trató el problema de forma innecesariamente compleja
La mayor parte del tiempo fue puro trial & error, repitiendo comentarios del tipo “ahora sí creo que ya quedó resuelto”
Por ejemplo, había un error en un pipeline de GH Actions donde el build system no se detectaba porque faltaba un source file, y Sonnet 4.5 insistió en soluciones distorsionadas (crear un archivo JSON dummy, configurar parámetros de workflow inexistentes)
Cuando en realidad bastaba con algo simple: overridear el step para que solo imprimiera “Hello world”
Me intriga por qué la IA es tan mala para ese tipo de pensamiento simple “fuera de la caja”
Es como un genio de 170 de IQ que ni siquiera sabe usar el transporte público
Pago suscripción de Gemini, Claude y OpenAI, y últimamente llegué a la conclusión de que ChatGPT se está despegando bastante
Responde de forma más concisa, ofrece mejor información y, tras probar Claude 4.5, tampoco sentí una mejora tan grande
Yo igual pago las tres
Para analizar situaciones complejas, ChatGPT es el mejor, pero para escribir código Claude lo hace mejor
Diseño y resuelvo problemas con ChatGPT, y luego paso esa respuesta a Claude o Gemini para implementar
Gemini está por encima del promedio en ambas cosas
En general ChatGPT sí está un poco mejor, pero Gemini también puede volverse el mejor en contexto de uso real si aprovechas AI Studio, optimizas la configuración y ajustas el system prompt
Por ejemplo, nano banana es SOTA, pero siento que Qwen-Edit tiene menos censura y por eso resulta más útil en la práctica
En mi servicio de comercio electrónico localizado, nano banana no me sirve porque restringe la generación de imágenes de mujeres, mientras que Qwen-Edit lo puedo usar sin mayores problemas
Yo también pago tanto Claude Max como ChatGPT Codex
Antes era fan de Claude, pero últimamente uso casi puro codex
Si se atasca, le dejo a Claude solo tareas simples o los pruebo en paralelo, pero en Claude Code Sonnet/Opus claramente quedan por debajo de Codex
¿Podrías aclarar si de verdad te refieres a codex?
¿Qué tal va Grok? Me da curiosidad si ya se está acercando
Todavía no he podido usar Claude, pero sí uso IA para varias tareas, como corregir textos políticos
En ciertos temas sensibles (por ejemplo, un caso de violación de una niña de 12 años en Austria), me ha pasado que ChatGPT se detiene por completo por los guardrails
No me parece aceptable que detecte palabras como “sex + kid” sin importar el contexto real y bloquee automáticamente
Es como si el procesador de texto censurara el tema e impidiera escribir; siento que así deja de cumplir su papel como herramienta
En estos temas, la proporción de contenido no permitido frente a conversación legítima es tan alta que, desde la perspectiva de la mayoría de los proveedores, bloquear sí parece razonable
Por ejemplo, en una app que desarrollo para gestionar pedigrís de animales de parentesco, me ha pasado el caso molesto de que con solo poner términos como breeding/breeders ya me bloquea
Un “servicio” no es una herramienta
Si de verdad necesitas una herramienta, la respuesta es correr un LLM localmente
Al final creo que la IA con menos guardrails va a dominar el mercado
Entre los frontier models actuales, Grok es el menos restrictivo, aunque todavía tiene margen de mejora
Algo parecido: intenté hacer con ChatGPT/DallE una imagen de cupones de cumpleaños para mi hija y terminé gastando tres cuartas partes del tiempo solo en esquivar políticas de contenido
En mi experiencia modesta, Claude corta la conversación mucho más rápido y con más dureza en temas “controvertidos”
Hice una prueba rápida junto con System Initiative
Un error 503 de infraestructura, que a mano me habría tomado más de 2 horas, quedó resuelto en 15 minutos al combinar ambas cosas
Dejé otros casos de uso en el blog
System Initiative oficial
Blog con la experiencia de uso