- El modelo Sonnet más reciente de Anthropic mejora su rendimiento en todas las áreas, como escritura de código, uso de computadoras, razonamiento de largo plazo, planificación de agentes, trabajo de conocimiento y diseño
- Admite una ventana de contexto de 1M tokens y, frente a Sonnet 4.5, mejora notablemente en consistencia, seguimiento de instrucciones y calidad del código
- Ofrece inteligencia al nivel de Opus 4.5 a un costo menor, y muestra resultados de nivel humano en trabajo real, comprensión de documentos y diseño frontend
- En el benchmark OSWorld siguió mejorando su capacidad de uso de computadoras, y también se reforzó su defensa contra prompt injection
- El punto clave es que desarrolladores y empresas ahora pueden aprovechar razonamiento de nivel frontier y calidad de código sin recurrir a modelos de alto costo
Resumen de Claude Sonnet 4.6
- Sonnet 4.6 es el modelo más potente de la serie Sonnet de Anthropic, con mejoras generales en codificación, uso de computadoras, razonamiento de largo plazo, trabajo de conocimiento y diseño
- Compatible con una ventana de contexto de 1M tokens (beta), lo que permite procesar grandes bases de código o documentos extensos de una sola vez
- Se aplica como modelo predeterminado para usuarios de los planes Free y Pro, y mantiene el mismo precio que Sonnet 4.5: $3/$15 por millón de tokens
- Los primeros usuarios prefirieron de forma abrumadora Sonnet 4.6 frente a Sonnet 4.5, y algunos incluso lo prefirieron a Opus 4.5
- Según la evaluación de seguridad, se considera tan seguro como los modelos anteriores o más seguro, y fue descrito como con una “personalidad cálida, honesta y prosocial”
Capacidad de uso de computadoras
- Sonnet 4.6 evolucionó hasta convertirse en un modelo capaz de manejar una computadora como una persona
- Se evaluó con el benchmark OSWorld, operando software real como Chrome, LibreOffice y VS Code en un entorno virtual
- Tras 16 meses de mejora continua, demostró capacidades de nivel humano en tareas como navegar hojas de cálculo complejas o completar formularios web de varios pasos
- Aun así, sigue por debajo de los humanos más expertos, pero la velocidad de mejora en eficiencia de trabajo es muy alta
- Su defensa contra ataques de prompt injection mejoró mucho frente a Sonnet 4.5, alcanzando un nivel de seguridad similar al de Opus 4.6
Evaluación de rendimiento y benchmarks
- Sonnet 4.6 ofrece inteligencia de nivel Opus a menor costo, con mejoras generales en varios benchmarks
- En las pruebas de Claude Code, el 70% de los usuarios prefirió Sonnet 4.6, destacando mejor comprensión del contexto y menor redundancia al modificar código
- Frente a Opus 4.5 obtuvo una preferencia del 59%, con menos sobreingeniería o conductas perezosas, y mayor precisión al seguir instrucciones
- En Vending-Bench Arena, superó a modelos competidores en una simulación de gestión de largo plazo con una estrategia de concentrar ganancias en la etapa final tras una inversión inicial
- En OfficeQA mostró comprensión documental al nivel de Opus 4.6, y en el Financial Services Benchmark aumentó la tasa de coincidencia de respuestas
- Registró 94% de precisión en el benchmark de seguros y una mejora del 15% en razonamiento profundo en la prueba de Box
- En la prueba de Rakuten AI logró generación de código iOS de primer nivel, con mejor uso de tooling moderno y mejor calidad de arquitectura
Actualizaciones de producto y plataforma
- En la Claude Developer Platform se ofrecen adaptive thinking, extended thinking y context compaction (beta)
- Resume automáticamente el contexto antiguo para aumentar la longitud efectiva del contexto
- Actualizaciones de herramientas de API:
- web search y fetch escriben y ejecutan código automáticamente para filtrar resultados de búsqueda
- Funciones como code execution, memory, programmatic tool calling y tool search ya están disponibles de forma general
- El complemento Claude in Excel ahora admite conectores MCP, con integración a datos externos como S&P Global, LSEG y PitchBook
- Sonnet 4.6 mantiene alto rendimiento incluso sin extended thinking, y se recomienda migrar a los usuarios de Sonnet 4.5
- Opus 4.6 sigue siendo más adecuado para tareas que requieren el razonamiento más profundo, como refactorización de código o coordinación de múltiples agentes
Vías de acceso
- Sonnet 4.6 está disponible en todos los planes de Claude, Claude Cowork, Claude Code, la API y las principales plataformas en la nube
- El plan gratuito también se actualiza a Sonnet 4.6, con funciones de creación de archivos, conectores, skills y compaction
- Los desarrolladores pueden usarlo de inmediato en la Claude API con el nombre de modelo
claude-sonnet-4-6
Principales cifras e indicadores de evaluación (resumen de notas)
- OSWorld: evaluación de tareas informáticas basadas en software real; Sonnet 4.6 se midió con ‘thinking off’
- SWE-bench Verified: puntuación promedio de 80.2% en 10 ejecuciones
- ARC-AGI-2: alcanzó 60.4% en modo de máximo esfuerzo
- MMMU-Pro: puntaje ajustado tras mejorar el método de evaluación
- En varios experimentos como Humanity’s Last Exam y BrowseComp, las pruebas se realizaron con uso de herramientas, búsqueda web y compresión de contexto activados
1 comentarios
Opiniones de Hacker News
Es impresionante que esté tan enfocado en el uso de computadoras. Parece que concluyeron que el valor ahí es enorme. Pero la parte de seguridad sigue siendo cuestionable. Según su propia evaluación, un sistema de ataque automatizado logró penetrar con un solo intento en el 8% de los casos, y con intentos ilimitados llegó al 50%. Es difícil aceptar cifras así. A menos que yo esté entendiendo algo mal, esto está en un nivel inutilizable en la práctica
PDF de evaluación de seguridad
Metí unas 900 poesías personales en Sonnet 4.6 para probarlo, y la diferencia frente a Opus 4.6 es grande. Opus 4.6 mostró un análisis sorprendente, pero Sonnet 4.6 sigue teniendo muchas alucinaciones y errores. En pruebas de código me dejó una impresión parecida. Comparado con Opus, está muy por detrás
Sonnet 4.6 sigue fallando el “problema del autolavado”. Le puse la pregunta original tal cual y respondió “ve caminando”. Probé varias variantes y mostró fallas parecidas
Realmente se siente eso de que “la competencia es buena para el consumidor”. Mientras más intensa es la competencia en el mercado, mejores son los resultados
La prueba del “autolavado en helicóptero” fue la mejor. Sonnet 4.6 respondió “ve caminando”, y fue gracioso porque parecía una burla a la costumbre de los estadounidenses de manejar hasta distancias muy cortas
Sorprende que Sonnet 4.6 tenga un rendimiento al nivel de Opus 4.5. La velocidad de avance recuerda al ritmo de mejora del rendimiento computacional en los años 90
El precio de Sonnet 4.5 es de $3/$15 per million tokens, y me pregunto cuánta gente estará dispuesta a pagar eso. Los modelos open-weight están alcanzándolo rápido y son mucho más baratos
Me demoré en hacer la imagen del pelícano porque estaba agregando soporte para Opus/Sonnet 4.6 al plugin de llm.datasette.io. El resultado está al nivel de Opus 4.5 y es una versión con un elegante sombrero de copa
Blog relacionado
En los últimos días estuve probando Sonnet 4.5, y las conversaciones se sentían extrañamente interesantes y consistentes.
Puse en la configuración personal “priorizar hechos objetivos y análisis crítico, prohibir empatía emocional”, y realmente lo siguió muy bien. ChatGPT respondió de forma parecida
Varios usuarios reportan que Opus 4.6 consume entre 5 y 10 veces más tokens que 4.5. Enlace al issue. Todavía no hay respuesta oficial. Por eso pienso seguir usando 4.5
/modelsse puede revisar el reasoning level. Si está en high, el uso de tokens se dispara