9 puntos por GN⁺ 2026-02-18 | 1 comentarios | Compartir por WhatsApp
  • El modelo Sonnet más reciente de Anthropic mejora su rendimiento en todas las áreas, como escritura de código, uso de computadoras, razonamiento de largo plazo, planificación de agentes, trabajo de conocimiento y diseño
  • Admite una ventana de contexto de 1M tokens y, frente a Sonnet 4.5, mejora notablemente en consistencia, seguimiento de instrucciones y calidad del código
  • Ofrece inteligencia al nivel de Opus 4.5 a un costo menor, y muestra resultados de nivel humano en trabajo real, comprensión de documentos y diseño frontend
  • En el benchmark OSWorld siguió mejorando su capacidad de uso de computadoras, y también se reforzó su defensa contra prompt injection
  • El punto clave es que desarrolladores y empresas ahora pueden aprovechar razonamiento de nivel frontier y calidad de código sin recurrir a modelos de alto costo

Resumen de Claude Sonnet 4.6

  • Sonnet 4.6 es el modelo más potente de la serie Sonnet de Anthropic, con mejoras generales en codificación, uso de computadoras, razonamiento de largo plazo, trabajo de conocimiento y diseño
    • Compatible con una ventana de contexto de 1M tokens (beta), lo que permite procesar grandes bases de código o documentos extensos de una sola vez
  • Se aplica como modelo predeterminado para usuarios de los planes Free y Pro, y mantiene el mismo precio que Sonnet 4.5: $3/$15 por millón de tokens
  • Los primeros usuarios prefirieron de forma abrumadora Sonnet 4.6 frente a Sonnet 4.5, y algunos incluso lo prefirieron a Opus 4.5
  • Según la evaluación de seguridad, se considera tan seguro como los modelos anteriores o más seguro, y fue descrito como con una “personalidad cálida, honesta y prosocial”

Capacidad de uso de computadoras

  • Sonnet 4.6 evolucionó hasta convertirse en un modelo capaz de manejar una computadora como una persona
    • Se evaluó con el benchmark OSWorld, operando software real como Chrome, LibreOffice y VS Code en un entorno virtual
  • Tras 16 meses de mejora continua, demostró capacidades de nivel humano en tareas como navegar hojas de cálculo complejas o completar formularios web de varios pasos
  • Aun así, sigue por debajo de los humanos más expertos, pero la velocidad de mejora en eficiencia de trabajo es muy alta
  • Su defensa contra ataques de prompt injection mejoró mucho frente a Sonnet 4.5, alcanzando un nivel de seguridad similar al de Opus 4.6

Evaluación de rendimiento y benchmarks

  • Sonnet 4.6 ofrece inteligencia de nivel Opus a menor costo, con mejoras generales en varios benchmarks
    • En las pruebas de Claude Code, el 70% de los usuarios prefirió Sonnet 4.6, destacando mejor comprensión del contexto y menor redundancia al modificar código
    • Frente a Opus 4.5 obtuvo una preferencia del 59%, con menos sobreingeniería o conductas perezosas, y mayor precisión al seguir instrucciones
  • En Vending-Bench Arena, superó a modelos competidores en una simulación de gestión de largo plazo con una estrategia de concentrar ganancias en la etapa final tras una inversión inicial
  • En OfficeQA mostró comprensión documental al nivel de Opus 4.6, y en el Financial Services Benchmark aumentó la tasa de coincidencia de respuestas
  • Registró 94% de precisión en el benchmark de seguros y una mejora del 15% en razonamiento profundo en la prueba de Box
  • En la prueba de Rakuten AI logró generación de código iOS de primer nivel, con mejor uso de tooling moderno y mejor calidad de arquitectura

Actualizaciones de producto y plataforma

  • En la Claude Developer Platform se ofrecen adaptive thinking, extended thinking y context compaction (beta)
    • Resume automáticamente el contexto antiguo para aumentar la longitud efectiva del contexto
  • Actualizaciones de herramientas de API:
    • web search y fetch escriben y ejecutan código automáticamente para filtrar resultados de búsqueda
    • Funciones como code execution, memory, programmatic tool calling y tool search ya están disponibles de forma general
  • El complemento Claude in Excel ahora admite conectores MCP, con integración a datos externos como S&P Global, LSEG y PitchBook
  • Sonnet 4.6 mantiene alto rendimiento incluso sin extended thinking, y se recomienda migrar a los usuarios de Sonnet 4.5
  • Opus 4.6 sigue siendo más adecuado para tareas que requieren el razonamiento más profundo, como refactorización de código o coordinación de múltiples agentes

Vías de acceso

  • Sonnet 4.6 está disponible en todos los planes de Claude, Claude Cowork, Claude Code, la API y las principales plataformas en la nube
  • El plan gratuito también se actualiza a Sonnet 4.6, con funciones de creación de archivos, conectores, skills y compaction
  • Los desarrolladores pueden usarlo de inmediato en la Claude API con el nombre de modelo claude-sonnet-4-6

Principales cifras e indicadores de evaluación (resumen de notas)

  • OSWorld: evaluación de tareas informáticas basadas en software real; Sonnet 4.6 se midió con ‘thinking off’
  • SWE-bench Verified: puntuación promedio de 80.2% en 10 ejecuciones
  • ARC-AGI-2: alcanzó 60.4% en modo de máximo esfuerzo
  • MMMU-Pro: puntaje ajustado tras mejorar el método de evaluación
  • En varios experimentos como Humanity’s Last Exam y BrowseComp, las pruebas se realizaron con uso de herramientas, búsqueda web y compresión de contexto activados

1 comentarios

 
GN⁺ 2026-02-18
Opiniones de Hacker News
  • Es impresionante que esté tan enfocado en el uso de computadoras. Parece que concluyeron que el valor ahí es enorme. Pero la parte de seguridad sigue siendo cuestionable. Según su propia evaluación, un sistema de ataque automatizado logró penetrar con un solo intento en el 8% de los casos, y con intentos ilimitados llegó al 50%. Es difícil aceptar cifras así. A menos que yo esté entendiendo algo mal, esto está en un nivel inutilizable en la práctica
    PDF de evaluación de seguridad

    • El objetivo de esta tecnología es, en la práctica, monopolizar el trabajo relacionado con I/O de computadoras. No solo SWE, sino la mayoría de los trabajos de oficina. Hace que una persona haga el trabajo de tres, empujando a reducir personal. Desde la perspectiva de la empresa, si puede ganar lo mismo reduciendo los costos laborales a un tercio, no hay razón para negarse. Pero en una estructura así, cualquiera puede construir un negocio con LLM, y al final la competencia se vuelve excesiva y la rentabilidad converge a 0. Si todos usan el mismo modelo, desaparece la diferenciación. Incluso un modelo open source potente podría debilitar la movilidad social
    • Yo diría que ese 8% es, de hecho, sorprendentemente bueno. Lo importante no es tanto el modelo en sí, sino los controles del entorno operativo. En un servicio real, el monitoreo y un kill switch son indispensables. Que el modelo sea “lo bastante seguro” es solo una condición necesaria, no suficiente
    • Este es el problema central del que nadie quiere hablar. Si no se resuelve la seguridad, el reemplazo masivo de trabajo es imposible. Usarlo para resúmenes o asistencia está bien, pero si le delegas toma de decisiones autónoma, el riesgo legal se dispara. Al final, si las empresas de IA no resuelven esto, se les va a acabar el dinero. Con la tendencia actual, parece que la IA va a quedar como una herramienta útil, como la búsqueda o el corrector ortográfico, pero no va a concretar un reemplazo masivo de empleos
    • En la práctica podría ser útil en cosas como automatización interna de apps simples y repetitivas. Por ejemplo, iniciar sesión todos los días en la misma webapp, leer el calendario y presionar botones. En ese entorno no hay atacantes, así que el problema de seguridad casi desaparece
    • Las cifras de 8% y 50% preocupan, pero son resultados en un “entorno de uso de computadora”. En el entorno de coding, con el pensamiento extendido activado, fue 0.0%. O sea, esto todavía está en una fase experimental
  • Metí unas 900 poesías personales en Sonnet 4.6 para probarlo, y la diferencia frente a Opus 4.6 es grande. Opus 4.6 mostró un análisis sorprendente, pero Sonnet 4.6 sigue teniendo muchas alucinaciones y errores. En pruebas de código me dejó una impresión parecida. Comparado con Opus, está muy por detrás

    • A alguien le alegró ver de nuevo una prueba con poesía. Dice que estaría bueno reunir y ordenar todos estos análisis
    • Opus 4.6 mejora la productividad más de 3 veces al escribir código. Se hace cargo del proyecto completo con responsabilidad y capta bien la intención del usuario. Ya no toma atajos a escondidas ni arruina el resultado como antes
  • Sonnet 4.6 sigue fallando el “problema del autolavado”. Le puse la pregunta original tal cual y respondió “ve caminando”. Probé varias variantes y mostró fallas parecidas

    • En mis pruebas, al contrario, respondió de inmediato “ve manejando”. Fue tajante, algo como “si vas a lavar el auto, necesitas tener auto”. Parece que quizá les tocó una versión distinta
    • Me parece interesante esa polarización en las respuestas. Errores con confianza, el patrón clásico de alucinación
    • Otra respuesta sugirió “empuja el auto hasta allá”. Enlace compartido
    • Otra más dijo “ve caminando, está a 30 segundos”, y lo justificó por el medio ambiente y la salud. El pensamiento extendido estaba desactivado
    • Parece que esta pregunta se va a usar mucho como prueba de benchmark de aquí en adelante
  • Realmente se siente eso de que “la competencia es buena para el consumidor”. Mientras más intensa es la competencia en el mercado, mejores son los resultados

    • Pero la competencia actual en IA parece más bien una “carrera armamentista sin defensas”. Como es un esquema de winner-takes-all, todos invierten perdiendo dinero. Por exceso de inversión, podría ser ineficiente para la sociedad en conjunto
    • Si pensamos que GPT-2 en 2019 era “demasiado peligroso para publicarse”, el lanzamiento de ChatGPT fue lo que detonó esta competencia
    • Es peligroso creer que todos los mercados funcionan como competencia perfecta. En la práctica hay mucho monopolio y asimetría de información
    • El mercado actual de IA es una de las estructuras competitivas más intensas de la historia humana. La teoría conspirativa de que empeoran los modelos a propósito no resulta convincente
    • Al final, si solo sobreviven dos empresas, va a llegar la fase de recuperación de ganancias
  • La prueba del “autolavado en helicóptero” fue la mejor. Sonnet 4.6 respondió “ve caminando”, y fue gracioso porque parecía una burla a la costumbre de los estadounidenses de manejar hasta distancias muy cortas

    • A alguien le pareció la mejor prueba de todas. Dice que se nota que el modelo fue entrenado con datos de humor estilo Reddit
  • Sorprende que Sonnet 4.6 tenga un rendimiento al nivel de Opus 4.5. La velocidad de avance recuerda al ritmo de mejora del rendimiento computacional en los años 90

    • Lo realmente interesante no es la mejora del techo, sino el aumento del piso. Poder obtener razonamiento de nivel Opus con el precio y la latencia de Sonnet es revolucionario. Es como conseguir la misma unidad de inteligencia cada 6 a 9 meses por la mitad del costo de cómputo
    • Al comentario de la “velocidad de los 90” siguió la broma de que “el precio de la RAM también está a nivel de esa época”
    • En vez de simonw, alguien generó y compartió un “pelícano en bicicleta SVG”. Enlace a la imagen
    • También hay un caso donde Opus describió mal una foto del paisaje nocturno de NYC. Mistral fue más preciso. OpenAI bloqueó la subida por URL y Gemini redirigió a VertexAI. La prueba se hizo en un entorno Langchain
    • Según la system card, Sonnet 4.6 está explícitamente por encima de Opus 4.6 en trabajo de oficina y análisis financiero
  • El precio de Sonnet 4.5 es de $3/$15 per million tokens, y me pregunto cuánta gente estará dispuesta a pagar eso. Los modelos open-weight están alcanzándolo rápido y son mucho más baratos

    • Yo estoy probando un enfoque híbrido. Hago casi todo con GLM5 y en la etapa final uso Opus/Sonnet para revisar bugs
    • En mi benchmark simple, Claude 4.6 quedó por debajo del Stepfun 3.5 gratuito. Ver aibenchy.com. Sigue teniendo baja precisión al seguir instrucciones
    • Al final, todo depende de cuánto valor le pongas a la diferencia entre “bastante bueno” y “SOTA”. Usar un modelo con muchos errores también termina siendo un costo
    • Algunas personas prefieren modelos como Claude, que son fuertes en razonamiento contextual. GLM requiere instrucciones detalladas
  • Me demoré en hacer la imagen del pelícano porque estaba agregando soporte para Opus/Sonnet 4.6 al plugin de llm.datasette.io. El resultado está al nivel de Opus 4.5 y es una versión con un elegante sombrero de copa
    Blog relacionado

    • Hay un comentario de alguien que dice haber visto también ese pelícano con sombrero de copa en otros intentos
  • En los últimos días estuve probando Sonnet 4.5, y las conversaciones se sentían extrañamente interesantes y consistentes.
    Puse en la configuración personal “priorizar hechos objetivos y análisis crítico, prohibir empatía emocional”, y realmente lo siguió muy bien. ChatGPT respondió de forma parecida

  • Varios usuarios reportan que Opus 4.6 consume entre 5 y 10 veces más tokens que 4.5. Enlace al issue. Todavía no hay respuesta oficial. Por eso pienso seguir usando 4.5

    • La gente que tiene problemas siempre hace más ruido. Yo estoy satisfecho porque 4.6 es más rápido y más activo al llamar herramientas. Si bajas el reasoning level a medium, puedes reducir el exceso de pensamiento
    • En mi experiencia, Opus 4.5 se apega al plan, mientras que 4.6 es más adaptativo y exploratorio. En problemas fáciles es ineficiente, pero en los difíciles es mucho más rápido
    • En /models se puede revisar el reasoning level. Si está en high, el uso de tokens se dispara
    • Yo también me gasté todo el presupuesto mensual en pocos días
    • En mis pruebas, 4.6 usó entre 15% y 45% más tokens que 4.5. Pero eso fue cuando se le pedía razonar con prompts incompletos. En tareas bien redactadas no hay gran diferencia. Los reasoning tokens de Sonnet 4.6 son más estructurados que antes, pero con tendencia a volverse cada vez más verbosos. Es un estilo parecido al de los modelos de Google