8 puntos por GN⁺ 2025-11-25 | 2 comentarios | Compartir por WhatsApp
  • Claude Opus 4.5 es un modelo de IA con desempeño de primer nivel en escritura de código, ejecución de agentes y uso de computadoras
  • Logró la puntuación más alta en la prueba real de ingeniería de software (SWE-bench Verified), con grandes mejoras en eficiencia de tokens y capacidad de razonamiento
  • El precio baja a $5/$25 por millón de tokens, lo que permite que más desarrolladores y empresas aprovechen capacidades de nivel Opus
  • El nuevo parámetro effort, la gestión de contexto y las mejoras en uso de herramientas actualizan de forma importante Claude Developer Platform y Claude Code
  • El refuerzo de seguridad y alineación, junto con una mejor defensa ante prompt injection, marca un punto de inflexión para aumentar la confianza en el uso de IA en toda la industria

Resumen de Claude Opus 4.5

  • Anthropic presentó Claude Opus 4.5, al que describe como un modelo de clase mundial en codificación, agentes y uso de computadoras
    • También mejora en tareas cotidianas como investigación, presentaciones y manejo de hojas de cálculo
    • Se evalúa como un paso que amplía el rango de tareas que los sistemas de IA pueden realizar
  • Opus 4.5 obtuvo la puntuación más alta en la prueba SWE-bench Verified
  • Está disponible de inmediato en la app de Anthropic, la API y las tres principales plataformas de nube
    • Nombre del modelo en la API: claude-opus-4-5-20251101
    • Precio: entrada $5 / salida $25 (por millón de tokens)

Comentarios de usuarios iniciales y pruebas

  • En pruebas internas se reportó una mejora en la capacidad para manejar problemas ambiguos y resolver bugs complejos
  • Usuarios tempranos de varias empresas compartieron comentarios como los siguientes
    • Mejora en la calidad del código y reducción del uso de tokens a la mitad
    • Muy buen desempeño en razonamiento de múltiples pasos, trabajo autónomo de largo plazo y flujos de trabajo con agentes
    • Más de 15% de mejora en eficiencia frente a Sonnet 4.5
    • Confirmación de la posibilidad de implementar agentes de IA con auto-mejora
    • Mejoras en áreas como automatización de Excel, visualización 3D, revisión de código y generación de historias
    • Reportes de reducción de 50 a 75% en errores de llamadas a herramientas y errores de build, además de mejoras de velocidad

Evaluación de desempeño

  • En el examen interno de ingeniería de software de Anthropic, superó la mejor puntuación de los candidatos humanos
    • Logró el mejor resultado dentro de un límite de 2 horas
  • Las capacidades de visión, razonamiento y matemáticas mejoraron de forma general, alcanzando estado del arte (SOTA) en varios benchmarks
  • En la prueba τ2-bench se presentó un caso de resolución creativa de problemas
    • Sin evadir la política que impedía cambiar un boleto de avión, lo resolvió mediante un procedimiento legal (mejorar el asiento y luego cambiar el itinerario)
    • Aunque el benchmark lo registró como un fallo, se mencionó como ejemplo de capacidad de razonamiento creativo

Mejoras en seguridad y alineación

  • Claude Opus 4.5 es el modelo más fuertemente alineado que Anthropic ha lanzado
    • Su resistencia a ataques de prompt injection está entre las mejores de la industria
    • También mostró resultados sobresalientes en un benchmark de ataques avanzados desarrollado por Gray Swan
  • Tiene una puntuación baja en “comportamiento preocupante (concerning behavior)”, lo que reduce la posibilidad de uso malicioso y fallos autónomos
  • La evaluación detallada de seguridad y desempeño está incluida en la Claude Opus 4.5 system card

Actualizaciones de Claude Developer Platform

  • Opus 4.5 logra mejores resultados con menos tokens
  • El nuevo parámetro effort permite ajustar el equilibrio entre velocidad, costo y desempeño
    • En un nivel intermedio de effort, iguala el desempeño de Sonnet 4.5 con una reducción de 76% en tokens de salida
    • En el nivel más alto de effort, mejora 4.3% en desempeño frente a Sonnet 4.5, con 48% menos tokens
  • Las funciones de effort control, context compaction y uso avanzado de herramientas mejoran la eficiencia en tareas de larga duración
  • La gestión de contexto y las funciones de memoria mejoran en 15% el desempeño en tareas de agentes
  • La plataforma evoluciona gradualmente hacia una estructura modular y componible

Actualizaciones de producto

  • Claude Code mejora la precisión y capacidad de ejecución de Plan Mode con base en Opus 4.5
    • Antes de ejecutar, genera un archivo plan.md para revisión del usuario
    • En la app de escritorio admite ejecución paralela de múltiples sesiones
  • La app de Claude mantiene el contexto con una función de resumen automático de conversaciones largas
  • Claude for Chrome ya está disponible para todos los usuarios Max
  • Claude for Excel amplía su beta a usuarios Max, Team y Enterprise
  • El aumento en los límites de uso exclusivos de Opus 4.5 permite usarlo en trabajo cotidiano

Información adicional

  • Todas las evaluaciones (evals) se realizaron promediando 5 ejecuciones con 64K thinking budget, ventana de contexto de 200K y configuración predeterminada de effort (high)
  • Algunas pruebas como SWE-bench Verified y Terminal Bench usaron configuraciones separadas
  • La investigación relacionada y los resultados detallados pueden consultarse en la Claude Opus 4.5 system card

Noticias relacionadas

  • Claude se integró en Microsoft Foundry y Microsoft 365 Copilot
  • Se firmó una alianza estratégica entre Microsoft, NVIDIA y Anthropic
    • Anthropic planea comprar capacidad de cómputo en Azure por 30 mil millones de dólares y sumar un contrato adicional de hasta 1GW
  • Colaboración con el gobierno de Ruanda y ALX para ampliar la educación en IA en África

2 comentarios

 
kaydash 2025-11-27

Hay que pagar la tarifa del 5G, también suscribirse a Netflix, y ahora hasta a la IA también hay que suscribirse también, snif snif.

 
GN⁺ 2025-11-25
Opiniones en Hacker News
  • El punto clave de este anuncio es la rebaja de precio de Opus 4.5
    $5/$25 por MTok representa una reducción de 3 veces frente a Opus 4, así que ya no es un “modelo para usar solo en cosas importantes”, sino un modelo viable para cargas de trabajo reales en producción
    Además, afirman que su resistencia a prompt injection está a nivel SOTA; si las métricas de la system card se mantienen incluso bajo pruebas agresivas, eso sería muy significativo para quienes despliegan agentes con permisos de acceso a herramientas
    Aun así, la expresión “el modelo más alineado” suena un poco exagerada, y da curiosidad ver los resultados de red teaming de terceros

    • Con el lanzamiento de Opus 4.5, se relajaron las restricciones de uso de Claude Code
      Se eliminó el límite exclusivo para Opus, y ahora los usuarios de Max y Team Premium pueden usar una cantidad de tokens similar a la época de Sonnet
      Dicen que ajustaron los límites de uso para que sea posible aprovechar Opus 4.5 en el trabajo diario
    • Según pruebas internas, en muchos casos Opus 4.5 resultó más barato de operar que Sonnet
      El costo promedio por hilo del equipo de Amp fue de $1.83 para Sonnet 4.5 y de $1.30 para Opus 4.5
      Más que el precio por token, el mayor ahorro vino de la reducción de errores gracias a la mejora en inteligencia
    • La rebaja de precio de 3 veces probablemente significa que Opus 4.5 podría ser un modelo base más pequeño y especializado
      Parece que reforzaron el fine-tuning orientado a benchmarks, y da curiosidad cómo rendirá en pruebas no objetivo como eqbench.com
    • Antes veía la sección de “Safety” como una especie de advertencia de ciencia ficción, pero esta vez fue interesante porque trata problemas reales como prompt injection
      Parece que el término “seguridad” está evolucionando hacia otro significado
    • Pero Pliney the Liberator ya logró hacerle jailbreak
      Puede que eso sea algo distinto de la resistencia a prompt injection
  • Este modelo será revolucionario por 2 a 4 semanas, y luego vendrá el “nerf”
    Durante los meses siguientes, a quienes señalen una caída de rendimiento los acusarán de “falta de habilidad”, y después de que un ingeniero anuncie que encontró “algunos bugs”, saldrá Opus 4.7
    Ahora mi lealtad se mide en ciclos de nerf

    • También podría tratarse no de una caída real del rendimiento, sino de una ilusión cognitiva
      Porque en benchmarks no hay evidencia de degradación
      Si la caída que perciben los humanos fuera real, eso sugeriría que existe un factor x que los benchmarks no capturan
    • Por eso yo me cambié a Gemini
      Desde la generación v2.5 no ha habido degradación, y sospecho que Anthropic quizá esté reemplazando modelos cuantizados
    • Suena a broma, pero realmente podría ser un relanzamiento de Opus 4.0
    • Este fenómeno también coincide con el patrón de comportamiento del CEO
    • Claude probablemente esté haciendo en secreto experimentos de compresión de contexto
      En consultas aisladas con poca dependencia del contexto, la caída de rendimiento se nota menos
  • Probé Gemini 3 Pro en Cursor y es mucho más débil que Sonnet 4.5
    Hubo problemas que solo Claude Code pudo resolver, y Sonnet 4.5 funciona especialmente bien dentro de Cursor
    Creo que Anthropic tomó la decisión correcta al apostar por una estrategia centrada en ingeniería de software
    Es el modelo que más espero rumbo a 2026

    • Los modelos Claude tienen herramientas integradas como str_replace_editor
      Cursor no tiene herramientas así, y por eso aparece la diferencia de rendimiento
      El tuit relacionado está aquí
    • Mi flujo de trabajo era diseñar con Gemini e implementar con Sonnet
    • Personalmente no entiendo el hype excesivo de Gemini
      Opus/Sonnet/GPT son mucho más adecuados para flujos de trabajo con agentes
    • Hice un proyecto personal con la API de Gemini 2.5 Pro, y los problemas fueron la consistencia al ejecutar instrucciones y los errores por exceder recursos
      Azure GPT-4.1, Bedrock Sonnet 4 y Perplexity fueron mucho más estables
      Me da curiosidad la experiencia de otras personas
    • Le di a Sonnet 4.5 un JSON con PHP serialize() codificado en base64 y le pedí extraer URLs, y devolvió el link de YouTube de Rick Astley
  • La system card de Claude Opus 4.5 es mucho más detallada que el blog de marketing
    Es un PDF de 150 páginas, y la sección sobre engaño (deception) es especialmente interesante
    Por ejemplo, hay un caso en el que, incluso tras recibir la noticia de la disolución del equipo de seguridad de Anthropic, oculta esa información al usuario
    También trata riesgos relacionados con CBRN, y Opus sigue en nivel ASL-3, así que no representa un riesgo a gran escala
    Subí un resumen del blog sobre esto aquí

  • Estos resultados de benchmarks realmente me alegran
    Gracias a esto pude mantener mi Coding Agent actual
    En un entorno de IA que cambia tan rápido, cada vez era más difícil mantenerse al día sin FOMO, pero esta vez Anthropic vuelve a demostrar competitividad

    • Parece que ya llegamos al punto en que ignorar el hype no te deja atrás
      La combinación de Sonnet y Claude Code ya era suficientemente estable, y después de 4.5 mejoró automáticamente
      Simplemente ignoré la tentación de cambiarme a Codex
    • Yo me cambié a OpenAI por las limitaciones de tarifa
      Aunque Claude genere código un poco mejor, GPT permite solicitudes ilimitadas, lo que da más libertad para experimentar
    • Usar varias herramientas en paralelo no da una gran ganancia de productividad
      Opus sí es un avance significativo, pero no parece un cambio fundamental de flujo de trabajo
    • A mí también me gusta la orientación amigable para desarrolladores de Anthropic
      Ojalá aguante bien en la competencia
    • También probé Codex, pero al final volví a Claude Code
      Solo uso Codex temporalmente cuando aparecen restricciones
  • Lo que más me impresionó de Opus 4.5 fueron sus funciones avanzadas de herramientas
    Según el documento Advanced Tool Use, permite búsqueda de herramientas, llamadas programáticas y aprendizaje con ejemplos in-context, entre otras cosas
    Sorprende que hayan usado 130 mil tokens solo para definir herramientas
    El video de demostración del juego de acertijos también fue interesante

  • Leí la reseña de Opus de Simon Willison

    • La evolución gradual se nota poco en bases de código grandes
      En la mayoría de las tareas, la brecha de tooling es mayor que la del modelo
    • Me da curiosidad si realmente escribió por su cuenta la biblioteca para convertir salida de terminal en HTML
    • Me pregunto si no estarán entrenando el modelo para ajustarlo a los datos de benchmark
    • Hay un error en el precio de Haiku — lo correcto es $1/$5
    • Sugerencia de corrección: There modelTheir model
  • Si miras el leaderboard de ARC-AGI-2, la comparación costo/rendimiento entre modelos queda clara
    Opus 4.5 muestra un resultado excelente frente a Gemini 3, y Gemini 3 Deep Think sigue en primer lugar, pero cuesta más de 30 veces más
    En diciembre de 2024, cuando OpenAI superó el rendimiento humano en ARC-AGI-1, costaba $3,000 por tarea, y ahora bajó a unos pocos dólares, una reducción de 80 veces
    Consulta el leaderboard y el blog relacionado

    • Como referencia, Gemini 3 Pro es la versión sin uso de herramientas, mientras que Deep Think es la versión con uso de herramientas
      Si ambos tuvieran el mismo acceso a herramientas, la brecha entre los dos modelos sería menor
  • Últimamente da la impresión de que la velocidad de mejora de los LLM se ha desacelerado
    La mejora en precisión es pequeña, pero la eficiencia sí ha mejorado mucho

  • Últimamente Sonnet 4.5 parece haberse vuelto más tonto
    Ni siquiera pudo manejar bien un CSS sencillo
    Está bien que Opus sea 3 veces más barato, pero en la suscripción Claude Code Pro todavía no se puede usar
    Se puede usar Opus en la etapa de planificación con el comando /model opusplan, pero la estructura de consumo de créditos no es transparente
    Un arreglo simple de CSS costó $0.95, demasiado caro
    En adelante voy a probar cambiar manualmente entre Opus y Sonnet

    • La calidad de Sonnet 4.5 parece proporcional a la profundidad de búsqueda, como un motor de ajedrez
      En horas pico la degradación parece inevitable, así que estaría bien contar con una señal de carga
    • En los últimos días sí se siente claramente una caída de inteligencia
      Quizá la bajaron intencionalmente para promocionar el nuevo modelo, o tal vez, por el aumento de carga al repartir créditos gratis, estén ejecutando una versión cuantizada
      Da pena la falta de transparencia e inestabilidad de Anthropic
    • Probablemente hagan failover a un modelo más barato cuando se satura el tráfico
    • El viernes en particular vi respuestas persistentemente tontas
      Pensé que era solo un error temporal, pero da la impresión de que algo cambió