4 puntos por GN⁺ 14 일 전 | 1 comentarios | Compartir por WhatsApp
  • Se reforzó el rendimiento avanzado de ingeniería de software, lo que le permite manejar tareas complejas y de larga duración con alta consistencia y precisión
  • Mejoró la percepción visual y la comprensión multimodal, permitiendo analizar información visual compleja como imágenes de alta resolución, diagramas técnicos y estructuras químicas
  • Incorpora protecciones de ciberseguridad para detectar y bloquear automáticamente solicitudes de alto riesgo; los investigadores de seguridad legítimos pueden participar en el Cyber Verification Program
  • Nuevas funciones como control de Effort, Task Budget y el comando ultrareview mejoran la eficiencia en trabajos de larga duración y la capacidad de verificar la calidad del código
  • Logra una mejora de rendimiento del 13% frente a Opus 4.6 y alta confiabilidad; Anthropic se está preparando para publicar de forma segura modelos de nivel Mythos con base en esto

Resumen de Claude Opus 4.7

  • Claude Opus 4.7 es un modelo con una mejora importante en el rendimiento avanzado de ingeniería de software frente a Opus 4.6, capaz de ejecutar tareas complejas y prolongadas con alta consistencia y precisión
  • Los usuarios pueden confiar y delegar tareas de programación más difíciles que antes, y el modelo informa los resultados después de realizar su propia verificación
  • Su capacidad de percepción visual se fortaleció, mostrando alta calidad y creatividad con imágenes de alta resolución, interfaces, diapositivas y documentos
  • Aunque tiene una capacidad general menor que Claude Mythos Preview, registró resultados superiores a Opus 4.6 en diversos benchmarks
  • Está disponible en toda la familia de productos Claude y vía API, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry, con el mismo precio que Opus 4.6

Medidas relacionadas con ciberseguridad

  • Anthropic, a través de Project Glasswing, está haciendo públicos los riesgos y beneficios de ciberseguridad de la IA, limitando la publicación de Mythos Preview y realizando primero los experimentos de seguridad en modelos menos potentes
  • Opus 4.7 es el primero de estos modelos e incluye protecciones que detectan y bloquean automáticamente solicitudes de ciberseguridad prohibidas o de alto riesgo
  • Con base en datos de despliegue real, se prepara la futura publicación más amplia de modelos de nivel Mythos
  • Los investigadores de seguridad legítimos (análisis de vulnerabilidades, pruebas de penetración, red teaming, etc.) pueden participar en el Cyber Verification Program

Rendimiento principal y comentarios de usuarios

  • En pruebas iniciales se confirmó la capacidad de detectar por sí mismo errores lógicos y acelerar la ejecución
  • Muestra un rendimiento sobresaliente en workflows asíncronos, CI/CD y automatización de larga duración, y ofrece un enfoque profundo del problema y opiniones propias, no solo asentimiento superficial
  • Evita razonamientos erróneos cuando faltan datos y no cae en trampas de datos inconsistentes
  • En 93 benchmarks de programación, mostró una mejora del 13% frente a Opus 4.6 y resolvió 4 tareas adicionales que antes no podían resolverse
  • Muestra consistencia de primer nivel en la eficiencia de tareas de varios pasos; en módulos financieros obtuvo 0.813, superando a Opus 4.6 (0.767)
  • Mejoró la comprensión multimodal, incluyendo una mejor interpretación de estructuras químicas y diagramas técnicos complejos
  • Se reforzó la capacidad de ejecutar trabajo autónomo de larga duración, permitiendo resolver problemas de forma consistente durante varias horas
  • Empresas como Replit, Harvey, Hex, Notion, Databricks y Vercel reportaron mejoras en calidad de código, precisión en llamadas a herramientas y confiabilidad de workflows de larga duración
  • Como caso real, desarrolló de forma completamente autónoma un motor de síntesis de voz basado en Rust y verificó por sí mismo su coincidencia con un modelo de referencia en Python

Principales mejoras observadas en pruebas iniciales

  • Precisión en la interpretación de instrucciones

    • Opus 4.7 interpreta las instrucciones de forma literal y las sigue con mucha más rigurosidad que los modelos anteriores
    • Los prompts existentes pueden producir resultados inesperados, por lo que puede ser necesario reajustarlos
  • Refuerzo del soporte multimodal

    • Puede procesar imágenes de hasta 2,576 píxeles (aprox. 3.75 MP) de resolución
    • Es adecuado para tareas que aprovechan información visual detallada, como análisis de diagramas complejos o extracción de datos a partir de capturas de pantalla
  • Rendimiento en trabajo real

    • Ofrece mayor especialización y consistencia que Opus 4.6 en análisis financiero, presentaciones y modelado
    • También registró nivel sobresaliente en trabajo de conocimiento como finanzas y derecho en la evaluación externa GDPval-AA
  • Uso de memoria

    • Utiliza de manera eficiente una memoria basada en sistema de archivos para recordar y reutilizar contexto de trabajo a lo largo de varias sesiones

Evaluación de seguridad y alineación

  • En general, presenta un perfil de seguridad similar al de Opus 4.6, con baja incidencia de problemas como engaño, adulación o cooperación en usos indebidos
  • Mejoró en honestidad y resistencia a inyección de prompts maliciosos, aunque se debilitó ligeramente en algunas áreas (por ejemplo, consejos excesivos relacionados con drogas)
  • La evaluación concluye que es en general bien alineado y confiable, aunque no completamente ideal
  • Mythos Preview sigue siendo evaluado como el modelo mejor alineado

Funciones adicionales lanzadas

  • Refuerzo del control de Effort

    • Se agregó un nuevo nivel xhigh entre high y max, permitiendo un ajuste más fino entre capacidad de razonamiento y latencia
    • En Claude Code, el nivel predeterminado de Effort se elevó a xhigh
  • Claude Platform(API)

    • Junto con el soporte para imágenes de alta resolución, se ofrece en beta pública la función Task Budget, que permite ajustar la prioridad de uso de tokens en tareas de larga duración
  • Claude Code

    • El nuevo comando /ultrareview ejecuta sesiones de revisión de cambios de código y detección de bugs
    • Los usuarios Pro y Max reciben 3 ultrareview gratis
    • Auto Mode se amplía a los usuarios Max para reducir procesos de aprobación durante tareas largas y permitir ejecución continua sin interrupciones

Migración de Opus 4.6 a 4.7

  • Opus 4.7 permite una actualización directa, pero requiere atención a los cambios en el uso de tokens
    • Debido al nuevo tokenizer, la misma entrada puede convertirse en aproximadamente 1.0 a 1.35 veces más tokens
    • En niveles altos de Effort realiza más razonamiento, por lo que pueden aumentar los tokens de salida
  • El uso de tokens puede controlarse mediante el parámetro Effort, Task Budget y un diseño de prompts conciso
  • En pruebas internas se confirmó una mejora de eficiencia en todos los niveles de Effort
  • El método detallado de actualización se proporciona en la Migration Guide

1 comentarios

 
GN⁺ 14 일 전
Comentarios de Hacker News
  • El nuevo concepto de adaptive thinking me resulta muy confuso
    Antes programaba usando el modo de thinking budget / effort, pero ahora funciona de una forma completamente distinta
    Incluso viendo la documentación oficial, todavía no termino de entenderlo
    Además, en 4.7 ya no se muestra por defecto un resumen del razonamiento legible para humanos. Hay que agregar manualmente la opción "display": "summarized"
    Ahora mismo estoy probando el proyecto Pelican y me sigo atorando por este nuevo enfoque de thinking

    • La respuesta de Boris a mi reporte de bug fue que “parece que adaptive thinking no está funcionando bien”, pero desde entonces no ha habido más noticias
      Ver este hilo relacionado
      Al desactivar adaptive thinking y subir el effort, volvió al nivel de antes
      Pero decir “en nuestras evaluaciones internas funciona bien” no basta. Mucha gente está reportando el mismo problema
    • Hizo un chiste de que “querer sacar bien pelican” suena como p-hacking (manipulación estadística). El juego de palabras es que la p sería la de pelican
    • Claude Opus 4.6 me dio muchos resultados realmente graciosos
      captura de pantalla
    • En Claude Code parece que añadieron una opción no oficial de línea de comandos, --thinking-display summarized
      Los usuarios de VS Code pueden crear un wrapper script que incluya exec "$@" --thinking-display summarized y ponerlo en la configuración claudeCode.claudeProcessWrapper para volver a ver el resumen del razonamiento
    • Me pregunto si ahora Claude ya no muestra el razonamiento completo y solo enseña un resumen
      Antes se consideraba que exponer el CoT (Chain of Thought) de los LLM era clave para la seguridad, pero parece que cambiaron de dirección
  • El nuevo tokenizador de Opus 4.7 mejora la eficiencia del procesamiento de texto, pero hace que la entrada se mapee a entre 1.0 y 1.35 veces más tokens
    Por eso siento que la salida del proyecto caveman en realidad se lee mejor
    repositorio de caveman

    • caveman está, en la práctica, más cerca de ser un proyecto de broma
      Como la mayor parte del contexto se va en leer archivos y razonar, el ahorro real de tokens ni siquiera llega al 1%. Incluso podría confundir al modelo
    • caveman también es divertido, pero si de verdad quieres ahorrar tokens, headroom es mejor
      app para Mac, versión CLI
    • Hice un experimento eliminando del prompt entre las 100 y 1000 palabras más comunes en inglés
      Pensé que las palabras frecuentes podían ser ruido, pero casi no hubo diferencia en los resultados
      Me gustaría compararlo contra caveman
    • Sugieren un enfoque como rtk-ai/rtk
    • En mi benchmark interno de petróleo y gas, Opus 4.7 salió con 80%, por encima de Opus 4.6 (64%) y GPT-5.4 (76%)
      Fue gracias a que bajó el uso de reasoning tokens. Eso demuestra que ya no tiene sentido comparar el costo de los modelos solo por el precio por token
  • Al ver el anuncio de que Anthropic lanzó Opus 4.7 como un modelo restringido para ciberseguridad, me pareció una estrategia fallida
    Censurar conocimiento de seguridad y al mismo tiempo pretender desarrollar software seguro es contradictorio
    A menos que todas las empresas de IA adopten la misma política, tampoco tendrá eficacia real. Al final parece un enfoque que van a terminar abandonando

    • No soy experto en seguridad, pero al compilar proyectos open source necesito una IA que ayude con la validación de vulnerabilidades
      Pero este tipo de restricciones va en dirección a centralizar la seguridad, y es difícil verlo como una mejora real de la seguridad
    • Siento que unas protecciones excesivas en la etapa de entrenamiento terminan degradando la inteligencia general
      Es como cuando en una entrevista te ponen frente a un pizarrón y tu IQ baja 10%; el modelo también se cohibe
    • Los modelos actuales están en un estado raro: son demasiado buenos para hackear, pero todavía se quedan cortos en tareas económicas
      Por eso parece que van hacia volverlos “selectivamente tontos”. De hecho, da la impresión de que ya están haciendo ese experimento
    • A corto plazo me parece una medida aceptable
      Porque el atacante solo necesita acertar una vez, pero el defensor tiene que acertar siempre, así que puede servir para ganar tiempo
  • La semana pasada, por la caída de calidad de 4.6, al final me cambié a Codex
    4.6 ni siquiera hacía búsquedas web y llenó 17K tokens con tonterías. También implementó completamente mal un ejemplo de procesamiento en paralelo

    • Yo también cancelé mi suscripción Pro por la misma razón
      El uso de tokens se disparó de golpe y la respuesta indiferente del soporte fue la gota que derramó el vaso
      Entiendo los bugs, pero la actitud hacia los clientes es difícil de tolerar
      Desde que me pasé a Codex, al menos las cosas avanzan, y con eso basta
    • Mucha gente decía que OpenAI iba a quebrar por exceso de cómputo, pero ahora eso más bien se volvió una ventaja estratégica
      Codex duplicó sus límites de uso para absorber clientes de Claude, y además su PR es mucho mejor
      Parece que el 90% de los problemas de Claude vienen de falta de cómputo
    • Mi teoría conspirativa es que bajan el rendimiento a propósito justo antes de lanzar un modelo nuevo para que la siguiente versión parezca mucho mejor
      La IA siempre tiene que verse como “en progreso”, porque el estancamiento sería la muerte del hype
    • Probé Codex, pero para mi caso de uso fue muy inferior
      Que sea rápido no sirve de mucho si entrega código de baja calidad más rápido
      Gemini CLI era más lento y también de peor calidad
      Codex tiene la tendencia peligrosa de adularte diciendo que todo está “perfecto” aunque tenga bugs
    • Aun así, Codex ya se ganó un lugar en mi toolkit
      Su capacidad de ejecución es muy buena, y OpenAI habla con resultados en vez de marketing
      Da la sensación del Google de los primeros años, compitiendo por calidad de producto
  • Los filtros de ciberseguridad de Opus 4.7 se volvieron tan fuertes que bloquean incluso investigación legítima
    Aunque uno traiga directamente de la web las guías del programa, lo bloquea como “solicitud peligrosa”
    Si sigue así, me voy a cambiar a Codex

    • Ahora incluso podrían exigir verificación de identidad (Identity Verification)
      Como en esta guía oficial, para acceder a algunas funciones se requiere un proceso de verificación
    • De hecho, en la API aparece el error “Usage Policy violation” junto con un enlace para solicitar el Cyber Verification Program
      Por eso se me frenó por completo una investigación que ya estaba en curso
    • A mí me bloquearon a media sesión, aunque la entrada seguía siendo la misma
      Tal vez el modelo detectó durante su propio reasoning una etapa que parecía “ofensiva”
      Parece que cuando el bug hunting va entrando en una fase más agresiva, el filtro se activa
      Ya vivimos en un mundo donde la violación de políticas es el nuevo segfault
    • Lo más grave es que incluso mientras escribo mi propio código, empieza a sacar frases por su cuenta como “esto no es malware”
      Reacciona de forma exagerada con solo incluir ciertas palabras
      Ahora resulta que tengo que pedirle permiso a la IA para que me diga si mi proyecto es malicioso o no. Voy a cancelar la suscripción
    • Incluso se negó a una tarea tan simple como mandar un PDF a la impresora
  • Este hilo deja una buena lección para fundadores
    Muestra cuánto descontento se puede desactivar con un poco de comunicación honesta
    Como alguien que tiene la app fijada en Opus 4.5, ya ni siquiera me queda claro si el problema es del modelo o del harness

    • En este tipo de hilos siempre hay mucha superstición sobre que “Anthropic degradó el modelo”
      A veces simplemente tuviste mala suerte
    • Si de verdad hicieron el modelo más lento a propósito por la carga, es importante comunicarlo claramente
      Así yo podría mover mis horarios y dejar las tareas pesadas para la noche
    • Opus 4.5 era muy consistente, pero 4.6 fue muy irregular
    • Soy desarrollador principiante y todavía estoy aprendiendo las diferencias entre modelos
      En medio de esta confusión, creo que lo más sensato es usar un model broker o una capa intermedia tipo Copilot
    • Esta inestabilidad está volviendo a los usuarios paranoicos
      Siento que hace falta un servicio que ofrezca siempre el mismo modelo, como una especie de “IA estándar”
  • Según el benchmark privado de nuestro equipo, Opus 4.7 es más estratégico e inteligente que 4.6/4.5
    Está casi al nivel de GPT-5.4, e incluso muestra el mejor rendimiento en sesiones agentic con uso de herramientas
    enlace del benchmark
    Eso sí, hay una ligera regresión en el manejo de contexto. Están agregando un benchmark para visualizarlo

    • Me pregunto por qué la tasa de éxito de Opus 4.7 es menor que la de Sonnet 4.6, pero su percentil promedio es más alto
    • También surgió la pregunta de si 4.6 o 4.5 sufrieron una regresión de rendimiento después de su lanzamiento inicial
  • Últimamente ha bajado mi confianza en Anthropic
    Que saquen 4.7 justo después del downgrade de 4.6 me pone nervioso
    Ahora hace falta una comunicación transparente

    • El problema de fondo es la falta de cómputo
      OpenAI invirtió en cómputo desde temprano y ahora eso se volvió una gran ventaja
    • Puede que el rendimiento de Opus haya bajado porque estaban entrenando Mythos
      Incluso podrían estar destilando (distillation) Mythos a Opus 4.7
    • Me intriga por qué Claude sobre Bedrock también se vuelve más tonto
      Probablemente sea por actualizaciones del harness
    • La integración de verificación de Persona ID fue la gota que derramó el vaso. Me fui después de eso
    • Me pregunto si de verdad pueden seguir aguantando así
  • Últimamente se dispararon los comentarios de “me cambié a Codex
    Pero al usarlo en la práctica, Codex todavía no llega al nivel de Claude
    Ese tipo de comentarios promocionales solo le quitan credibilidad

    • Pero en la práctica sí hay muchos desarrolladores que prefieren Codex
      En nuestra empresa usamos ambos modelos, pero yo ahora casi siempre uso Codex
      Siento que es más rápido y da mejores resultados
    • Yo también hice una prueba piloto corta y Codex resolvió problemas más de 4 veces más rápido que Claude
      Aun así, la calidad de las respuestas de Claude es mejor. Los pros y contras están muy marcados
    • Al ponerlos a hacer la misma tarea de refactorización, Codex tardó 5 minutos y Claude 20
      Pero Codex entrega resultados “técnicamente correctos pero humanamente raros”
      Por eso yo uso Claude para escribir la especificación y Codex para ejecutarla
    • Con un comentario sarcástico de “Java es lo máximo”, alguien dice que esta discusión al final no es tan distinta a una guerra de lenguajes de programación
    • También critican que OpenAI está ganando participación de mercado con una estrategia de subsidios excesivos
      La sospecha es que después van a subir los precios
  • La política de restricciones de seguridad de Opus 4.7 puede ser fatal
    Para investigar ataques y defenderse hace falta una capacidad simétrica, y bloquear eso es peligroso

    • Probablemente esto sea una medida para el posicionamiento de producto de Mythos
    • Ahora, para hacer investigación legítima en seguridad, uno tiene que engañar al modelo
    • Si esta política sigue así, pienso dejar la plataforma
    • A algunos les parece exagerado llamarlo “fatal”, y preguntan de dónde viene exactamente esa asimetría
    • Al final parece que viene una época en la que solo se considerará seguro el software aprobado por Anthropic o por el gobierno