Claude Opus 4.7

(anthropic.com)

4 puntos por GN⁺ 14 일 전 | 1 comentarios | Compartir por WhatsApp

Se reforzó el rendimiento avanzado de ingeniería de software, lo que le permite manejar tareas complejas y de larga duración con alta consistencia y precisión
Mejoró la percepción visual y la comprensión multimodal, permitiendo analizar información visual compleja como imágenes de alta resolución, diagramas técnicos y estructuras químicas
Incorpora protecciones de ciberseguridad para detectar y bloquear automáticamente solicitudes de alto riesgo; los investigadores de seguridad legítimos pueden participar en el Cyber Verification Program
Nuevas funciones como control de Effort, Task Budget y el comando ultrareview mejoran la eficiencia en trabajos de larga duración y la capacidad de verificar la calidad del código
Logra una mejora de rendimiento del 13% frente a Opus 4.6 y alta confiabilidad; Anthropic se está preparando para publicar de forma segura modelos de nivel Mythos con base en esto

Resumen de Claude Opus 4.7

Claude Opus 4.7 es un modelo con una mejora importante en el rendimiento avanzado de ingeniería de software frente a Opus 4.6, capaz de ejecutar tareas complejas y prolongadas con alta consistencia y precisión
Los usuarios pueden confiar y delegar tareas de programación más difíciles que antes, y el modelo informa los resultados después de realizar su propia verificación
Su capacidad de percepción visual se fortaleció, mostrando alta calidad y creatividad con imágenes de alta resolución, interfaces, diapositivas y documentos
Aunque tiene una capacidad general menor que Claude Mythos Preview, registró resultados superiores a Opus 4.6 en diversos benchmarks
Está disponible en toda la familia de productos Claude y vía API, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry, con el mismo precio que Opus 4.6

Medidas relacionadas con ciberseguridad

Anthropic, a través de Project Glasswing, está haciendo públicos los riesgos y beneficios de ciberseguridad de la IA, limitando la publicación de Mythos Preview y realizando primero los experimentos de seguridad en modelos menos potentes
Opus 4.7 es el primero de estos modelos e incluye protecciones que detectan y bloquean automáticamente solicitudes de ciberseguridad prohibidas o de alto riesgo
Con base en datos de despliegue real, se prepara la futura publicación más amplia de modelos de nivel Mythos
Los investigadores de seguridad legítimos (análisis de vulnerabilidades, pruebas de penetración, red teaming, etc.) pueden participar en el Cyber Verification Program

Rendimiento principal y comentarios de usuarios

En pruebas iniciales se confirmó la capacidad de detectar por sí mismo errores lógicos y acelerar la ejecución
Muestra un rendimiento sobresaliente en workflows asíncronos, CI/CD y automatización de larga duración, y ofrece un enfoque profundo del problema y opiniones propias, no solo asentimiento superficial
Evita razonamientos erróneos cuando faltan datos y no cae en trampas de datos inconsistentes
En 93 benchmarks de programación, mostró una mejora del 13% frente a Opus 4.6 y resolvió 4 tareas adicionales que antes no podían resolverse
Muestra consistencia de primer nivel en la eficiencia de tareas de varios pasos; en módulos financieros obtuvo 0.813, superando a Opus 4.6 (0.767)
Mejoró la comprensión multimodal, incluyendo una mejor interpretación de estructuras químicas y diagramas técnicos complejos
Se reforzó la capacidad de ejecutar trabajo autónomo de larga duración, permitiendo resolver problemas de forma consistente durante varias horas
Empresas como Replit, Harvey, Hex, Notion, Databricks y Vercel reportaron mejoras en calidad de código, precisión en llamadas a herramientas y confiabilidad de workflows de larga duración
Como caso real, desarrolló de forma completamente autónoma un motor de síntesis de voz basado en Rust y verificó por sí mismo su coincidencia con un modelo de referencia en Python

Principales mejoras observadas en pruebas iniciales

Precisión en la interpretación de instrucciones
- Opus 4.7 interpreta las instrucciones de forma literal y las sigue con mucha más rigurosidad que los modelos anteriores
- Los prompts existentes pueden producir resultados inesperados, por lo que puede ser necesario reajustarlos
Refuerzo del soporte multimodal
- Puede procesar imágenes de hasta 2,576 píxeles (aprox. 3.75 MP) de resolución
- Es adecuado para tareas que aprovechan información visual detallada, como análisis de diagramas complejos o extracción de datos a partir de capturas de pantalla
Rendimiento en trabajo real
- Ofrece mayor especialización y consistencia que Opus 4.6 en análisis financiero, presentaciones y modelado
- También registró nivel sobresaliente en trabajo de conocimiento como finanzas y derecho en la evaluación externa GDPval-AA
Uso de memoria
- Utiliza de manera eficiente una memoria basada en sistema de archivos para recordar y reutilizar contexto de trabajo a lo largo de varias sesiones

Evaluación de seguridad y alineación

En general, presenta un perfil de seguridad similar al de Opus 4.6, con baja incidencia de problemas como engaño, adulación o cooperación en usos indebidos
Mejoró en honestidad y resistencia a inyección de prompts maliciosos, aunque se debilitó ligeramente en algunas áreas (por ejemplo, consejos excesivos relacionados con drogas)
La evaluación concluye que es en general bien alineado y confiable, aunque no completamente ideal
Mythos Preview sigue siendo evaluado como el modelo mejor alineado

Funciones adicionales lanzadas

Refuerzo del control de Effort
- Se agregó un nuevo nivel xhigh entre high y max, permitiendo un ajuste más fino entre capacidad de razonamiento y latencia
- En Claude Code, el nivel predeterminado de Effort se elevó a xhigh
Claude Platform(API)
- Junto con el soporte para imágenes de alta resolución, se ofrece en beta pública la función Task Budget, que permite ajustar la prioridad de uso de tokens en tareas de larga duración
Claude Code
- El nuevo comando /ultrareview ejecuta sesiones de revisión de cambios de código y detección de bugs
- Los usuarios Pro y Max reciben 3 ultrareview gratis
- Auto Mode se amplía a los usuarios Max para reducir procesos de aprobación durante tareas largas y permitir ejecución continua sin interrupciones

Migración de Opus 4.6 a 4.7

Opus 4.7 permite una actualización directa, pero requiere atención a los cambios en el uso de tokens
- Debido al nuevo tokenizer, la misma entrada puede convertirse en aproximadamente 1.0 a 1.35 veces más tokens
- En niveles altos de Effort realiza más razonamiento, por lo que pueden aumentar los tokens de salida
El uso de tokens puede controlarse mediante el parámetro Effort, Task Budget y un diseño de prompts conciso
En pruebas internas se confirmó una mejora de eficiencia en todos los niveles de Effort
El método detallado de actualización se proporciona en la Migration Guide

1 comentarios

GN⁺ 14 일 전

Comentarios de Hacker News

El nuevo concepto de adaptive thinking me resulta muy confuso
Antes programaba usando el modo de thinking budget / effort, pero ahora funciona de una forma completamente distinta
Incluso viendo la documentación oficial, todavía no termino de entenderlo
Además, en 4.7 ya no se muestra por defecto un resumen del razonamiento legible para humanos. Hay que agregar manualmente la opción "display": "summarized"
Ahora mismo estoy probando el proyecto Pelican y me sigo atorando por este nuevo enfoque de thinking
- La respuesta de Boris a mi reporte de bug fue que “parece que adaptive thinking no está funcionando bien”, pero desde entonces no ha habido más noticias
  Ver este hilo relacionado
  Al desactivar adaptive thinking y subir el effort, volvió al nivel de antes
  Pero decir “en nuestras evaluaciones internas funciona bien” no basta. Mucha gente está reportando el mismo problema
- Hizo un chiste de que “querer sacar bien pelican” suena como p-hacking (manipulación estadística). El juego de palabras es que la p sería la de pelican
- Claude Opus 4.6 me dio muchos resultados realmente graciosos
  captura de pantalla
- En Claude Code parece que añadieron una opción no oficial de línea de comandos, --thinking-display summarized
  Los usuarios de VS Code pueden crear un wrapper script que incluya exec "$@" --thinking-display summarized y ponerlo en la configuración claudeCode.claudeProcessWrapper para volver a ver el resumen del razonamiento
- Me pregunto si ahora Claude ya no muestra el razonamiento completo y solo enseña un resumen
  Antes se consideraba que exponer el CoT (Chain of Thought) de los LLM era clave para la seguridad, pero parece que cambiaron de dirección
El nuevo tokenizador de Opus 4.7 mejora la eficiencia del procesamiento de texto, pero hace que la entrada se mapee a entre 1.0 y 1.35 veces más tokens
Por eso siento que la salida del proyecto caveman en realidad se lee mejor
repositorio de caveman
- caveman está, en la práctica, más cerca de ser un proyecto de broma
  Como la mayor parte del contexto se va en leer archivos y razonar, el ahorro real de tokens ni siquiera llega al 1%. Incluso podría confundir al modelo
- caveman también es divertido, pero si de verdad quieres ahorrar tokens, headroom es mejor
  app para Mac, versión CLI
- Hice un experimento eliminando del prompt entre las 100 y 1000 palabras más comunes en inglés
  Pensé que las palabras frecuentes podían ser ruido, pero casi no hubo diferencia en los resultados
  Me gustaría compararlo contra caveman
- Sugieren un enfoque como rtk-ai/rtk
- En mi benchmark interno de petróleo y gas, Opus 4.7 salió con 80%, por encima de Opus 4.6 (64%) y GPT-5.4 (76%)
  Fue gracias a que bajó el uso de reasoning tokens. Eso demuestra que ya no tiene sentido comparar el costo de los modelos solo por el precio por token
Al ver el anuncio de que Anthropic lanzó Opus 4.7 como un modelo restringido para ciberseguridad, me pareció una estrategia fallida
Censurar conocimiento de seguridad y al mismo tiempo pretender desarrollar software seguro es contradictorio
A menos que todas las empresas de IA adopten la misma política, tampoco tendrá eficacia real. Al final parece un enfoque que van a terminar abandonando
- No soy experto en seguridad, pero al compilar proyectos open source necesito una IA que ayude con la validación de vulnerabilidades
  Pero este tipo de restricciones va en dirección a centralizar la seguridad, y es difícil verlo como una mejora real de la seguridad
- Siento que unas protecciones excesivas en la etapa de entrenamiento terminan degradando la inteligencia general
  Es como cuando en una entrevista te ponen frente a un pizarrón y tu IQ baja 10%; el modelo también se cohibe
- Los modelos actuales están en un estado raro: son demasiado buenos para hackear, pero todavía se quedan cortos en tareas económicas
  Por eso parece que van hacia volverlos “selectivamente tontos”. De hecho, da la impresión de que ya están haciendo ese experimento
- A corto plazo me parece una medida aceptable
  Porque el atacante solo necesita acertar una vez, pero el defensor tiene que acertar siempre, así que puede servir para ganar tiempo
La semana pasada, por la caída de calidad de 4.6, al final me cambié a Codex
4.6 ni siquiera hacía búsquedas web y llenó 17K tokens con tonterías. También implementó completamente mal un ejemplo de procesamiento en paralelo
- Yo también cancelé mi suscripción Pro por la misma razón
  El uso de tokens se disparó de golpe y la respuesta indiferente del soporte fue la gota que derramó el vaso
  Entiendo los bugs, pero la actitud hacia los clientes es difícil de tolerar
  Desde que me pasé a Codex, al menos las cosas avanzan, y con eso basta
- Mucha gente decía que OpenAI iba a quebrar por exceso de cómputo, pero ahora eso más bien se volvió una ventaja estratégica
  Codex duplicó sus límites de uso para absorber clientes de Claude, y además su PR es mucho mejor
  Parece que el 90% de los problemas de Claude vienen de falta de cómputo
- Mi teoría conspirativa es que bajan el rendimiento a propósito justo antes de lanzar un modelo nuevo para que la siguiente versión parezca mucho mejor
  La IA siempre tiene que verse como “en progreso”, porque el estancamiento sería la muerte del hype
- Probé Codex, pero para mi caso de uso fue muy inferior
  Que sea rápido no sirve de mucho si entrega código de baja calidad más rápido
  Gemini CLI era más lento y también de peor calidad
  Codex tiene la tendencia peligrosa de adularte diciendo que todo está “perfecto” aunque tenga bugs
- Aun así, Codex ya se ganó un lugar en mi toolkit
  Su capacidad de ejecución es muy buena, y OpenAI habla con resultados en vez de marketing
  Da la sensación del Google de los primeros años, compitiendo por calidad de producto
Los filtros de ciberseguridad de Opus 4.7 se volvieron tan fuertes que bloquean incluso investigación legítima
Aunque uno traiga directamente de la web las guías del programa, lo bloquea como “solicitud peligrosa”
Si sigue así, me voy a cambiar a Codex
- Ahora incluso podrían exigir verificación de identidad (Identity Verification)
  Como en esta guía oficial, para acceder a algunas funciones se requiere un proceso de verificación
- De hecho, en la API aparece el error “Usage Policy violation” junto con un enlace para solicitar el Cyber Verification Program
  Por eso se me frenó por completo una investigación que ya estaba en curso
- A mí me bloquearon a media sesión, aunque la entrada seguía siendo la misma
  Tal vez el modelo detectó durante su propio reasoning una etapa que parecía “ofensiva”
  Parece que cuando el bug hunting va entrando en una fase más agresiva, el filtro se activa
  Ya vivimos en un mundo donde la violación de políticas es el nuevo segfault
- Lo más grave es que incluso mientras escribo mi propio código, empieza a sacar frases por su cuenta como “esto no es malware”
  Reacciona de forma exagerada con solo incluir ciertas palabras
  Ahora resulta que tengo que pedirle permiso a la IA para que me diga si mi proyecto es malicioso o no. Voy a cancelar la suscripción
- Incluso se negó a una tarea tan simple como mandar un PDF a la impresora
Este hilo deja una buena lección para fundadores
Muestra cuánto descontento se puede desactivar con un poco de comunicación honesta
Como alguien que tiene la app fijada en Opus 4.5, ya ni siquiera me queda claro si el problema es del modelo o del harness
- En este tipo de hilos siempre hay mucha superstición sobre que “Anthropic degradó el modelo”
  A veces simplemente tuviste mala suerte
- Si de verdad hicieron el modelo más lento a propósito por la carga, es importante comunicarlo claramente
  Así yo podría mover mis horarios y dejar las tareas pesadas para la noche
- Opus 4.5 era muy consistente, pero 4.6 fue muy irregular
- Soy desarrollador principiante y todavía estoy aprendiendo las diferencias entre modelos
  En medio de esta confusión, creo que lo más sensato es usar un model broker o una capa intermedia tipo Copilot
- Esta inestabilidad está volviendo a los usuarios paranoicos
  Siento que hace falta un servicio que ofrezca siempre el mismo modelo, como una especie de “IA estándar”
Según el benchmark privado de nuestro equipo, Opus 4.7 es más estratégico e inteligente que 4.6/4.5
Está casi al nivel de GPT-5.4, e incluso muestra el mejor rendimiento en sesiones agentic con uso de herramientas
enlace del benchmark
Eso sí, hay una ligera regresión en el manejo de contexto. Están agregando un benchmark para visualizarlo
- Me pregunto por qué la tasa de éxito de Opus 4.7 es menor que la de Sonnet 4.6, pero su percentil promedio es más alto
- También surgió la pregunta de si 4.6 o 4.5 sufrieron una regresión de rendimiento después de su lanzamiento inicial
Últimamente ha bajado mi confianza en Anthropic
Que saquen 4.7 justo después del downgrade de 4.6 me pone nervioso
Ahora hace falta una comunicación transparente
- El problema de fondo es la falta de cómputo
  OpenAI invirtió en cómputo desde temprano y ahora eso se volvió una gran ventaja
- Puede que el rendimiento de Opus haya bajado porque estaban entrenando Mythos
  Incluso podrían estar destilando (distillation) Mythos a Opus 4.7
- Me intriga por qué Claude sobre Bedrock también se vuelve más tonto
  Probablemente sea por actualizaciones del harness
- La integración de verificación de Persona ID fue la gota que derramó el vaso. Me fui después de eso
- Me pregunto si de verdad pueden seguir aguantando así
Últimamente se dispararon los comentarios de “me cambié a Codex”
Pero al usarlo en la práctica, Codex todavía no llega al nivel de Claude
Ese tipo de comentarios promocionales solo le quitan credibilidad
- Pero en la práctica sí hay muchos desarrolladores que prefieren Codex
  En nuestra empresa usamos ambos modelos, pero yo ahora casi siempre uso Codex
  Siento que es más rápido y da mejores resultados
- Yo también hice una prueba piloto corta y Codex resolvió problemas más de 4 veces más rápido que Claude
  Aun así, la calidad de las respuestas de Claude es mejor. Los pros y contras están muy marcados
- Al ponerlos a hacer la misma tarea de refactorización, Codex tardó 5 minutos y Claude 20
  Pero Codex entrega resultados “técnicamente correctos pero humanamente raros”
  Por eso yo uso Claude para escribir la especificación y Codex para ejecutarla
- Con un comentario sarcástico de “Java es lo máximo”, alguien dice que esta discusión al final no es tan distinta a una guerra de lenguajes de programación
- También critican que OpenAI está ganando participación de mercado con una estrategia de subsidios excesivos
  La sospecha es que después van a subir los precios
La política de restricciones de seguridad de Opus 4.7 puede ser fatal
Para investigar ataques y defenderse hace falta una capacidad simétrica, y bloquear eso es peligroso
- Probablemente esto sea una medida para el posicionamiento de producto de Mythos
- Ahora, para hacer investigación legítima en seguridad, uno tiene que engañar al modelo
- Si esta política sigue así, pienso dejar la plataforma
- A algunos les parece exagerado llamarlo “fatal”, y preguntan de dónde viene exactamente esa asimetría
- Al final parece que viene una época en la que solo se considerará seguro el software aprobado por Anthropic o por el gobierno

Claude Opus 4.7

Resumen de Claude Opus 4.7

Medidas relacionadas con ciberseguridad

Rendimiento principal y comentarios de usuarios

Principales mejoras observadas en pruebas iniciales

Precisión en la interpretación de instrucciones

Refuerzo del soporte multimodal

Rendimiento en trabajo real

Uso de memoria

Evaluación de seguridad y alineación

Funciones adicionales lanzadas

Refuerzo del control de Effort

Claude Platform(API)

Claude Code

Migración de Opus 4.6 a 4.7

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News