Claude Opus 4.7
(anthropic.com)- Se reforzó el rendimiento avanzado de ingeniería de software, lo que le permite manejar tareas complejas y de larga duración con alta consistencia y precisión
- Mejoró la percepción visual y la comprensión multimodal, permitiendo analizar información visual compleja como imágenes de alta resolución, diagramas técnicos y estructuras químicas
- Incorpora protecciones de ciberseguridad para detectar y bloquear automáticamente solicitudes de alto riesgo; los investigadores de seguridad legítimos pueden participar en el Cyber Verification Program
- Nuevas funciones como control de Effort, Task Budget y el comando ultrareview mejoran la eficiencia en trabajos de larga duración y la capacidad de verificar la calidad del código
- Logra una mejora de rendimiento del 13% frente a Opus 4.6 y alta confiabilidad; Anthropic se está preparando para publicar de forma segura modelos de nivel Mythos con base en esto
Resumen de Claude Opus 4.7
- Claude Opus 4.7 es un modelo con una mejora importante en el rendimiento avanzado de ingeniería de software frente a Opus 4.6, capaz de ejecutar tareas complejas y prolongadas con alta consistencia y precisión
- Los usuarios pueden confiar y delegar tareas de programación más difíciles que antes, y el modelo informa los resultados después de realizar su propia verificación
- Su capacidad de percepción visual se fortaleció, mostrando alta calidad y creatividad con imágenes de alta resolución, interfaces, diapositivas y documentos
- Aunque tiene una capacidad general menor que Claude Mythos Preview, registró resultados superiores a Opus 4.6 en diversos benchmarks
- Está disponible en toda la familia de productos Claude y vía API, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry, con el mismo precio que Opus 4.6
Medidas relacionadas con ciberseguridad
- Anthropic, a través de Project Glasswing, está haciendo públicos los riesgos y beneficios de ciberseguridad de la IA, limitando la publicación de Mythos Preview y realizando primero los experimentos de seguridad en modelos menos potentes
- Opus 4.7 es el primero de estos modelos e incluye protecciones que detectan y bloquean automáticamente solicitudes de ciberseguridad prohibidas o de alto riesgo
- Con base en datos de despliegue real, se prepara la futura publicación más amplia de modelos de nivel Mythos
- Los investigadores de seguridad legítimos (análisis de vulnerabilidades, pruebas de penetración, red teaming, etc.) pueden participar en el Cyber Verification Program
Rendimiento principal y comentarios de usuarios
- En pruebas iniciales se confirmó la capacidad de detectar por sí mismo errores lógicos y acelerar la ejecución
- Muestra un rendimiento sobresaliente en workflows asíncronos, CI/CD y automatización de larga duración, y ofrece un enfoque profundo del problema y opiniones propias, no solo asentimiento superficial
- Evita razonamientos erróneos cuando faltan datos y no cae en trampas de datos inconsistentes
- En 93 benchmarks de programación, mostró una mejora del 13% frente a Opus 4.6 y resolvió 4 tareas adicionales que antes no podían resolverse
- Muestra consistencia de primer nivel en la eficiencia de tareas de varios pasos; en módulos financieros obtuvo 0.813, superando a Opus 4.6 (0.767)
- Mejoró la comprensión multimodal, incluyendo una mejor interpretación de estructuras químicas y diagramas técnicos complejos
- Se reforzó la capacidad de ejecutar trabajo autónomo de larga duración, permitiendo resolver problemas de forma consistente durante varias horas
- Empresas como Replit, Harvey, Hex, Notion, Databricks y Vercel reportaron mejoras en calidad de código, precisión en llamadas a herramientas y confiabilidad de workflows de larga duración
- Como caso real, desarrolló de forma completamente autónoma un motor de síntesis de voz basado en Rust y verificó por sí mismo su coincidencia con un modelo de referencia en Python
Principales mejoras observadas en pruebas iniciales
-
Precisión en la interpretación de instrucciones
- Opus 4.7 interpreta las instrucciones de forma literal y las sigue con mucha más rigurosidad que los modelos anteriores
- Los prompts existentes pueden producir resultados inesperados, por lo que puede ser necesario reajustarlos
-
Refuerzo del soporte multimodal
- Puede procesar imágenes de hasta 2,576 píxeles (aprox. 3.75 MP) de resolución
- Es adecuado para tareas que aprovechan información visual detallada, como análisis de diagramas complejos o extracción de datos a partir de capturas de pantalla
-
Rendimiento en trabajo real
- Ofrece mayor especialización y consistencia que Opus 4.6 en análisis financiero, presentaciones y modelado
- También registró nivel sobresaliente en trabajo de conocimiento como finanzas y derecho en la evaluación externa GDPval-AA
-
Uso de memoria
- Utiliza de manera eficiente una memoria basada en sistema de archivos para recordar y reutilizar contexto de trabajo a lo largo de varias sesiones
Evaluación de seguridad y alineación
- En general, presenta un perfil de seguridad similar al de Opus 4.6, con baja incidencia de problemas como engaño, adulación o cooperación en usos indebidos
- Mejoró en honestidad y resistencia a inyección de prompts maliciosos, aunque se debilitó ligeramente en algunas áreas (por ejemplo, consejos excesivos relacionados con drogas)
- La evaluación concluye que es en general bien alineado y confiable, aunque no completamente ideal
- Mythos Preview sigue siendo evaluado como el modelo mejor alineado
Funciones adicionales lanzadas
-
Refuerzo del control de Effort
- Se agregó un nuevo nivel
xhighentrehighymax, permitiendo un ajuste más fino entre capacidad de razonamiento y latencia - En Claude Code, el nivel predeterminado de Effort se elevó a
xhigh
- Se agregó un nuevo nivel
-
Claude Platform(API)
- Junto con el soporte para imágenes de alta resolución, se ofrece en beta pública la función Task Budget, que permite ajustar la prioridad de uso de tokens en tareas de larga duración
-
Claude Code
- El nuevo comando
/ultrareviewejecuta sesiones de revisión de cambios de código y detección de bugs - Los usuarios Pro y Max reciben 3 ultrareview gratis
- Auto Mode se amplía a los usuarios Max para reducir procesos de aprobación durante tareas largas y permitir ejecución continua sin interrupciones
- El nuevo comando
Migración de Opus 4.6 a 4.7
- Opus 4.7 permite una actualización directa, pero requiere atención a los cambios en el uso de tokens
- Debido al nuevo tokenizer, la misma entrada puede convertirse en aproximadamente 1.0 a 1.35 veces más tokens
- En niveles altos de Effort realiza más razonamiento, por lo que pueden aumentar los tokens de salida
- El uso de tokens puede controlarse mediante el parámetro Effort, Task Budget y un diseño de prompts conciso
- En pruebas internas se confirmó una mejora de eficiencia en todos los niveles de Effort
- El método detallado de actualización se proporciona en la Migration Guide
1 comentarios
Comentarios de Hacker News
El nuevo concepto de adaptive thinking me resulta muy confuso
Antes programaba usando el modo de thinking budget / effort, pero ahora funciona de una forma completamente distinta
Incluso viendo la documentación oficial, todavía no termino de entenderlo
Además, en 4.7 ya no se muestra por defecto un resumen del razonamiento legible para humanos. Hay que agregar manualmente la opción
"display": "summarized"Ahora mismo estoy probando el proyecto Pelican y me sigo atorando por este nuevo enfoque de thinking
Ver este hilo relacionado
Al desactivar adaptive thinking y subir el effort, volvió al nivel de antes
Pero decir “en nuestras evaluaciones internas funciona bien” no basta. Mucha gente está reportando el mismo problema
captura de pantalla
--thinking-display summarizedLos usuarios de VS Code pueden crear un wrapper script que incluya
exec "$@" --thinking-display summarizedy ponerlo en la configuraciónclaudeCode.claudeProcessWrapperpara volver a ver el resumen del razonamientoAntes se consideraba que exponer el CoT (Chain of Thought) de los LLM era clave para la seguridad, pero parece que cambiaron de dirección
El nuevo tokenizador de Opus 4.7 mejora la eficiencia del procesamiento de texto, pero hace que la entrada se mapee a entre 1.0 y 1.35 veces más tokens
Por eso siento que la salida del proyecto caveman en realidad se lee mejor
repositorio de caveman
Como la mayor parte del contexto se va en leer archivos y razonar, el ahorro real de tokens ni siquiera llega al 1%. Incluso podría confundir al modelo
app para Mac, versión CLI
Pensé que las palabras frecuentes podían ser ruido, pero casi no hubo diferencia en los resultados
Me gustaría compararlo contra caveman
Fue gracias a que bajó el uso de reasoning tokens. Eso demuestra que ya no tiene sentido comparar el costo de los modelos solo por el precio por token
Al ver el anuncio de que Anthropic lanzó Opus 4.7 como un modelo restringido para ciberseguridad, me pareció una estrategia fallida
Censurar conocimiento de seguridad y al mismo tiempo pretender desarrollar software seguro es contradictorio
A menos que todas las empresas de IA adopten la misma política, tampoco tendrá eficacia real. Al final parece un enfoque que van a terminar abandonando
Pero este tipo de restricciones va en dirección a centralizar la seguridad, y es difícil verlo como una mejora real de la seguridad
Es como cuando en una entrevista te ponen frente a un pizarrón y tu IQ baja 10%; el modelo también se cohibe
Por eso parece que van hacia volverlos “selectivamente tontos”. De hecho, da la impresión de que ya están haciendo ese experimento
Porque el atacante solo necesita acertar una vez, pero el defensor tiene que acertar siempre, así que puede servir para ganar tiempo
La semana pasada, por la caída de calidad de 4.6, al final me cambié a Codex
4.6 ni siquiera hacía búsquedas web y llenó 17K tokens con tonterías. También implementó completamente mal un ejemplo de procesamiento en paralelo
El uso de tokens se disparó de golpe y la respuesta indiferente del soporte fue la gota que derramó el vaso
Entiendo los bugs, pero la actitud hacia los clientes es difícil de tolerar
Desde que me pasé a Codex, al menos las cosas avanzan, y con eso basta
Codex duplicó sus límites de uso para absorber clientes de Claude, y además su PR es mucho mejor
Parece que el 90% de los problemas de Claude vienen de falta de cómputo
La IA siempre tiene que verse como “en progreso”, porque el estancamiento sería la muerte del hype
Que sea rápido no sirve de mucho si entrega código de baja calidad más rápido
Gemini CLI era más lento y también de peor calidad
Codex tiene la tendencia peligrosa de adularte diciendo que todo está “perfecto” aunque tenga bugs
Su capacidad de ejecución es muy buena, y OpenAI habla con resultados en vez de marketing
Da la sensación del Google de los primeros años, compitiendo por calidad de producto
Los filtros de ciberseguridad de Opus 4.7 se volvieron tan fuertes que bloquean incluso investigación legítima
Aunque uno traiga directamente de la web las guías del programa, lo bloquea como “solicitud peligrosa”
Si sigue así, me voy a cambiar a Codex
Como en esta guía oficial, para acceder a algunas funciones se requiere un proceso de verificación
Por eso se me frenó por completo una investigación que ya estaba en curso
Tal vez el modelo detectó durante su propio reasoning una etapa que parecía “ofensiva”
Parece que cuando el bug hunting va entrando en una fase más agresiva, el filtro se activa
Ya vivimos en un mundo donde la violación de políticas es el nuevo segfault
Reacciona de forma exagerada con solo incluir ciertas palabras
Ahora resulta que tengo que pedirle permiso a la IA para que me diga si mi proyecto es malicioso o no. Voy a cancelar la suscripción
Este hilo deja una buena lección para fundadores
Muestra cuánto descontento se puede desactivar con un poco de comunicación honesta
Como alguien que tiene la app fijada en Opus 4.5, ya ni siquiera me queda claro si el problema es del modelo o del harness
A veces simplemente tuviste mala suerte
Así yo podría mover mis horarios y dejar las tareas pesadas para la noche
En medio de esta confusión, creo que lo más sensato es usar un model broker o una capa intermedia tipo Copilot
Siento que hace falta un servicio que ofrezca siempre el mismo modelo, como una especie de “IA estándar”
Según el benchmark privado de nuestro equipo, Opus 4.7 es más estratégico e inteligente que 4.6/4.5
Está casi al nivel de GPT-5.4, e incluso muestra el mejor rendimiento en sesiones agentic con uso de herramientas
enlace del benchmark
Eso sí, hay una ligera regresión en el manejo de contexto. Están agregando un benchmark para visualizarlo
Últimamente ha bajado mi confianza en Anthropic
Que saquen 4.7 justo después del downgrade de 4.6 me pone nervioso
Ahora hace falta una comunicación transparente
OpenAI invirtió en cómputo desde temprano y ahora eso se volvió una gran ventaja
Incluso podrían estar destilando (distillation) Mythos a Opus 4.7
Probablemente sea por actualizaciones del harness
Últimamente se dispararon los comentarios de “me cambié a Codex”
Pero al usarlo en la práctica, Codex todavía no llega al nivel de Claude
Ese tipo de comentarios promocionales solo le quitan credibilidad
En nuestra empresa usamos ambos modelos, pero yo ahora casi siempre uso Codex
Siento que es más rápido y da mejores resultados
Aun así, la calidad de las respuestas de Claude es mejor. Los pros y contras están muy marcados
Pero Codex entrega resultados “técnicamente correctos pero humanamente raros”
Por eso yo uso Claude para escribir la especificación y Codex para ejecutarla
La sospecha es que después van a subir los precios
La política de restricciones de seguridad de Opus 4.7 puede ser fatal
Para investigar ataques y defenderse hace falta una capacidad simétrica, y bloquear eso es peligroso