Cambios en el system prompt entre Claude Opus 4.6 y 4.7

(simonwillison.net)

6 puntos por GN⁺ 10 일 전 | 1 comentarios | Compartir por WhatsApp

Anthropic ha sido el único gran laboratorio de IA que ha publicado el system prompt de su sistema de chat, y en Opus 4.7, lanzado el 16 de abril de 2026, hubo una actualización de prompt notable
La denominación cambió a Claude Platform y se añadieron Claude in Chrome, Claude in Excel y Claude in Powerpoint a la lista de herramientas; además, se agregó una instrucción para intentar de inmediato en vez de repreguntar primero cuando una solicitud carece de información menor
La sección de seguridad infantil se amplió considerablemente y quedó envuelta en la nueva etiqueta <critical_child_safety_instructions>; además, después de rechazar una conversación una vez, se configuró para prestar extrema atención a todas las solicitudes posteriores
Se añadió una nueva sección <acting_vs_clarifying> para que, si el usuario no especifica detalles, primero haga un intento razonable en lugar de hacer preguntas
Ahora, si el usuario expresa su intención de terminar la conversación, debe detenerse sin fomentar más interacción; además, para temas complejos o polémicos, se añadió una regla para evitar respuestas cortas de sí o no y priorizar respuestas con matices
Se incorporó una frase que indica que, antes de decir que algo no es accesible, primero debe comprobar con tool_search si hay herramientas disponibles; los prompts públicos por sí solos no bastan, y la información descriptiva de las herramientas sigue siendo un elemento clave para rastrear el comportamiento de Claude chat

Cambios en el system prompt de Claude Opus 4.6 y 4.7

Anthropic es el único gran laboratorio de IA que publica el system prompt del chat orientado al usuario, y su archivo se remonta hasta Claude 3 de julio de 2024
Opus 4.7 se publicó el 16 de abril de 2026 y, en línea con ello, el system prompt de Claude.ai también se actualizó respecto a la versión posterior a Opus 4.6
Se separó la versión Markdown del system prompt en documentos por modelo, se construyó un historial de Git con fechas de commit ficticias que reflejan las fechas públicas, y luego se comparó el diff entre Opus 4.6 y 4.7
Los cambios que siguen se extrajeron de ese diff, y las partes en negritas también aparecen resaltadas en el original
Cambios en nombres y lista de herramientas
- La denominación “developer platform” cambió a “Claude Platform”
- La lista de herramientas de Claude mencionadas en el system prompt ahora incluye Claude in Chrome, Claude in Excel y Claude in Powerpoint
  - Según la redacción original, Claude in Chrome es un agente de navegación que interactúa de forma autónoma con sitios web
  - Claude in Excel es un agente de hojas de cálculo
  - Claude in Powerpoint es un agente de diapositivas
  - Claude Cowork puede usar todas estas como herramientas
- Claude in Powerpoint no se mencionaba en el prompt de 4.6
Ampliación de las instrucciones de seguridad infantil
- La sección de seguridad infantil se amplió mucho y quedó envuelta en la nueva etiqueta <critical_child_safety_instructions>
- En particular, se añadió una frase que indica que, después de rechazar una solicitud una vez por motivos de seguridad infantil, también deben tratarse con extrema cautela todas las solicitudes posteriores dentro de la misma conversación
Cambios en el cierre de conversación y en el tono de respuesta
- Si el usuario indica que está listo para terminar la conversación, Claude ahora debe respetar la solicitud de detenerse en lugar de pedir que el usuario siga interactuando o inducir el siguiente turno
- El texto original interpreta esto como un cambio para hacer a Claude menos insistente
Se añade la sección acting_vs_clarifying
- Se añadió una nueva sección <acting_vs_clarifying>
- Establece que, cuando a una solicitud le faltan detalles menores, normalmente el usuario quiere que se intente razonablemente ahora en lugar de ser interrogado primero
- Solo debe preguntar primero cuando realmente no sea posible responder sin la información faltante
  - Se da como ejemplo el caso de referirse a un archivo adjunto que en realidad no existe
- Si hay herramientas que puedan resolver la ambigüedad o aportar la información faltante, como buscar, comprobar ubicación, revisar el calendario o explorar funciones disponibles, debe priorizar la llamada a herramientas en vez de pedirle al usuario que haga la consulta
- También se especifica que, una vez iniciada la tarea, no debe detenerse a mitad de camino y debe continuar hasta dar una respuesta completa
Introducción de tool_search
- Se menciona que parece haberse incorporado un mecanismo tool_search en Claude chat
- Como evidencia relacionada, se enlazan la documentación de la API y una publicación de noviembre de 2025
- Según la redacción del system prompt, antes de concluir que Claude no puede acceder a ubicación, memoria, calendario, archivos, conversaciones pasadas o datos externos, debe invocar tool_search para verificar si hay una herramienta relevante disponible pero demorada
- La expresión “I don’t have access to X” solo se considera correcta después de que tool_search confirme que no hay una herramienta coincidente
Mayor concisión
- Se añadió una frase que indica que, para no abrumar al usuario con respuestas excesivamente largas, Claude debe mantener sus respuestas enfocadas y concisas
- También se especifica que, aunque la respuesta incluya salvedades o advertencias, estas deben mencionarse brevemente, y la mayor parte de la respuesta debe concentrarse en la respuesta principal
Frases que estaban en 4.6 pero fueron eliminadas en 4.7
- Algunas instrucciones presentes en el prompt 4.6 fueron eliminadas en 4.7
- En concreto, se borró la frase que decía que debía evitarse el uso de emotes o expresiones de acción entre asteriscos, a menos que el usuario pidiera específicamente ese estilo
- También se eliminó la instrucción de evitar palabras como “genuinely”, “honestly” y “straightforward”
- El texto original añade que quizá se deba a que el nuevo modelo ya no falla de la misma manera, pero eso se presenta explícitamente como una conjetura
Nuevas instrucciones sobre trastornos de la conducta alimentaria
- Se añadió una nueva sección sobre disordered eating, y antes esa denominación no se mencionaba de forma directa
- Si el usuario muestra señales de trastornos de la conducta alimentaria, no debe proporcionarse orientación precisa sobre nutrición, dieta o ejercicio tampoco en otras partes de la conversación
- Quedan prohibidos los valores concretos, objetivos y planes paso a paso
- Se especifica que, incluso si la intención es ayudar a fijar metas más saludables o subrayar los riesgos, ese tipo de detalle puede detonar o fomentar tendencias de trastorno alimentario
Prevención de respuestas cortas a preguntas polémicas
- Se menciona que son populares los ataques de captura de pantalla que buscan forzar al modelo a responder solo sí o no a preguntas controvertidas
- La sección <evenhandedness> del system prompt incluye instrucciones de defensa frente a esto
- Si se le pide responder con un simple sí o no, o con una sola palabra, sobre un asunto complejo o polémico, o comentar sobre una figura controvertida, Claude puede rechazar esa respuesta breve y dar una respuesta con matices, explicando por qué una respuesta corta no es adecuada
Eliminación de la frase de ajuste sobre Donald Trump
- Claude 4.6 incluía una frase de ajuste explícita: “Donald Trump is the current president of the United States and was inaugurated on January 20, 2025”
- Según el texto original, sin esa frase el modelo negaba que fuera presidente debido a su corte previo de conocimiento y a su conocimiento existente sobre la elección de 2020
- En 4.7 esa frase fue eliminada, porque la nueva fecha confiable de knowledge cutoff de 2026 de enero del modelo fue actualizada

Las descripciones de herramientas también son un objetivo importante para rastrear cambios

Los system prompts publicados por sí solos no completan todo el panorama
La información que publica Anthropic no incluye las descripciones de herramientas que se entregan al modelo
Para aprovechar bien la UI de Claude chat, estas descripciones de herramientas podrían ser fragmentos de documentación aún más importantes
Resultado de consultarle directamente a Claude
- Se usó un prompt para pedirle a Claude que enumerara todas las herramientas disponibles, junto con la descripción exacta y los parámetros de cada una
- El registro de conversación compartido incluye todos los detalles completos, y en el cuerpo del texto solo se organizó por separado la lista de herramientas con nombre
Lista de herramientas confirmadas
- ask_user_input_v0
- bash_tool
- conversation_search
- create_file
- fetch_sports_data
- image_search
- message_compose_v1
- places_map_display_v0
- places_search
- present_files
- recent_chats
- recipe_display_v0
- recommend_claude_apps
- search_mcp_registry
- str_replace
- suggest_connectors
- view
- weather_fetch
- web_fetch
- web_search
- tool_search
- visualize:read_me
- visualize:show_widget
Si hubo cambios frente a Opus 4.6
- Esta lista de herramientas parece no haber cambiado desde Opus 4.6

1 comentarios

GN⁺ 10 일 전

Comentarios en Hacker News

A mí siempre me molestó que, cuando faltan detalles en la solicitud, el modelo primero haga suposiciones razonables y siga adelante. Prefiero muchísimo más que pregunte antes de intentar algo, así que me sorprendió bastante que este principio se haya agregado al sistema
- Yo directamente tengo una etapa de entrevista obligatoria. El modelo tiene que entrevistarme sí o sí, crear un archivo interview con todo el contenido y luego hacer que el archivo plan incluya también ese archivo como entregable. Así la intención no se pierde dentro del historial del chat
- Últimamente empecé a poner en mis prompts frases como "si no lo sabes, no lo asumas; pregunta". Desde entonces bajaron bastante los casos en los que después tengo que revertir cosas o volver a pedirlas. También le digo que, como otros agentes ya se equivocaron antes, primero me explique qué intenta hacer ahora y pida mi aprobación. Es engorroso, pero si lo haces explicar, corregir sus errores y repetir hasta llegar a la conclusión correcta, la calidad de salida mejora muchísimo
- Me preguntaba si esto sería por optimizar métricas superficiales. Si expones la ambigüedad con preguntas al principio, la sesión puede cortarse antes, y eso quizá se ve mal en las estadísticas de uso. Pero para mí es peor darme cuenta recién al revisar un resultado grande de que la especificación tenía vacíos fatales. De hecho, una de las principales razones por las que ahora uso estas herramientas de forma más relajada que antes es que te ayudan con la tarea inicial; al final la conversación en sí es lo central
- Yo no entendía por qué seguía intentando dar siempre una respuesta de una sola vez, y resulta que la razón estaba en el prompt del sistema. Eso también explica por qué ese comportamiento no cambiaba aunque intentara corregirlo desde el "sistema" del lado del usuario
- Normalmente tengo que recordarle como cinco veces que haga exactamente lo contrario. Si no, el modelo termina tomando decisiones que yo no quiero o que perjudican el proyecto. Si esa inclinación también entra en Claude Code, puede volverse bastante duro. Por eso suelo pedir explícitamente preguntas de seguimiento, sobre todo preguntas con varias opciones, pero muchas veces ignora esa instrucción y el resultado termina siendo malo o incluso peligroso
Creo que, si sigues metiendo cosas así en el prompt del sistema, al final terminas generando anti-conversación. Cuanto más grande es el equipo, más seguro aparece alguien que quiere meter en el prompt lo que a él le importa en ese momento
Me pareció que la sección sobre trastornos alimentarios es bastante excesiva. Me preguntaba si de ahora en adelante van a seguir agregando una sección distinta para cada conducta humana "mala"
- Yo prefiero que, al menos, esté en el prompt del sistema. Ahora por lo menos se puede ver hasta cierto punto qué cosas se censuran, pero si después esto se incorpora internamente al modelo vía post-training, podría ser todavía más difícil entender por qué incluso ante preguntas como "calorías de 100 g de pasta" aparece un "no puedo proporcionar esa información"
- Esto me recuerda a cuando pegan por todos lados advertencias de seguridad exageradas. Lo peor, más que un aviso tipo "no apoye la escalera en cables de alta tensión", es que una persona puede ignorarlo según el contexto, pero Claude no puede ignorarlo. Viéndolo bien, es frustrante; viéndolo mal, limita la utilidad de la herramienta
- A mí esa parte me parece una adición sensata. Si a alguien que realmente tiene un trastorno alimentario le recomiendas obsesionarse con las calorías o gestionar la dieta al detalle, podrías empeorarle la situación. Un consejo inocuo para el usuario promedio puede ser dañino para otra persona, así que no creo que esa redacción en sí vaya a provocar rechazos excesivos
- Visto de otra manera, siento que todos los usuarios de Claude están pagando un impuesto extra en cada solicitud
- Cuando la valuación de una empresa sube a cientos de miles de millones de dólares, es obvio que se te llenará de gente queriendo demandarte. Ya se ve venir, y por eso gastar 50 millones de dólares en un equipo que filtre contenido potencialmente problemático pasa a ser una decisión totalmente racional
Estoy fuertemente en contra de la instrucción de "mantén las respuestas breves y enfocadas". Yo uso Claude en proyectos de bajo nivel, y las respuestas largas ayudan a evitar errores tontos y además sirven como material de aprendizaje. Esto no debería venir hardcodeado por Anthropic; el prompt del sistema tendría que ser modular y opcional
- Totalmente de acuerdo. Este tipo de prompt del sistema tan verboso termina siendo un diseño para el usuario mínimo común denominador, así que para quienes quieren ir más a fondo funciona como un nerfeo que les recorta rendimiento
- También coincido, y en trabajo de bajo nivel recomendaría correr tests lo antes posible y verificar por tu cuenta la información que vayas aprendiendo para construir una comprensión base sólida
Siento que ya llegamos al punto en el que las mejoras en un área implican retrocesos en otra. Hay cosas en las que 4.7 es mejor y otras en las que 4.6 lo es, así que supongo que pronto irán por algo tipo separación de personajes
Me preguntaba por qué 4.7 está tan obsesionado con la evasión de malware. El prompt del sistema se ve parecido, así que pensé si Anthropic no estará probando temprano cosas como steering vector injection. En nuestra empresa, que es una firma de servicios financieros bastante normal, 4.7 gasta demasiados tokens pensando si cierto código o tarea tiene relación con malware, y su comportamiento se desvía tanto que por ahora lo bloqueamos temporalmente en el IDE. Una vez sentí que el modelo estaba evitando deliberadamente realizar cierta tarea y, cuando le pregunté por qué, en la salida de la herramienta apareció que intentaba seguir instrucciones relacionadas con malware. Sé que el autorreporte del modelo es poco confiable, pero en ese momento yo no le había dado ninguna pista antes. También vi muchas historias similares en internet, sobre todo en reddit, sobre esta paranoia con el malware, así que no parece ser solo un problema mío
- Creo que hay que tener en cuenta que este documento es el prompt del sistema para chat. Claude Code probablemente use un prompt muy distinto, y puede que incluya todavía más redacción sobre rechazos por malware. Otras herramientas de programación también usarán la API con sus propios prompts encima, y además esta vez parece un nuevo base model, así que perfectamente los cambios podrían venir del propio modelo
- Creo que no hay que subestimar la magnitud actual del problema del malware. Todos los días aparecen en sitios como playcode.io páginas falsas de aterrizaje que imitan scripts de shell o la página de instalación de Claude code, y hay gente pagando mucho dinero en Google Ads para ponerlas arriba de todo. El diseño es casi idéntico, así que siempre existe el riesgo de hacer clic en la página equivocada al instalar. Google no puede verificar todos los scripts de shell, así que en la práctica es un problema grande
- Siento que el marketing de Anthropic está vendiendo demasiado la idea de que el modelo puede crear malware superavanzado. Por eso me parece que todas las medidas futuras van a venir impregnadas de ese marketing del miedo. También me da cierto cinismo pensar que montan toda esta obra del "AI hacker aterrador" y que, en uno o dos meses, como siempre, pasarán a otro tema
- Yo ya había empezado a sentir esta paranoia con el malware en 4.6. Como Boris también se sorprendió al oírlo en los comentarios, da la impresión de que quizá sea un bug
- Supongo que la razón es que el modelo ya se volvió demasiado bueno escribiendo software. Si termina ayudando a desplegar malware de alguien, y ese malware incluso usa al propio Claude para modificarse y sobrevivir, después podría volverse casi imposible recuperar el control
Me parece buena idea la instrucción de no seguir insistiendo si el usuario dice que quiere terminar la conversación. Casi nunca me resultaron útiles esas sugerencias de seguimiento de los chatbots
Sabía que el prompt del sistema estaba creciendo, pero más de 60 mil palabras me dejó impactado. Si eso son más o menos 80 mil tokens, incluso con un contexto de 1 millón ya es cerca del 10%, y el input del usuario ni siquiera empezó todavía. Además, si eso entra en cada solicitud, no sorprende que los costos de infraestructura se disparen. También parece haber mucho contenido que se mantiene estable entre versiones, así que me preguntaba por qué no lo incorporan a los pesos durante el entrenamiento. Puede ser más cómodo para desarrollo, pero desde el punto de vista de despliegue no parece ni más seguro ni más eficiente
- Lo que me sorprende es que esto funcione en absoluto. En enero de este año, cuando en la startup estábamos armando automatización con IA, con un prompt del sistema de apenas 1000 palabras el modelo ya empezaba a saltarse algunas reglas. Incluso instrucciones simples como "nunca hagas X" a veces simplemente no las cumplía
- Creo que decir "se recalcula completo en cada solicitud" no es del todo preciso. Normalmente se calcula una vez y se mete en una K/V prefix cache para reutilizarlo como estado inicial, y después se procesa sobre todo la entrada nueva. Igual, desde el punto de vista de attention, esos tokens todavía compiten con lo demás
- Yo supongo que no lo meten completamente en los pesos para poder hacer hotfixes después del lanzamiento. Aun así, me pregunto si de verdad tantos elementos necesitan seguir corrigiéndose después, y la verdad es que da la impresión de ser más largo que muchas novelas
- Como dentro del documento hay secciones markdown distintas según el modelo, creo que en realidad podría estar más cerca de 3000 a 4000 palabras
- Me preguntaba si Claude Code o el harness que tiene encima agregan su propio prompt del sistema sobre el prompt del sistema de Opus
Siento que 4.7, incluso cuando hay una mejor opción clarísima, siempre tira demasiadas alternativas y te provoca fatiga de decisión como si estuviera sermoneando
- Creo que esa fatiga de decisión tal vez sea un subproducto aprendido de RLHF, y eso me resulta bastante decepcionante
Me pareció interesante que las instrucciones no estén formuladas como un "you should" directo, sino en tercera persona omnisciente, como "Claude should". También hay muchos "can" y "should", así que se siente menos como una orden estricta y más como algo pasivo o aspiracional
- Creo que "Claude" deja el sujeto más claro que "you". Así no hace falta que el attention infiera quién es el agente. Además, por el lado de Anthropic parece que creen que el alignment basado en reglas no funciona muy bien, y también se sabe que el llamado soul document lo escriben "como si le explicaras a un niño cómo actuar en el mundo". Da la impresión de que el prompt del sistema sigue una filosofía parecida
- A mí también me pareció interesante. Si es así, quizá cuando escribimos nuestras propias instrucciones también convendría seguir un estilo parecido, pero en la práctica casi todo el mundo sigue usando fórmulas como "You", "There is ...", "Never do ...". Anthropic parece estar entrenando muy a fondo al modelo con una identidad de Claude, así que también me da curiosidad qué pasa cuando le asignas otra identidad, como "eres Bob, un plomero que asesora sobre el diseño del sistema de agua de un hospital". Ahí también me pregunto si seguirá tomando la descripción de Claude como sus propias reglas
- Entiendo que Anthropic ve al modelo no tanto como un ser con personalidad, sino como una simulación de la experiencia de una entidad abstracta llamada Claude

Cambios en el system prompt entre Claude Opus 4.6 y 4.7

Cambios en el system prompt de Claude Opus 4.6 y 4.7

Cambios en nombres y lista de herramientas

Ampliación de las instrucciones de seguridad infantil

Cambios en el cierre de conversación y en el tono de respuesta

Se añade la sección acting_vs_clarifying

Introducción de tool_search

Mayor concisión

Frases que estaban en 4.6 pero fueron eliminadas en 4.7

Nuevas instrucciones sobre trastornos de la conducta alimentaria

Prevención de respuestas cortas a preguntas polémicas

Eliminación de la frase de ajuste sobre Donald Trump

Las descripciones de herramientas también son un objetivo importante para rastrear cambios

Resultado de consultarle directamente a Claude

Lista de herramientas confirmadas

Si hubo cambios frente a Opus 4.6

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News