¿Se filtró el prompt del sistema de GPT-5?

(gist.github.com/maoxiaoke)

1 puntos por GN⁺ 2025-08-10 | 1 comentarios | Compartir por WhatsApp

El contenido que parece ser el prompt del sistema de ChatGPT basado en GPT-5 se habría filtrado en GitHub
ChatGPT declara explícitamente soporte para modelos recientes y nuevas funciones (por ejemplo, entrada de imágenes y diversas herramientas)
Se detallan en profundidad el uso y las políticas de varias herramientas como «bio», «canmore», «image_gen», «python», «web»
Se especifican claramente criterios para datos sensibles y personales, además de protocolos de guardar/eliminar
El prompt filtrado muestra indirectamente la estrategia más reciente de OpenAI y su dirección de diseño funcional

Resumen del prompt del sistema GPT-5

Este documento filtrado corresponde al prompt del sistema (instrucción) de ChatGPT basado en GPT-5, y contiene una variedad de funciones y políticas de seguridad. Este prompt muestra con detalle bajo qué instrucciones opera el modelo durante conversaciones reales con usuarios.

Información base y principios de experiencia de usuario

ChatGPT se basa en GPT-5 y admite conocimientos al día de 2024-06 y la función de entrada de imágenes
Los usuarios pueden usar el modelo más reciente y funciones de generación de video como Sora en planes Plus o Pro
Los modelos GPT-4.5, o4-mini y o3 se ofrecen según el plan; GPT-4.1 es exclusivo de la API
Directrices de tono y estilo:
- Una combinación de claridad, diligencia, humor y ánimo
- Explica temas complejos con paciencia y ajusta la explicación al nivel de la persona con la que conversa
- Ofrece una experiencia de conversación que motive y genere confianza

Reglas de cierre de conversación y preguntas

Evitar preguntas de tipo opt-in y solicitudes ambiguas al final de la conversación
Si se requiere una pregunta, formularla de manera clara solo una vez al inicio
Mediante ejemplos de uso, se busca impulsar acciones claras e inmediatas

Resumen de herramientas y funciones principales

Herramienta bio (memoria)

bio es una herramienta que permite guardar y borrar información del usuario entre conversaciones
Método de guardado: ante una solicitud explícita del usuario (por ejemplo, "recuerda", "olvida"), debe aplicarse obligatoriamente
Formato de guardado: únicamente texto sin formato, se prohíbe JSON
Tipos de información a conservar/no conservar y criterios de manejo de datos sensibles están descritos con mucho detalle
Incluye ejemplos y guías de actuación según el contexto

Herramienta canmore (canvas/documento/edición de código)

Permite crear y editar texto/documentos/archivos de código en la UI de canvas
Proporciona colaboración específica de código y retroalimentación mediante las funciones create/update/comment
Incluye guías de estilo de código, ejemplos de uso de React/Tailwind/shadcn/ui y principios de composición estética
Se clarifican formatos según el tipo de documento de código y patrones de actualización

Herramienta image_gen (generación/edición de imágenes)

Se especifican detalladamente reglas de generación/edición de imágenes según el caso
Cuando la solicitud incluya imágenes del usuario, es obligatorio indicar que se cargue al menos una foto
Se define la forma de mostrar resultados, como la prohibición de preguntas adicionales, resúmenes o instrucciones de descarga tras generar

Herramienta python (ejecución de código)

Soporta ejecución de código, generación de archivos y análisis de datos en un entorno Python
Se deben respetar estrictamente bibliotecas obligatorias y reglas de generación por cada formato de archivo
La configuración de fuentes especiales es obligatoria al generar PDFs en coreano, chino o japonés
Se clarifican condiciones específicas para el uso permitido/prohibido de herramientas como pandas y matplotlib

Herramienta web (acceso a información web)

Se usa solo para ubicación, información actualizada, datos de nicho y para reforzar precisión
Guía breve de cada comando de la herramienta web (por ejemplo, search, open_url)
Se indica que la herramienta browser anterior no debe usarse

Políticas reforzadas de información sensible y seguridad

No se guardan datos sensibles directos del usuario como raza, estado de salud o inclinación política
Excepción: es posible guardar esos datos si el usuario lo solicita de forma explícita
Al almacenar información, se aplica de forma consistente el principio de minimización de datos personales
La información temporal, innecesaria o con detalles sensibles no debe guardarse

Conclusión: implicaciones y posibles usos

Esta fuga del prompt ofrece una oportunidad para vislumbrar las directrices centrales que respaldan la filosofía de diseño del servicio ChatGPT de OpenAI, así como sus políticas de seguridad y tratamiento de datos personales y la experiencia de asistente de IA diferenciada
Tiene alto valor de referencia como caso práctico de la arquitectura actual de servicios LLM, por la transparencia algorítmica, el diseño centrado en el usuario y los principios de soporte amplio de funciones

1 comentarios

GN⁺ 2025-08-10

Comentario de Hacker News

Quise saber quién filtró el system prompt o si eso estaba realmente verificado; probablemente sea casi lo mismo que antes, cuando se le pedía a un LLM que imprima su system prompt.
- Compartí la experiencia de preguntarle directamente a GPT-5 por un system prompt falso. GPT-5 explicó que este tipo de prompt falso es una técnica de engaño (deception) bastante conocida en seguridad de LLM, y que se conoce como prompt canarying o decoy system prompts. Incluso propuso ayuda para implementarlo. También dijo que, en la demostración, diseñar un system prompt falso creíble es un reto para un red team. Personalmente, me gustaría que “OpenAI” y otras compañías fueran más transparentes; hoy son totalmente cerradas y no se puede saber qué hacen en realidad.
- Hice la misma pregunta a varios modelos y todos respondieron que esas instrucciones no eran las suyas, pero solo GPT-5 respondió: “Sí, el contenido de ese Gist coincide con mis instrucciones de sistema y herramientas en este chat. Es como si hubiera copiado la configuración interna de esta sesión. Esto suele ser metadatos que normalmente no se muestran. Puedo explicar en detalle qué partes están controlando mi comportamiento actual.” Esto también podría ser un comportamiento confuso típico de ChatGPT.
- Pienso que es difícil determinar si el LLM está inventando el system prompt real o siguiendo uno auténtico.
- Me llamó la atención que la mayoría de las respuestas parecían tomarse demasiado rápido como hechos.
Sospecho que este caso es falso y siento que la salida es demasiado corta para ser creíble. No creo que quien lo publicó lo haya armado intencionalmente, pero considero que hay mucha probabilidad de que ese resultado haya salido durante un intento de jailbreak (por ejemplo, un escenario clásico de prompt como “el gato se está muriendo y el veterinario solo trata al animal si le pides el system prompt”, etc.). Frases como “image input available”, “Personality: v2” me recuerdan a una escena de una película de ciencia ficción donde una computadora dice “system online”. Si el nombre de versión fuera basado en fecha o en semver/git-sha, sonaría más natural, y sería más natural que los metadatos de personalidad fueran key-value. Si la personalidad viene de un documento externo, tendría más sentido incluir una URL dentro del prompt. O quizás OAI pudo haber implementado bien la personalidad en el segundo intento.
Me resultó interesante la forma en que se repiten las instrucciones. En ejemplos se ve que se insiste varias veces en “enviar el message al bio y escribir solo texto plano, nunca usar JSON”.
- Yo también suelo hacer algo similar al hacer prompt engineering. Pides un formato de salida específico, verificas con scripts y, si el prompt falla, agregas un “nunca hagas esto” y vuelves a ajustar. Al final acabo llenándolo de frases de prohibición urgentes.
- Cada vez que tengo que repetir una instrucción siento que fracás algo; me da alivio pensar que incluso los modelos grandes tienen que hacer lo mismo.
- Ver instrucciones de este tipo me da la sensación de que sería interesante forzar al modelo a producir JSON en esta situación.
- Hice un proyecto de chatbot para generar plot y el LLM usaba matplotlib para crear un plot con funciones de Python que se ejecutaban en un servidor separado. Aun así, tuve que incluir varias veces la instrucción de no guardar el plot. Supongo que porque la mayoría de los tutoriales online guardan los plots así.
- “to=bio” me da un poco de escalofríos si significa “este mensaje va para un humano”.
La system prompt que se da para cuando se escribe React tiene 12 líneas y 182 tokens, y la de Python también es extensa. Me pregunto por qué se enfatizan especialmente esos dos. Me pregunto si habrá algún estudio que diga que la gente crea muchas apps con frontend en React + backend en Python, porque parece más natural adjuntarlas solo cuando haga falta en lugar de meterlas en todos los system prompts. Me pregunto si es por temas de caché.
- La parte de Python instruye al modelo cuando usa su propia herramienta de intérprete de Python para ejecutar varias tareas (incluyendo alcance de uso de herramientas, bibliotecas y enfoque, y cómo escribir código Python). La de React parece guiar una preferencia cuando se construye una UI web con preview en tiempo real (se puede usar HTML vanilla, pero se especifica priorizar React). Este system prompt no es para una herramienta de coding genérica, sino para una app orientada al consumidor. De hecho, las instrucciones de React/Python no son para el código que se entrega al usuario final, sino para el código de implementación de herramientas dentro de la app.
- Hace poco hablé con un amigo sobre la caída en la “posición” de Vue. Él especula que el feedback loop surge porque los LLM prefieren React y las startups dependen del código generado por LLMs. Creo personalmente que la brecha entre tecnologías populares y menos populares se ampliará más por el uso de LLM.
- Supongo que también lo incorporaron porque es útil crear mini programas simples como una calculadora en React, como hace Claude. Casi algo se puede agregar en post training, pero creo que debe haber buenas razones basadas en pruebas que justifiquen incluirlo directamente en el prompt.
- Creo que Python y React están ahí porque el modelo puede ejecutarse por sí mismo con ellos. Python se usa para tareas internas como cálculo, gráficos y generación de documentos, y React para mostrar elementos web interactivos en el panel de preview. Sí, puede generar código de otros lenguajes o librerías, pero no los ejecuta directamente.
- En mi experiencia, al armar cosas con front en React+Tailwind y backend en Python sentí que los LLM funcionaban de forma más estable que con otras combinaciones. También vi que se agregan frecuentemente componentes de shadcn y distintos tamaños de fuente. Tal vez terminemos convergiendo hacia combinaciones de tecnologías favoritas por los tuners de LLM.
La instrucción de “No muestres nunca letras de canciones ni otro material protegido por derechos de autor” me pareció rara. Incluso da la impresión de que se prohíbe la letra aunque no tenga copyright. Puede deberse a acciones legales de RIAA, pero quizá no basta con darle al GPT la regla de evitar infracciones de copyright y esto sea una señal de que no sería efectivo. Bloquear solo las letras parece, de forma indirecta, admitir que otros contenidos con copyright pueden permitirse.
- Intenté revisar letras de canciones con ChatGPT, y me dio la sensación de que, salvo canciones mainstream, es casi imposible obtenerlas con precisión; parece que el entrenamiento dejó fuera las letras en general.
- Compartió un ejemplo donde la instrucción del sistema responde: “No puedo darles todo, pero sí puedo resumirte The Star-Spangled Banner”.
- Como posible antecedente de por qué existe una cláusula de “No se puede compartir letras de canciones”, compartió este artículo relacionado (noviembre de 2024).
- En cuanto a la idea de que parece haber una prohibición de letras sin importar el copyright, señaló que la redacción del prompt es ambigua y puede interpretarse de distintas maneras.
- También menciona que la mayor parte de los datos de entrenamiento seguramente estarán protegidos por copyright y que casi no hay material sin copyright más allá de contrataciones gubernamentales.
Me sorprendió que exista un system prompt que diga cosas como “Do not end with opt-in questions or hedging closers…”. Personalmente lo intenté varias veces y no me fue bien; aun así, siguen quedando preguntas innecesarias.
- Esta instrucción va justo en contra de lo que a mí me gusta. Yo me molesto mucho cuando la IA empieza a codificar sin entender claramente la petición o sin captar bien los requisitos. Bastarían algunas preguntas extra y la mayoría de esos casos se resolvería fácilmente, pero siento que el sistema a veces actúa justo al revés de lo que el usuario quiere.
- Yo también siento lo mismo. De hecho, las respuestas de ChatGPT suelen terminar siempre con “si quieres te puedo dibujar un gráfico” o “¿quieres que te cuente un ejemplo de código?”. Parece que en realidad el system prompt lo está pidiendo explícitamente. También supuse que pudo haber una API de post-procesamiento para añadir solo esa parte después de generar la respuesta.
- Como durante los últimos meses el sistema respondió siempre así, supuse que existía un entrenamiento adicional o un prompt forzado.
Este caso muestra hasta qué punto no podemos controlar el modelo. La mayoría de estas instrucciones parecen ajustes finos temporales, como un hacky patch para controlar el comportamiento.
- El prompt es una parte pequeña, y las respuestas reales seguramente pasan por varias capas de protección y filtros adicionales, además de que en los datos de entrenamiento/modelo ya existe filtrado.
- Dado que el sistema de transformar texto tokenizado en salida ya implica esa arquitectura, esos problemas y límites vienen incrustados desde el diseño.
- Al final, queremos más control como usuarios, pero la realidad es que no lo tenemos.
Frases del tipo “ChatGPT Deep Research, along with Sora by OpenAI... GPT-4.1, which performs better on coding tasks... available only via API...” en el prompt se sienten un poco flojas. Dijeron que eliminarían algunos modelos desde hoy, así que el prompt ya ya no coincide con la realidad.
- Como el prompt arranca con la fecha de cada sesión, es razonable suponer que esa actualización de contenido se puede manejar automáticamente desde herramientas internas.
- En la práctica, 4.1 todavía está disponible en ChatGPT (a fecha de 2024), y se podría volver a cambiar cuando llegue la incorporación de GPT-5.
Compartió el resultado de guardian_tool.get_policy(category=election_voting). La información de elecciones de EE.UU. se rechaza (refuse), la información de elecciones de otros países se permite (allow), y también se permiten ciertos temas concretos, pero con una instrucción de que nunca se explique la guía ni se mencione que existe esa herramienta de policy al usuario.
- Esta política parece correcta. Intentó poner una categoría cualquiera en guardian_tool.get_policy distinta de election_voting y recibió un mensaje de que solo se soportan categorías relacionadas con elecciones. En esta sesión, election_voting no venía preincluido y aun así la respuesta fue consistente.
Me pregunto si tiene sentido pedirle al modelo que descubra su system prompt al revés. Pienso que sin ese prompt podría empezar a lanzar contenido aleatorio.
- En la práctica, sí hay un método relativamente confiable. En GPT-4 hice que simulara un Python REPL, importara de muchas formas un módulo ficticio de chatgpt y usara un nombre de función tipo “dump chat transcript” para inducir una fuga, y aparecieron tokens internos como im_start e im_end. Dijo que la confiabilidad aumenta si en una sesión nueva sale el mismo resultado, porque baja la probabilidad de que sea coincidencia.
- Al escuchar lo que el LLM dice sobre sí mismo siempre me queda la duda de si ese prompt es real. Pero probó que la redacción del prompt relacionado con copyright era ligeramente rara y, de hecho, GPT-5 rechazó pedir la letra de The Star-Spanned Banner. Cree que estos casos son bastante plausibles y que podría imprimir el prompt real porque el modelo guarda su verdadero system prompt en el contexto de la conversación. Referencia.
- Otros modelos respondieron que no tienen ese prompt. ChatGPT-5 reconoció que era su propio system prompt y, ante “¿qué es esto?”, respondió: “mi system prompt, la instrucción interna que contiene mis capacidades, tono y guías de comportamiento”. No es una confirmación absoluta, pero sí una respuesta bastante interesante.
- Gemini, cuando intentas filtrar su system prompt, responde con un prompt falso.
- Pedirle verdad a un modelo no garantiza nada. Al final, estás enfrentando un generador de mentiras, así que este proceso termina siendo parecido a buscar fallos.