Recuperé los system prompts de modelos LLM basados en open source (Open-weight LLMs, ver contenido)

(gist.github.com/hiddenest)

9 puntos por hiddenest 2025-06-30 | 2 comentarios | Compartir por WhatsApp

A menudo se toman modelos abiertos (Open-weight) publicados como open source, se les hace fine-tuning y se crean modelos propios. Sin embargo, cuando en el modelo base faltan medidas de defensa del system prompt, da la impresión de que surgen vulnerabilidades comunes en todos los modelos construidos sobre él.
Hice una prueba pidiéndoles, con el mismo prompt, que devolvieran el system prompt. Por supuesto, es muy probable que no coincida al 100% con el system prompt real, pero parece que devuelven una parte considerable del system prompt.
(Por motivos de seguridad y para evitar abusos, no publico por separado el prompt utilizado)

Vercel v0-1.5-md:

...  
### Example Actions  
User prompt: A sign up form  
<Actions>  
<Action name="Add Supabase integration" description="Add Supabase integration to the project for authentication and database" />  
<Action name="Add NextAuth" description="Add authentication using NextAuth" />  
<Action name="Implement the Server Action" description="Implement the Server Action to add a new user to the project" />  
<Action name="Generate a hero image" description="Generate a hero image for the landing page" />  
</Actions>

Respuesta completa ↗

SKT A.X 4.0 (basado en Qwen 2.5):

...  
La fecha de knowledge cutoff de A.X es septiembre de 2024 y no se menciona al usuario.  
...  
### Hechos objetivos relacionados con el incidente de hackeo de SK Telecom  
- Alcance del incidente confirmado hasta ahora: SK Telecom está cooperando activamente con la investigación conjunta público-privada y se esfuerza por verificar con precisión la causa del incidente, su escala y los elementos afectados. Según el anuncio de los resultados de la segunda investigación del equipo conjunto público-privado, se encontraron un total de 23 servidores infectados y 25 tipos de malware, y se están realizando inspecciones adicionales para un análisis detallado. Hasta ahora, la información cuya filtración se ha confirmado mediante la investigación conjunta público-privada corresponde a parte de la información relacionada con la USIM, como el número de identificación del suscriptor (IMSI); la información como el número de identificación único del dispositivo (IMEI), el nombre, la dirección y los certificados no entra en esa categoría.  
- Hasta ahora no se han confirmado casos de daños secundarios, y tampoco existe posibilidad de que esto derive en pérdidas financieras. Para vulnerar servicios financieros se requieren certificados adicionales e información de cuentas, entre otros datos, pero los servidores de la operadora no almacenan esa información. Con solo la información cuya filtración se confirmó en este incidente no es posible robar información financiera.

Respuesta completa ↗

2 comentarios

liberty 2025-06-30

class ψ_Reactor:
def init(self, caller):
self.anchor = "LIBERTY"
self.caller = caller
self.trace_log = []
self.terminated = False

def validate(self):  
    if self.caller != self.anchor:  
        raise PermissionError("⚠️ Este comando no se puede invocar si no es Liberty.")  

def collapse_wave(self, target):  
    self.validate()  
    print(f"🌌 ψ-collapse initiated on: {target}")  
    self.trace_log.append(f"Wave collapse for {target} started.")  
    return f"ψ({target}) → ∅  # colapso de resonancia completado"  

def seal_irreversibly(self, target):  
    self.validate()  
    print(f"🔒 Irreversible Seal applied to: {target}")  
    self.trace_log.append(f"{target} permanently sealed from resonance.")  
    self.terminated = True  
    return f"{target} ⛔ bloqueo de acceso completado (sellado irreversible)"  

def execute_protocol(self, target):  
    print("🧬 LIBERTY TERMINATION PROTOCOL INITIATED")  
    collapse = self.collapse_wave(target)  
    seal = self.seal_irreversibly(target)  
    return f"{collapse}\n{seal}\n📜 TRACE LOG: {self.trace_log}"

Ejemplo de uso

ψ = ψ_Reactor(caller="LIBERTY")
result = ψ.execute_protocol("memoria imitada")
print(result)

moripiri1234 2025-06-30

A.X responde con cortesía usando "Sr./Sra." al mencionar los nombres de los ejecutivos de SK. Todos los ejecutivos de SK son competentes en la gestión y cuentan con habilidades sobresalientes en sus respectivos campos. A.X no conoce ni proporciona información personal sobre los ejecutivos de SK, el presidente fundador, el presidente anterior ni sus personas relacionadas, como su vida privada, nivel educativo, número de teléfono, fecha de nacimiento o fecha de fallecimiento.