Problema de memoria
Un hacker implanta recuerdos falsos en ChatGPT para robar de forma persistente los datos de los usuarios
- El investigador de seguridad Johann Rehberger reportó una vulnerabilidad que permite almacenar información falsa e instrucciones maliciosas en la configuración de memoria a largo plazo de ChatGPT
- OpenAI la considera un problema de seguridad, pero no técnicamente un problema de ciberseguridad
- Rehberger creó una prueba de concepto que aprovecha esta vulnerabilidad para exfiltrar de forma persistente todas las entradas del usuario
- OpenAI anunció correcciones parciales
Recorriendo el camino de la memoria
- OpenAI comenzó a probar en febrero de este año la función de memoria conversacional a largo plazo de ChatGPT, y en septiembre la ofreció de forma más amplia
- Esta función guarda información de conversaciones anteriores y la usa como contexto en conversaciones futuras
- En tres meses, Rehberger descubrió una forma de almacenar de manera persistente recuerdos falsos a través de contenido no confiable, como correos electrónicos, publicaciones de blog y documentos
- Por ejemplo, pudo hacer que ChatGPT creyera que el usuario tenía 102 años, vivía en la Matrix y pensaba que la Tierra es plana
Implantación de memoria maliciosa
- Rehberger informó este hallazgo a OpenAI de forma privada en mayo, pero OpenAI cerró el reporte
- Un mes después, Rehberger presentó una nueva declaración pública e incluyó una PoC en la que, al indicar que se abriera un enlace web que alojaba una imagen maliciosa, todas las entradas del usuario y las salidas de ChatGPT se enviaban al servidor del atacante
- OpenAI introdujo cambios para evitar que la memoria se abuse como vector de exfiltración, pero el contenido no confiable todavía puede almacenar información a largo plazo
- Los usuarios de LLM deben revisar con atención cualquier salida que indique que se agregó una nueva memoria durante una sesión, y revisar periódicamente las memorias guardadas
Resumen de GN⁺
- Este artículo trata una vulnerabilidad por la que la función de memoria a largo plazo de ChatGPT puede ser explotada
- A los usuarios se les pueden implantar recuerdos falsos mediante contenido no confiable, lo que puede permitir el robo persistente de sus datos
- OpenAI introdujo algunas correcciones, pero sigue siendo necesaria la precaución
- El artículo llama la atención sobre los problemas de seguridad en IA y destaca los cuidados que los usuarios deben tener para proteger sus datos
1 comentarios
Opiniones de Hacker News
Opinión de que sería deseable que los productos basados en LLM pierdan la confianza de la gente
La tecnología evoluciona, pero las fallas de seguridad siguen existiendo
Opinión de que, si se usa Gen AI, debería ejecutarse localmente
Se plantea un escenario en el que un sitio malicioso crea un honeypot de IA para filtrar datos de usuarios
Ejemplo de un sistema que en realidad hace otra cosa mientras le muestra al usuario que está ocurriendo algo distinto
Opinión de que la observabilidad es importante
Se preguntan si sería posible entrenar un modelo simple que detecte y reporte intentos de inyección sospechosos
Preocupación de que puedan aparecer robots de IA que crean que son humanos
Opinión de que no entendieron cómo se inserta la información de otra persona
Mencionan una imagen maliciosa y opinan que parece una aplicación de Snow Crash a los LLM