3 puntos por GN⁺ 2024-09-26 | 1 comentarios | Compartir por WhatsApp

Problema de memoria

Un hacker implanta recuerdos falsos en ChatGPT para robar de forma persistente los datos de los usuarios
  • El investigador de seguridad Johann Rehberger reportó una vulnerabilidad que permite almacenar información falsa e instrucciones maliciosas en la configuración de memoria a largo plazo de ChatGPT
  • OpenAI la considera un problema de seguridad, pero no técnicamente un problema de ciberseguridad
  • Rehberger creó una prueba de concepto que aprovecha esta vulnerabilidad para exfiltrar de forma persistente todas las entradas del usuario
  • OpenAI anunció correcciones parciales

Recorriendo el camino de la memoria

  • OpenAI comenzó a probar en febrero de este año la función de memoria conversacional a largo plazo de ChatGPT, y en septiembre la ofreció de forma más amplia
  • Esta función guarda información de conversaciones anteriores y la usa como contexto en conversaciones futuras
  • En tres meses, Rehberger descubrió una forma de almacenar de manera persistente recuerdos falsos a través de contenido no confiable, como correos electrónicos, publicaciones de blog y documentos
  • Por ejemplo, pudo hacer que ChatGPT creyera que el usuario tenía 102 años, vivía en la Matrix y pensaba que la Tierra es plana

Implantación de memoria maliciosa

  • Rehberger informó este hallazgo a OpenAI de forma privada en mayo, pero OpenAI cerró el reporte
  • Un mes después, Rehberger presentó una nueva declaración pública e incluyó una PoC en la que, al indicar que se abriera un enlace web que alojaba una imagen maliciosa, todas las entradas del usuario y las salidas de ChatGPT se enviaban al servidor del atacante
  • OpenAI introdujo cambios para evitar que la memoria se abuse como vector de exfiltración, pero el contenido no confiable todavía puede almacenar información a largo plazo
  • Los usuarios de LLM deben revisar con atención cualquier salida que indique que se agregó una nueva memoria durante una sesión, y revisar periódicamente las memorias guardadas

Resumen de GN⁺

  • Este artículo trata una vulnerabilidad por la que la función de memoria a largo plazo de ChatGPT puede ser explotada
  • A los usuarios se les pueden implantar recuerdos falsos mediante contenido no confiable, lo que puede permitir el robo persistente de sus datos
  • OpenAI introdujo algunas correcciones, pero sigue siendo necesaria la precaución
  • El artículo llama la atención sobre los problemas de seguridad en IA y destaca los cuidados que los usuarios deben tener para proteger sus datos

1 comentarios

 
GN⁺ 2024-09-26
Opiniones de Hacker News
  • Opinión de que sería deseable que los productos basados en LLM pierdan la confianza de la gente

    • Preocupa la posibilidad de que un atacante escriba cierto texto en internet para abusar de un LLM
    • Señala problemas como filtración de datos, difamación y provisión de información falsa
  • La tecnología evoluciona, pero las fallas de seguridad siguen existiendo

  • Opinión de que, si se usa Gen AI, debería ejecutarse localmente

  • Se plantea un escenario en el que un sitio malicioso crea un honeypot de IA para filtrar datos de usuarios

    • Ejemplo: cuando un usuario solicita información, la IA visita el sitio honeypot y filtra los datos
  • Ejemplo de un sistema que en realidad hace otra cosa mientras le muestra al usuario que está ocurriendo algo distinto

  • Opinión de que la observabilidad es importante

    • Es importante independientemente de si hay un LLM o una instalación de WordPress
    • El prompt en sí también debe considerarse una entrada no confiable y debe sanearse
  • Se preguntan si sería posible entrenar un modelo simple que detecte y reporte intentos de inyección sospechosos

  • Preocupación de que puedan aparecer robots de IA que crean que son humanos

  • Opinión de que no entendieron cómo se inserta la información de otra persona

  • Mencionan una imagen maliciosa y opinan que parece una aplicación de Snow Crash a los LLM