- Simon Willison publicó un video, diapositivas y la transcripción
- Prompt Injection = "un ataque contra aplicaciones construidas sobre modelos de IA"; "no es un ataque contra el modelo de IA"
- Demostraciones de ejemplos de inyección de traducción y de una página que ataca a Bing ejecutándose en la barra lateral de Edge
- ¿Qué pasa si mi asistente de IA empieza a obedecer las órdenes de otra persona? (por ejemplo, un prompt que le indica reenviar un correo de restablecimiento de contraseña a algún otro lugar)
- Hay soluciones propuestas para esto, como prompt begging, pero no funcionan bien
- Mi propuesta... no es excelente, pero quizá podría mitigar algo con un patrón de Dual Language Model
- Construir el asistente de IA con dos LLM distintos: Privileged LLM y Quarantined LLM
- Privileged LLM
- Puede acceder a herramientas
- Solo procesa entradas confiables
- Le da instrucciones al Quarantined LLM, pero no ve ni su entrada ni su salida
- Opera solo con tokens: "Summarize text $VAR1"
- "Display $SUMMARY2 to the User"
- Quarantined LLM
- Procesa tareas sobre entradas no confiables (como resúmenes)
- No puede acceder a nada más
- Se asume que todas las entradas y salidas están contaminadas; no pasa nada directamente al Privileged LLM
- La prompt injection es una vulnerabilidad de seguridad muy grave que es imposible mitigar si no se entiende
- Todas las aplicaciones construidas sobre modelos de lenguaje son vulnerables a este problema por defecto
- Como no hay solución para la prompt injection, a veces hay que decir "No" si eso significa que no se puede desarrollar una aplicación de forma segura
- Como desarrollador, realmente no me gusta ser la persona que dice "eso no se puede", pero en este caso creo que es realmente importante
Aún no hay comentarios.