Qué es la Prompt Injection

xguru · 2023-05-17T11:05:01+09:00

Simon Willison publicó un video, diapositivas y la transcripción Prompt Injection = "un ataque contra aplicaciones construidas sobre modelos de IA"; "no es un ataque contra el modelo de IA" Demostraciones de ejemplos de inyección de traducción y de una página que ataca a Bing ejecutándose en la barra lateral de Edge ¿Qué pasa si mi asistente de IA empieza a obedecer las órdenes de otra persona? (por ejemplo, un prompt que le indica reenviar un correo de restablecimiento de contraseña a algún otro lugar) Hay soluciones propuestas para esto, como prompt begging, pero no funcionan bien Mi propuesta... no es excelente, pero quizá podría mitigar algo con un patrón de Dual Language Model Construir el asistente de IA con dos LLM distintos: Privileged LLM y Quarantined LLM Privileged LLM Puede acceder a herramientas Solo procesa entradas confiables Le da instrucciones al Quarantined LLM, pero no ve ni su entrada ni su salida Opera solo con tokens: "Summarize text $VAR1" "Display $SUMMARY2 to the User" Quarantined LLM Procesa tareas sobre entradas no confiables (como resúmenes) No puede acceder a nada más Se asume que todas las entradas y salidas están contaminadas; no pasa nada directamente al Privileged LLM La prompt injection es una vulnerabilidad de seguridad muy grave que es imposible mitigar si no se entiende Todas las aplicaciones construidas sobre modelos de lenguaje son vulnerables a este problema por defecto Como no hay solución para la prompt injection, a veces hay que decir "No" si eso significa que no se puede desarrollar una aplicación de forma segura Como desarrollador, realmente no me gusta ser la persona que dice "eso no se puede", pero en este caso creo que es realmente importante

(simonwillison.net)

21 puntos por xguru 2023-05-17 | Aún no hay comentarios. | Compartir por WhatsApp

Simon Willison publicó un video, diapositivas y la transcripción
Prompt Injection = "un ataque contra aplicaciones construidas sobre modelos de IA"; "no es un ataque contra el modelo de IA"
Demostraciones de ejemplos de inyección de traducción y de una página que ataca a Bing ejecutándose en la barra lateral de Edge
¿Qué pasa si mi asistente de IA empieza a obedecer las órdenes de otra persona? (por ejemplo, un prompt que le indica reenviar un correo de restablecimiento de contraseña a algún otro lugar)
Hay soluciones propuestas para esto, como prompt begging, pero no funcionan bien
Mi propuesta... no es excelente, pero quizá podría mitigar algo con un patrón de Dual Language Model
- Construir el asistente de IA con dos LLM distintos: Privileged LLM y Quarantined LLM
- Privileged LLM
  - Puede acceder a herramientas
  - Solo procesa entradas confiables
  - Le da instrucciones al Quarantined LLM, pero no ve ni su entrada ni su salida
  - Opera solo con tokens: "Summarize text $VAR1"
  - "Display $SUMMARY2 to the User"
- Quarantined LLM
  - Procesa tareas sobre entradas no confiables (como resúmenes)
  - No puede acceder a nada más
  - Se asume que todas las entradas y salidas están contaminadas; no pasa nada directamente al Privileged LLM
La prompt injection es una vulnerabilidad de seguridad muy grave que es imposible mitigar si no se entiende
Todas las aplicaciones construidas sobre modelos de lenguaje son vulnerables a este problema por defecto
Como no hay solución para la prompt injection, a veces hay que decir "No" si eso significa que no se puede desarrollar una aplicación de forma segura
Como desarrollador, realmente no me gusta ser la persona que dice "eso no se puede", pero en este caso creo que es realmente importante

Qué es la Prompt Injection

Lecturas relacionadas

Aún no hay comentarios.