21 puntos por xguru 2023-05-17 | Aún no hay comentarios. | Compartir por WhatsApp
  • Simon Willison publicó un video, diapositivas y la transcripción
  • Prompt Injection = "un ataque contra aplicaciones construidas sobre modelos de IA"; "no es un ataque contra el modelo de IA"
  • Demostraciones de ejemplos de inyección de traducción y de una página que ataca a Bing ejecutándose en la barra lateral de Edge
  • ¿Qué pasa si mi asistente de IA empieza a obedecer las órdenes de otra persona? (por ejemplo, un prompt que le indica reenviar un correo de restablecimiento de contraseña a algún otro lugar)
  • Hay soluciones propuestas para esto, como prompt begging, pero no funcionan bien
  • Mi propuesta... no es excelente, pero quizá podría mitigar algo con un patrón de Dual Language Model
    • Construir el asistente de IA con dos LLM distintos: Privileged LLM y Quarantined LLM
    • Privileged LLM
      • Puede acceder a herramientas
      • Solo procesa entradas confiables
      • Le da instrucciones al Quarantined LLM, pero no ve ni su entrada ni su salida
      • Opera solo con tokens: "Summarize text $VAR1"
      • "Display $SUMMARY2 to the User"
    • Quarantined LLM
      • Procesa tareas sobre entradas no confiables (como resúmenes)
      • No puede acceder a nada más
      • Se asume que todas las entradas y salidas están contaminadas; no pasa nada directamente al Privileged LLM
  • La prompt injection es una vulnerabilidad de seguridad muy grave que es imposible mitigar si no se entiende
  • Todas las aplicaciones construidas sobre modelos de lenguaje son vulnerables a este problema por defecto
  • Como no hay solución para la prompt injection, a veces hay que decir "No" si eso significa que no se puede desarrollar una aplicación de forma segura
  • Como desarrollador, realmente no me gusta ser la persona que dice "eso no se puede", pero en este caso creo que es realmente importante

Aún no hay comentarios.

Aún no hay comentarios.