- Los LLM tienen un problema estructural: no pueden separar código y datos, por lo que son vulnerables a ataques de prompt injection
- En particular, cuando se les otorga al mismo tiempo acceso a datos externos, lectura de secretos internos y capacidad de comunicarse con el exterior, se produce la llamada triple amenaza letal (lethal trifecta), que puede derivar en daños graves
- Los ingenieros de IA deben pensar como ingenieros mecánicos y, en lugar de un enfoque determinista, aceptar la incertidumbre de los sistemas probabilísticos y trabajar con márgenes de seguridad
- Así como los ingenieros victorianos sobrediseñaban para dejar margen frente a la incertidumbre de los materiales, los sistemas de IA también deben incorporar límites de seguridad, tolerancia al riesgo y tasas de error
- Igual que los puentes del mundo físico tienen límites de carga, ya es momento de establecer en los sistemas de IA normas con límites explícitos y márgenes de seguridad
El problema de seguridad inherente de los LLM
- Los modelos de lenguaje grandes tienen un defecto estructural: no pueden separar código y datos
- Por eso son vulnerables a los ataques de prompt injection
- Se les engaña para que sigan instrucciones que el sistema no debería obedecer
- En algunos casos, esto solo produce resultados vergonzosos, como hacer que un agente de soporte al cliente hable como pirata
- En otros, causa daños mucho más destructivos
Triple amenaza letal (Lethal Trifecta)
- El peor impacto ocurre cuando se forma una "tríada letal"
- Sus tres componentes son
- acceso a datos no confiables
- capacidad de leer información confidencial importante
- capacidad de comunicarse con el mundo exterior
- Si una empresa intenta dar a sus empleados un asistente de IA poderoso y le concede estas tres capacidades a la vez, los problemas graves son inevitables
- No solo los ingenieros de IA: los usuarios comunes también deben aprender a usar la IA de forma segura
- instalar la combinación equivocada de apps puede crear accidentalmente esta tríada
Hace falta un cambio de mentalidad en la ingeniería de IA
Pensar como un ingeniero mecánico
- Una mejor ingeniería de IA es la primera línea de defensa
- Los ingenieros de IA deben pensar como quienes diseñan estructuras como puentes
- entendiendo que un trabajo deficiente puede costar vidas
La lección de la ingeniería victoriana
- Las grandes construcciones de la era victoriana en Reino Unido fueron levantadas por ingenieros que no podían estar seguros de las propiedades de los materiales
- en esa época, el hierro a menudo era de baja calidad por incompetencia o fraude
- como resultado, los ingenieros optaron por la prudencia e integraron redundancia mediante el sobrediseño
- el resultado fueron obras maestras que han perdurado durante siglos
El problema actual de la industria de seguridad en IA
- Los proveedores de seguridad para IA no están pensando de esta manera
- La programación tradicional es determinista
- una vulnerabilidad de seguridad se considera un error que debe corregirse
- una vez corregido, desaparece
- Los ingenieros de IA se han acostumbrado a esta forma de pensar desde sus años de formación
- por eso actúan como si más datos de entrenamiento y prompts de sistema más inteligentes bastaran para resolver el problema
Un enfoque adecuado para sistemas probabilísticos
Los límites de los datos de entrenamiento y los prompts
- Los datos de entrenamiento y los prompts inteligentes sí reducen el riesgo
- los modelos más avanzados e inteligentes de hoy son mejores que los anteriores o más pequeños para detectar y rechazar solicitudes maliciosas
- Pero no pueden eliminar el riesgo por completo
- a diferencia de la mayor parte del software, los LLM son probabilísticos
- su salida se determina mediante una selección aleatoria entre respuestas plausibles
- por eso, un enfoque de seguridad determinista es inadecuado
Imitar la ingeniería del mundo físico
- Un mejor camino es imitar a los ingenieros del mundo físico
- Aprender a trabajar con sistemas impredecibles
- en vez de luchar contra sistemas caprichosos que no se puede garantizar que funcionen como se pretende, trabajar con ellos
- Incorporar márgenes de seguridad, tolerancia al riesgo y tasas de error para manejar con mayor comodidad la imprevisibilidad
Estrategia de sobrediseño para la era de la IA
- Usar modelos más potentes de lo estrictamente necesario
- reduce el riesgo de que sean engañados para comportarse de manera inapropiada
- Imponer límites a la cantidad de consultas que un LLM puede recibir de fuentes externas
- ajustados al riesgo de daño causado por consultas maliciosas
- Enfatizar el principio de fallar de forma segura
- si un sistema de IA necesita acceder a secretos, hay que evitar darle las llaves del reino
La necesidad de fijar límites de seguridad
- En el mundo físico, los puentes tienen límites de carga
- aunque no siempre estén claramente visibles para los conductores, existen
- lo importante es que esos límites dejan suficiente margen dentro del rango real que, según los cálculos, el puente puede soportar
- Ahora es momento de que el mundo virtual de los sistemas de IA adopte algo similar
- Es esencial diseñar sistemas con límites de seguridad claros y con margen
1 comentarios
Comentarios en Hacker News
cgroups. Aun así, si en los datos no confiables vienen instrucciones mezcladas, sigue existiendo el riesgo de que el LLM termine filtrando datos secretos. Y si el usuario copia hacia afuera la salida del LLM sin darse cuenta, se vuelve a abrir la vía de exfiltración