Si no se puede detener la inyección de prompts, ¿qué hacer? Meta propone 3 principios de diseño

(aisparkup.com)

19 puntos por davespark 2025-11-04 | 5 comentarios | Compartir por WhatsApp

Simon Willison publicó un artículo en el que analiza dos investigaciones recientes sobre la inyección de prompts.

Los ataques de inyección de prompts en IA son difíciles de bloquear por completo con las técnicas de defensa actuales. Meta reconoce esto y propone minimizar el riesgo mediante un principio de diseño de sistemas llamado "Agents Rule of Two".

Puntos clave:

Riesgos y vulnerabilidades: un atacante puede insertar instrucciones maliciosas en la IA y provocar filtración de datos personales o phishing. Se destaca un estudio en el que 12 sistemas de defensa fueron vulnerados en más del 90% de los casos.
Principio Rule of Two: diseñar agentes de IA para que tengan solo 2 de estas 3 propiedades (A, B, C) al mismo tiempo.
- [A] Procesar entradas no confiables
- [B] Acceder a sistemas sensibles o datos personales
- [C] Cambiar estado o comunicarse con el exterior
- Ejemplo: un bot de correo puede tener A (entrada) + C (comunicación), pero B (datos personales) está prohibido.
Enfoque realista: reducir el riesgo mediante el diseño, en lugar de buscar una defensa perfecta.

Conclusión: como la inyección de prompts es inevitable, hay que rediseñar los sistemas de IA con principios como Rule of Two. Se considera una alternativa práctica.

5 comentarios

darjeeling 2025-11-05

Después de leer la traducción, definitivamente parece que sí hubo una inyección de prompt.
"experto en seguridad de IA Simon Willison" <= incorrecto

davespark 2025-11-05

Simon Willison es un famoso desarrollador web que creó Django, y además desarrolla herramientas para LLM, escribe mucho sobre IA y también da muchas charlas sobre el tema. También ha mostrado mucho interés por la seguridad en IA y ha publicado bastante al respecto. Por eso, en el contexto de este artículo, no me parece para nada incorrecto llamarlo un "experto en seguridad de IA". Creo que tiene conocimientos y criterio más que suficientes sobre seguridad en IA, así que lo escribí así a propósito. (Así que no es una inyección ^^)

savvykang 2025-11-05

Entonces, en resumen, ¿quiere decir que le pusieron ese título para facilitar la explicación? En la página "about" del blog sí hay una sección de IA, pero aun así me cuesta aceptar que ese sea un logro tan importante de esa persona como para que otros le pongan el título de experto en seguridad de IA.

Por lo pronto, ya entendí el punto.

thinkpad 2025-11-05

Gracias por el buen artículo.

vb6ko 2025-11-04

Gracias por el buen artículo.

Parece estar diseñado como la teoría CAP.

Si no se puede detener la inyección de prompts, ¿qué hacer? Meta propone 3 principios de diseño

Lecturas relacionadas

5 comentarios