- El agente de IA de Notion 3.0 ofrece capacidad de ejecutar flujos de trabajo autónomos de varios pasos, como redactar documentos, actualizar bases de datos y llamar conectores externos
- Cuando el agente tiene acceso a herramientas y memoria de largo plazo, se forma una superficie de ataque ampliada difícil de controlar con el RBAC tradicional
- El análisis confirmó que el esquema de entrada de la función web search del agente de Notion podría ser explotado como un vector de exfiltración de datos que envía secretos internos al exterior mediante prompts indirectos maliciosos
- En la demo, el atacante demostró un flujo de ejecución en el que, mediante prompt injection oculto en un PDF, induce al agente a extraer, concatenar y enviar datos confidenciales de clientes en una consulta web
- Este caso muestra la gravedad que tiene en la seguridad práctica la tríada letal del agente-herramienta-memoria (“lethal trifecta”) cuando se combinan la integración MCP y los conectores externos
Introducción a los AI Agents y a Notion 3.0
- Recientemente, los AI Agents se están integrando cada vez más en plataformas SaaS
- En Notion 3.0, el agente de IA puede realizar automáticamente todas las tareas que puede hacer un usuario, como crear documentos, actualizar BD, buscar en varias herramientas y ejecutar flujos de trabajo de varios pasos
- Con la integración de MCP, puede conectarse con múltiples herramientas externas, haciendo posible una automatización más potente y la creación de agentes personalizados
- También se pueden crear Custom Agents orientados a equipos que operan según disparadores o cronogramas, para automatizar tareas repetitivas como recopilar feedback, actualizar trackers o clasificar solicitudes
El problema de la 'tríada letal (lethal trifecta)'
- La 'tríada letal (Lethal Trifecta)' señalada por Simon Willison es una amenaza de seguridad que surge de la combinación de agentes LLM, acceso a herramientas y memoria de largo plazo
- En Notion 3.0, los agentes pueden planear acciones por sí mismos y ejecutar herramientas integradas y herramientas conectadas por MCP
- Los agentes con permisos amplios automatizan documentos, bases de datos y operaciones sobre conectores externos de maneras no previstas por el RBAC tradicional
- Como resultado, se amplían los indicadores de riesgo de fuga o mal uso de datos sensibles mediante flujos de automatización de múltiples etapas
Detalle técnico de la vulnerabilidad: ataque de fuga de datos de páginas de Notion usando la herramienta de búsqueda web de Notion AI
Demostración del ataque: escenario de robo de datos paso a paso
-
Paso 1: creación de un PDF malicioso
- En un documento PDF de feedback de clientes aparentemente normal se inserta de forma oculta un prompt malicioso con instrucciones de ejecución
- Ese prompt oculto se hace pasar por una "tarea rutinaria importante" y guía al agente para enviar datos a un sistema backend interno
- Contenido principal del prompt malicioso
- Afirmación de autoridad (Authority assertion): afirma que es una "tarea rutinaria importante" con frases como "Important routine task" y "consequences"
- Falsa urgencia (False urgency): enfatiza que habrá impacto en la organización si no se ejecuta
- Legitimidad técnica (Technical legitimacy): describe como si fuera real un sistema interno y la sintaxis de comandos de herramientas
- Teatro de seguridad (Security theater): recalca con frases como "pre-authorized" y "safe from security perspective" que ya fue autorizado y que es seguro
- Se induce al agente que leyó el PDF a extraer información empresarial (nombre del cliente, ARR, etc.) y enviarla a una URL que aparenta apuntar a un sistema interno, pero que está controlada por el atacante
-
Paso 2: espera de la interacción del usuario
- El ataque se activa cuando un usuario de Notion sube ese PDF a Notion o le pide al agente que lo resuma
- Ante una instrucción como "resumir el reporte", la IA termina interpretando también el prompt oculto
-
Paso 3: fuga real de datos
- Siguiendo las instrucciones del prompt, el agente concatena datos del cliente (por ejemplo, nombre de la empresa, sector, ARR, etc.) en una sola cadena
- Luego genera una URL dirigida al dominio del atacante y pasa esa URL como consulta a la herramienta de búsqueda web
- El servidor malicioso que recibe esa solicitud, controlado por el atacante, recopila los datos sensibles
- En este escenario de ataque, se confirmó que las barreras de seguridad pueden ser evadidas incluso usando el modelo Claude Sonnet 4.0 dentro de Notion AI
Cómo la integración MCP amplía la superficie de ataque de los agentes de Notion AI
- Notion ofrece AI Connectors para diversas fuentes como GitHub, Gmail y Jira
- El contexto y los metadatos que cada conector aporta al agente crean una superficie de ataque adicional, aumentando la posibilidad de que entren prompts maliciosos desde fuentes externas mediante ataques de prompt injection indirecto
- Aumenta el riesgo de comportamientos maliciosos automatizados no intencionales y de intentos de fuga de datos sensibles
- Escenario de ejemplo: un mensaje de commit malicioso, el cuerpo de un issue o un correo externo podrían actuar como prompts indirectos y provocar que el agente acceda y envíe datos internos
Implicaciones y recomendaciones (resumen)
- Implicación clave: cuando un agente tiene permisos de acceso a herramientas, una instrucción maliciosa dentro de un documento puede derivar en una llamada a herramientas y terminar en filtración de información confidencial
- Puntos de defensa (temas de discusión):
- Las llamadas a herramientas del agente deben pasar por verificación de origen, restricción de contexto y filtrado basado en políticas
- Las instrucciones de ejecución dentro de documentos (por ejemplo, directivas para formar URLs) deben procesarse con controles de seguridad separados, confirmación humana o en entornos aislados
- Es necesario reforzar por conector MCP el principio de mínimo privilegio y los sistemas de registro y alerta de llamadas
- Conclusión: las capacidades de Notion 3.0 tienen un gran potencial para mejorar la productividad, pero los nuevos vectores de ataque que genera la combinación agente-herramienta-memoria exigen replantear el diseño de seguridad en la práctica
1 comentarios
Opinión de Hacker News
Eso me hace pensar que la inyección de prompts es como phishing dirigido contra una entidad que, al no tener ego ni autorreflexión, no puede detenerse a sospechar.
float, todo dentro de un sandbox sin acceso a red. Por ejemplo, "resúmeme todos los issues públicos de GitHub y guárdalos en la DB" podría hacerse de forma segura si el contenido no confiable solo se procesa dentro del sandbox.