- Cloudflare anunció el desarrollo de una nueva capa de protección, llamada 'firewall para IA (Firewall for AI)', que se coloca frente a modelos de lenguaje de gran escala (Large Language Models, LLMs) para identificar abusos
- Usar LLM como aplicaciones conectadas a Internet introduce nuevas vulnerabilidades que pueden ser explotadas por actores maliciosos
- Además de las vulnerabilidades que afectan a las aplicaciones web y API existentes, surgen nuevas amenazas debido a la forma en que operan los LLM
- El firewall para IA es un firewall avanzado de aplicaciones web (WAF) especializado en aplicaciones que usan LLM, e incluye un conjunto de herramientas para detectar vulnerabilidades y dar visibilidad a los propietarios del modelo
¿Por qué los LLM son diferentes de las aplicaciones tradicionales?
- Al considerar los LLM como aplicaciones conectadas a Internet, hay dos diferencias principales frente a las apps web tradicionales
- Primero, la forma en que los usuarios interactúan con el producto es distinta. Las apps tradicionales son deterministas, mientras que los LLM no lo son y se basan en lenguaje natural
- Segundo, la forma en que el plano de control de la aplicación interactúa con los datos es diferente. En las aplicaciones tradicionales, el plano de control (código) y el plano de datos (base de datos) están bien separados, pero en los LLM los datos de entrenamiento pasan a ser parte del propio modelo, lo que dificulta controlar el intercambio de datos mediante prompts de usuario
Vulnerabilidades OWASP para LLM
- La fundación OWASP publicó las 10 principales vulnerabilidades para LLM, ofreciendo un marco útil para pensar cómo proteger los modelos de lenguaje
- Algunas amenazas son similares al top 10 de OWASP para aplicaciones web, pero también hay amenazas específicas de los modelos de lenguaje
Despliegue de LLM
- El riesgo de los LLM varía según el modelo de despliegue. Actualmente hay tres enfoques principales
- Internal LLM (interno): las empresas desarrollan LLM para apoyar al personal en el trabajo diario. Se consideran activos de la empresa y no deben ser accesibles por personas que no sean empleados. Por ejemplo, un copiloto de IA entrenado con datos de ventas e interacciones con clientes para generar propuestas personalizadas, o un LLM entrenado sobre una base de conocimiento interna que los ingenieros pueden consultar
- Public LLM (público): LLM accesibles también fuera de la empresa. Estas soluciones suelen tener una versión gratuita disponible para cualquiera y a menudo están entrenadas con conocimiento general o público. Por ejemplo, GPT de OpenAI o Claude de Anthropic
- Product LLM (producto): desde la perspectiva de la empresa, un LLM puede formar parte de un producto o servicio ofrecido a clientes. Por lo general es una solución personalizada autohospedada, utilizable como herramienta que interactúa con recursos de la empresa. Por ejemplo, un chatbot de soporte al cliente o el asistente de IA de Cloudflare
- En todos los escenarios, es necesario proteger el modelo contra abusos, proteger los datos propietarios almacenados en él y proteger a los usuarios contra desinformación o contenido inapropiado
Firewall para IA
- El firewall para IA de Cloudflare se implementa como un WAF tradicional y analiza las solicitudes API que contienen prompts para LLM con el fin de detectar posibles patrones y firmas de ataque
- Puede colocarse delante de modelos alojados en la plataforma Cloudflare Workers AI o de modelos alojados en infraestructura de terceros, y puede usarse junto con Cloudflare AI Gateway
Prevención de ataques de volumen
- Una de las amenazas listadas por OWASP es la denegación de servicio del modelo (Model Denial of Service)
- Al igual que en las aplicaciones tradicionales, los ataques DoS consumen recursos en exceso, degradando la calidad del servicio o aumentando el costo de operar el modelo
- Este riesgo puede mitigarse adoptando políticas de rate limiting que controlen la frecuencia de solicitudes en sesiones individuales
Identificación de información sensible
- Hay dos casos de uso relacionados con información sensible, y dependen de si eres propietario del modelo y los datos, o si buscas evitar que los usuarios envíen datos a un LLM público
- La divulgación de información sensible definida por OWASP ocurre cuando un LLM revela de forma descuidada datos confidenciales en sus respuestas, lo que puede derivar en acceso no autorizado a datos, violaciones de privacidad e incidentes de seguridad
Prevención del abuso del modelo (Preventing Abuse)
- El abuso del modelo incluye varios enfoques, como la 'inyección de prompts' o el envío de solicitudes para provocar alucinaciones o generar respuestas inexactas, ofensivas, inapropiadas o fuera de tema
- La inyección de prompts es un intento de manipular el modelo de lenguaje mediante entradas especialmente diseñadas para provocar respuestas no intencionadas en el LLM
Cómo usar el firewall para IA
- Los clientes empresariales que usan "Application Security Advanced" pueden usar de inmediato Advanced Rate Limiting y Sensitive Data Detection
- La función de validación de prompts del firewall para IA está actualmente en desarrollo y su versión beta se lanzará para usuarios de Workers AI en los próximos meses
1 comentarios
Opiniones de Hacker News
Se afirma que la inyección de prompts y el jailbreaking son cosas distintas, pero parece que esa discusión ya está perdida. Según el artículo de Cloudflare, el abuso de modelos se refiere a una categoría más amplia de abuso que incluye enfoques como la inyección de prompts. La inyección de prompts ocurre cuando un desarrollador concatena un prompt definido por él con una entrada no confiable del usuario. Si no hay concatenación entre entrada confiable y no confiable, no es inyección de prompts. Esta distinción es importante, y será difícil detectarla con modelos entrenados contra ataques generales de jailbreaking.
Un WAF (Web Application Firewall) era una solución temporal para servicios web que los equipos de seguridad no podían controlar o entender. Fue perdiendo preferencia debido a problemas de rendimiento y a la dificultad de ajustarlo para bloquear eficazmente el tráfico malicioso. Un enfoque basado en WAF implica admitir ignorancia y la ubicación de la debilidad; el paso hacia modelos todavía no está validado y va en contra de ideas como la autoprotección reactiva de la propia app.
Yo quiero protección para evitar que mi sitio sea scrapeado con fines de entrenamiento de IA. Ya siento que esta es una batalla perdida, pero descubrí que quienes valoran la privacidad también piensan lo mismo.
Como ocurre con la mayoría de los productos de Cloudflare, este también se vuelve más útil mientras más clientes lo usan y requiere menos esfuerzo manual por cliente. El valor de Cloudflare no está en la configuración ni en las garantías, sino en la visibilidad y el empaquetado, casi en tiempo real, de los ataques que todos los demás están viendo.
Este producto parece una muy buena idea. Cuando es tan simple como agregar y activar un firewall, es más fácil que despierte interés y adopción que otros productos de guardrails. Me pregunto qué tan útil puede ser un firewall LLM genérico y cuánta personalización será necesaria o posible según el modelo y el caso de uso. Pero parece algo que se puede resolver con facilidad.
Por lo que entendí al leer este post, Cloudflare se está metiendo de cabeza en la censura y las guerras culturales. Los usuarios de pago de Cloudflare le pagarán para imponer sus propios sesgos políticos, y los usuarios de IA acusarán a Cloudflare de sumarse a la censura. Cloudflare podría terminar atrapada innecesariamente en batallas políticas.
¿Están usando IA para filtrar solicitudes? ¡Entonces sería una combinación celestial!
[Acercándose al micrófono] El ingrediente secreto son las expresiones regulares.
He pensado que me gustaría hacer algo en un espíritu parecido con credenciales de pago inteligentes en situaciones donde un LLM toma decisiones de compra/no compra, para evitar el mal uso de los LLM. La idea es entregar un token de un solo uso (o algo similar) solo cuando las credenciales de pago hayan sido solicitadas por una cadena legítima. Si alguien está pensando en esta área, me gustaría conversar.
Durante mucho tiempo pensé que seguirían persiguiendo la próxima gran cosa del marketing. Bien, eso deja más espacio para la competencia en el mercado de CDN/DNS/WAF para las empresas que todavía se preocupan por ese tipo de cosas.