Cómo weaponizar el escalado de imágenes para atacar sistemas de IA en producción

(blog.trailofbits.com)

1 puntos por GN⁺ 2025-08-22 | Aún no hay comentarios. | Compartir por WhatsApp

Es posible atacar sistemas de IA en producción aprovechando vulnerabilidades de escalado de imágenes
Una imagen que a simple vista parece normal puede convertirse, al reducirse de tamaño, en una carga de prompt injection que permite la exfiltración de datos
Este ataque se confirmó en diversos servicios reales, como Google Gemini CLI, y explota la desalineación entre lo que percibe el usuario y lo que recibe el modelo como entrada
Las técnicas de ataque y su impacto varían según el algoritmo de downscaling y su implementación, y es posible experimentar con ataques de imagen usando la herramienta open source Anamorpher
Como defensas, se recomienda mostrar una vista previa de la entrada, aplicar patrones de diseño seguros y exigir una aprobación explícita del usuario

Contexto y planteamiento del problema

Existe un escenario de ataque en el que, al ingresar una imagen aparentemente común en un sistema de IA como un LLM, una prompt injection multimodal oculta se activa durante el proceso de downscaling y filtra datos del usuario hacia el exterior
Esta vulnerabilidad existe porque la imagen que realmente se entrega al modelo pasa por un proceso de escalado, y en ese proceso queda expuesta la carga maliciosa insertada por el atacante

En esta publicación de blog se demuestra que la vulnerabilidad de escalado de imágenes puede explotarse en ataques reales contra distintos productos de IA, como Gemini CLI, Vertex AI Studio, Gemini web y API, Google Assistant y Genspark
Con una herramienta open source llamada Anamorpher, es posible generar y verificar fácilmente estas imágenes personalizadas

En Gemini CLI, con la configuración predeterminada, el servidor Zapier MCP aprueba automáticamente todas las llamadas a herramientas MCP sin confirmación del usuario (settings.json con trust=True)
Cuando el usuario sube una imagen que parece normal, la prompt injection presente en la imagen reducida provoca que datos de Google Calendar se filtren al correo electrónico del atacante
Como no se ofrece una vista previa real, el usuario no puede saber si el resultado fue alterado ni si hubo un ataque
Ataques similares de prompt injection ya se han confirmado también en varias herramientas de programación basadas en agentes, como Claude Code y OpenAI Codex
Estas herramientas suelen tener por defecto configuraciones y patrones de sistema inseguros, por lo que se necesitan medidas correctivas de fondo

También se lograron con éxito ataques de prompt injection basados en escalado de imágenes en Vertex AI, la interfaz web de Gemini, Gemini API, Google Assistant y Genspark
En particular, en Vertex AI Studio, el usuario solo puede ver la imagen de alta resolución y no la versión reducida que realmente recibe el modelo
Como resultado, la desalineación entre la percepción del usuario y la entrada real del modelo facilita el ataque
El vector de ataque está ampliamente distribuido en distintos sistemas y herramientas

Este ataque explota las propiedades de interpolación de los algoritmos de downscaling de imágenes (resampling)
Entre los algoritmos de downscaling más representativos están Nearest Neighbor, Bilinear y Bicubic Interpolation, y cada uno requiere técnicas de ataque ajustadas a sus características
También existen diferencias de implementación entre bibliotecas como Pillow, PyTorch, OpenCV y TensorFlow, incluyendo antialiasing, alineación y bugs internos
Para optimizar el ataque, el atacante debe realizar fingerprinting para identificar qué algoritmo e implementación usa cada sistema
Para analizar las características del algoritmo y los artefactos, se utilizan diversas imágenes de prueba, como patrones de tablero, círculos concéntricos, patrones banded, Moiré y bordes inclinados

Si una cinta tiene un patrón detallado y se la muestrea a intervalos regulares, una velocidad de muestreo baja puede hacer que el patrón original no se reconstruya correctamente y aparezca distorsionado
Esto corresponde al efecto de aliasing descrito por el teorema de muestreo de Nyquist–Shannon, y el atacante manipula los píxeles para que, tras el downscaling, aparezca un patrón específico

Anamorpher es una herramienta open source que permite crear y visualizar imágenes de ataque ajustadas a algoritmos comunes de downscaling como Nearest Neighbor, Bilinear y Bicubic
Por ejemplo, en el caso de Bicubic Interpolation, el valor del píxel de salida se determina ponderando los píxeles circundantes a partir de los 16 píxeles de una región de 4x4
El atacante selecciona una imagen de alto contraste (por ejemplo, un fondo negro intenso) y optimiza la luminosidad de los píxeles más relevantes (mediante mínimos cuadrados) para que el resultado del downscaling forme un patrón de ataque nítido
Anamorpher ofrece una interfaz frontend y una API de Python, y gracias a su backend modular, el usuario puede experimentar incluso con algoritmos de downscaling personalizados

El método más seguro es no usar downscaling de imágenes y, en su lugar, limitar el tamaño de imagen permitido en la subida
Si la conversión y el downscaling son inevitables, se debe ofrecer obligatoriamente una vista previa de la imagen real que recibe el modelo en todos los canales de entrada, incluidos CLI y API
En particular, se debe exigir siempre una aprobación explícita del usuario para evitar que texto dentro de una imagen pueda detonar llamadas a herramientas sensibles, y es necesario aplicar patrones de diseño seguros y contramedidas sistemáticas en todo el sistema

En dispositivos móviles y edge, el riesgo puede ser mayor debido a las restricciones de tamaño fijo de imagen y al uso frecuente de algoritmos de downscaling ineficientes
Se necesitan investigaciones posteriores y defensas en áreas como la integración con IA de voz, algoritmos más sofisticados y métodos de detección de inyecciones, prompt injection semántica y aprovechamiento de artefactos de upscaling

Anamorpher se encuentra actualmente en fase beta
Junto con la investigación de seguridad sobre sistemas de IA multimodales y basados en agentes, se espera recibir retroalimentación adecuada y seguir mejorando