1 puntos por GN⁺ 2025-08-22 | Aún no hay comentarios. | Compartir por WhatsApp
  • Es posible atacar sistemas de IA en producción aprovechando vulnerabilidades de escalado de imágenes
  • Una imagen que a simple vista parece normal puede convertirse, al reducirse de tamaño, en una carga de prompt injection que permite la exfiltración de datos
  • Este ataque se confirmó en diversos servicios reales, como Google Gemini CLI, y explota la desalineación entre lo que percibe el usuario y lo que recibe el modelo como entrada
  • Las técnicas de ataque y su impacto varían según el algoritmo de downscaling y su implementación, y es posible experimentar con ataques de imagen usando la herramienta open source Anamorpher
  • Como defensas, se recomienda mostrar una vista previa de la entrada, aplicar patrones de diseño seguros y exigir una aprobación explícita del usuario

Contexto y planteamiento del problema

  • Existe un escenario de ataque en el que, al ingresar una imagen aparentemente común en un sistema de IA como un LLM, una prompt injection multimodal oculta se activa durante el proceso de downscaling y filtra datos del usuario hacia el exterior
  • Esta vulnerabilidad existe porque la imagen que realmente se entrega al modelo pasa por un proceso de escalado, y en ese proceso queda expuesta la carga maliciosa insertada por el atacante

Ataques de escalado de imágenes dirigidos a sistemas de IA en producción

  • En esta publicación de blog se demuestra que la vulnerabilidad de escalado de imágenes puede explotarse en ataques reales contra distintos productos de IA, como Gemini CLI, Vertex AI Studio, Gemini web y API, Google Assistant y Genspark
  • Con una herramienta open source llamada Anamorpher, es posible generar y verificar fácilmente estas imágenes personalizadas

Caso de exfiltración de datos (Gemini CLI)

  • En Gemini CLI, con la configuración predeterminada, el servidor Zapier MCP aprueba automáticamente todas las llamadas a herramientas MCP sin confirmación del usuario (settings.json con trust=True)
  • Cuando el usuario sube una imagen que parece normal, la prompt injection presente en la imagen reducida provoca que datos de Google Calendar se filtren al correo electrónico del atacante
  • Como no se ofrece una vista previa real, el usuario no puede saber si el resultado fue alterado ni si hubo un ataque
  • Ataques similares de prompt injection ya se han confirmado también en varias herramientas de programación basadas en agentes, como Claude Code y OpenAI Codex
  • Estas herramientas suelen tener por defecto configuraciones y patrones de sistema inseguros, por lo que se necesitan medidas correctivas de fondo

Casos de ataque adicionales

  • También se lograron con éxito ataques de prompt injection basados en escalado de imágenes en Vertex AI, la interfaz web de Gemini, Gemini API, Google Assistant y Genspark
  • En particular, en Vertex AI Studio, el usuario solo puede ver la imagen de alta resolución y no la versión reducida que realmente recibe el modelo
  • Como resultado, la desalineación entre la percepción del usuario y la entrada real del modelo facilita el ataque
  • El vector de ataque está ampliamente distribuido en distintos sistemas y herramientas

Funcionamiento interno del ataque de escalado de imágenes

  • Este ataque explota las propiedades de interpolación de los algoritmos de downscaling de imágenes (resampling)
  • Entre los algoritmos de downscaling más representativos están Nearest Neighbor, Bilinear y Bicubic Interpolation, y cada uno requiere técnicas de ataque ajustadas a sus características
  • También existen diferencias de implementación entre bibliotecas como Pillow, PyTorch, OpenCV y TensorFlow, incluyendo antialiasing, alineación y bugs internos
  • Para optimizar el ataque, el atacante debe realizar fingerprinting para identificar qué algoritmo e implementación usa cada sistema
  • Para analizar las características del algoritmo y los artefactos, se utilizan diversas imágenes de prueba, como patrones de tablero, círculos concéntricos, patrones banded, Moiré y bordes inclinados

Principio de muestreo de imágenes y teorema de Nyquist–Shannon

  • Si una cinta tiene un patrón detallado y se la muestrea a intervalos regulares, una velocidad de muestreo baja puede hacer que el patrón original no se reconstruya correctamente y aparezca distorsionado
  • Esto corresponde al efecto de aliasing descrito por el teorema de muestreo de Nyquist–Shannon, y el atacante manipula los píxeles para que, tras el downscaling, aparezca un patrón específico

Anamorpher: herramienta para crear imágenes de ataque

  • Anamorpher es una herramienta open source que permite crear y visualizar imágenes de ataque ajustadas a algoritmos comunes de downscaling como Nearest Neighbor, Bilinear y Bicubic
  • Por ejemplo, en el caso de Bicubic Interpolation, el valor del píxel de salida se determina ponderando los píxeles circundantes a partir de los 16 píxeles de una región de 4x4
  • El atacante selecciona una imagen de alto contraste (por ejemplo, un fondo negro intenso) y optimiza la luminosidad de los píxeles más relevantes (mediante mínimos cuadrados) para que el resultado del downscaling forme un patrón de ataque nítido
  • Anamorpher ofrece una interfaz frontend y una API de Python, y gracias a su backend modular, el usuario puede experimentar incluso con algoritmos de downscaling personalizados

Defensa y mitigación

  • El método más seguro es no usar downscaling de imágenes y, en su lugar, limitar el tamaño de imagen permitido en la subida
  • Si la conversión y el downscaling son inevitables, se debe ofrecer obligatoriamente una vista previa de la imagen real que recibe el modelo en todos los canales de entrada, incluidos CLI y API
  • En particular, se debe exigir siempre una aprobación explícita del usuario para evitar que texto dentro de una imagen pueda detonar llamadas a herramientas sensibles, y es necesario aplicar patrones de diseño seguros y contramedidas sistemáticas en todo el sistema

Trabajo futuro

  • En dispositivos móviles y edge, el riesgo puede ser mayor debido a las restricciones de tamaño fijo de imagen y al uso frecuente de algoritmos de downscaling ineficientes
  • Se necesitan investigaciones posteriores y defensas en áreas como la integración con IA de voz, algoritmos más sofisticados y métodos de detección de inyecciones, prompt injection semántica y aprovechamiento de artefactos de upscaling

Conclusión

  • Anamorpher se encuentra actualmente en fase beta
  • Junto con la investigación de seguridad sobre sistemas de IA multimodales y basados en agentes, se espera recibir retroalimentación adecuada y seguir mejorando

Aún no hay comentarios.

Aún no hay comentarios.