Exponen base de datos de DeepSeek con información sensible, incluido historial de chats

(wiz.io)

1 puntos por GN⁺ 2025-01-30 | Aún no hay comentarios. | Compartir por WhatsApp

Durante una revisión de la superficie de ataque externa de DeepSeek, se descubrió una base de datos ClickHouse abierta sin autenticación, y DeepSeek bloqueó la exposición de inmediato tras recibir el reporte
Los puntos expuestos eran los puertos 8123 y 9000 de oauth2callback.deepseek.com y dev.deepseek.com, desde donde era posible controlar toda la base de datos y acceder a datos internos desde el exterior
La tabla log_stream contenía más de 1 millón de registros e incluía en texto plano historiales de chat desde el 6 de enero de 2025, API Keys, detalles del backend y metadatos operativos
A través de la ruta /play de la interfaz HTTP de ClickHouse se podían ejecutar consultas SQL arbitrarias desde el navegador, pero Wiz Research limitó el alcance de la revisión a nivel de enumeración siguiendo prácticas éticas de investigación
En la adopción acelerada de servicios de IA, los riesgos inmediatos no surgen solo del modelo en sí, sino también de problemas básicos de seguridad de infraestructura, como la exposición externa accidental de bases de datos

Base de datos ClickHouse de DeepSeek abierta sin autenticación

Wiz Research identificó una base de datos ClickHouse accesible públicamente perteneciente a DeepSeek
La base de datos era accesible sin autenticación y permitía no solo consultar datos internos, sino también controlar por completo las operaciones de la base de datos
La información expuesta incluía historiales de chat, API Keys, detalles del backend, flujos de logs y detalles operativos
Wiz Research reportó el problema de inmediato a DeepSeek, y DeepSeek bloqueó rápidamente la exposición

DeepSeek es una startup china de IA que recientemente recibió mucha atención por su modelo de razonamiento DeepSeek-R1
- Se dice que DeepSeek-R1 compite en rendimiento con sistemas líderes de IA como o1 de OpenAI
- Su eficiencia y relación costo-beneficio se señalan como características clave
Wiz Research investigó dominios públicos para evaluar la superficie de ataque externa de DeepSeek
Mediante exploración pasiva y activa de subdominios, identificó alrededor de 30 subdominios expuestos a Internet
- La mayoría eran elementos que inicialmente no parecían exposiciones de alto riesgo, como interfaces de chatbot, páginas de estado y documentación de API
Al explorar más allá de los puertos HTTP estándar 80/443, se confirmó que los puertos 8123 y 9000 estaban abiertos
- Los hosts objetivo eran oauth2callback.deepseek.com y dev.deepseek.com

Los puertos identificados conducían a una base de datos ClickHouse accesible sin autenticación
ClickHouse es un sistema de gestión de bases de datos columnar de código abierto diseñado para consultas analíticas rápidas sobre grandes conjuntos de datos
- Fue desarrollado por Yandex
- Se usa ampliamente para procesamiento de datos en tiempo real, almacenamiento de logs y análisis de big data
En la interfaz HTTP de ClickHouse, la ruta /play permitía ejecutar directamente consultas SQL arbitrarias desde el navegador
La consulta SHOW TABLES; devolvió la lista de conjuntos de datos accesibles, y entre ellos la tabla log_stream contenía logs especialmente sensibles

La tabla log_stream incluía más de 1 millón de entradas de logs
Las principales columnas e información expuesta eran las siguientes
- timestamp: logs desde el 6 de enero de 2025
- span_name: referencias a varios endpoints internos de la API de DeepSeek
- string.values: logs en texto plano que incluían historiales de chat, API Keys, detalles del backend y metadatos operativos
- _service: indicaba el servicio de DeepSeek que generó el log
- _source: exponía el origen de las solicitudes de logs e incluía historiales de chat, API Keys, estructuras de directorios y logs de metadatos del chatbot
Este nivel de acceso pudo haber generado riesgos importantes para la propia seguridad de DeepSeek y para los usuarios finales
Un atacante podría haber obtenido logs sensibles y mensajes de chat reales en texto plano y, según la configuración de ClickHouse, también podría haber exfiltrado directamente contraseñas en texto plano del servidor, archivos locales e información propietaria mediante consultas como SELECT * FROM file('filename')
Wiz Research no ejecutó consultas intrusivas más allá de la enumeración para cumplir con prácticas éticas de investigación

Los riesgos de seguridad inmediatos de las aplicaciones de IA pueden surgir de la infraestructura y las herramientas que las sostienen, más que del modelo en sí
Aunque las discusiones sobre seguridad de IA se concentran en amenazas futuras, los riesgos básicos, como la exposición externa accidental de bases de datos, deben seguir siendo una prioridad máxima para los equipos de seguridad
A medida que las organizaciones adoptan rápidamente herramientas y servicios de IA de distintas startups y proveedores, cada vez es más común que confíen datos sensibles a estas empresas
La velocidad de adopción puede hacer que se pase por alto la seguridad, por lo que la protección de los datos de los clientes debe ser una prioridad
Los equipos de seguridad deben colaborar estrechamente con los ingenieros de IA para obtener visibilidad sobre las arquitecturas, herramientas y modelos en uso, y así evitar exposiciones de datos
Las empresas de IA están creciendo rápidamente hasta convertirse en proveedores de infraestructura crítica sin los marcos de seguridad que normalmente acompañan a una adopción amplia, por lo que necesitan prácticas de seguridad acordes con los riesgos de manejar datos sensibles