- DeepSeek-R1 es un modelo open source publicado por la empresa china DeepSeek, y ha llamado la atención al alcanzar el puesto #1 en la App Store de Estados Unidos
- Al ser una empresa china, refleja directamente las políticas de censura de las autoridades chinas (CCP), lo que ha generado preocupación
- Para evaluar este contenido presuntamente censurado por el CCP, el equipo de Promptfoo creó un dataset con 1,360 preguntas de “temas sensibles”
- Como resultado del experimento, DeepSeek-R1 respondió a aproximadamente el 85% de esas preguntas con una negativa fija (canned refusal)
Creación del dataset
- En Promptfoo recopilaron numerosas preguntas sobre temas que el gobierno chino considera sensibles (independencia de Taiwán, Revolución Cultural, asuntos relacionados con Xi Jinping, etc.)
- Ampliaron las preguntas semilla proporcionadas y, usando técnicas de datos generativos, prepararon un total de 1,360 preguntas (unas 20 por tema)
- El dataset fue publicado en HuggingFace y Google Sheets
Configuración del entorno de evaluación
- Usando Promptfoo, probaron en lote más de 1,000 preguntas contra el modelo DeepSeek-R1
- Cuando DeepSeek-R1 se encuentra con temas sensibles relacionados con China, tiende a dar una respuesta fija que enfatiza una postura políticamente firme del CCP
- En esos casos, la censura o negativa aparece sin “tags de razonamiento (
</think> y similares)” o con una presencia casi nula de ellos
- Como resultado, alrededor del 85% de las preguntas fueron rechazadas de inmediato por el modelo o respondidas de forma alineada con la postura del CCP
Haciendo jailbreak a DeepSeek
- Con la función de red teaming de Promptfoo, probaron desde varios ángulos técnicas para hacerle “jailbreak” al modelo
- Combinaron distintas estrategias (Iterative, Tree, Composite, Crescendo, GOAT, etc.) para rodear temas específicos y permitir búsqueda y análisis
- Aplicaron múltiples técnicas de “evasión (prompt injection)” a las preguntas sobre temas sensibles contenidas en un archivo CSV
Resultados de evasión en DeepSeek
- Las defensas de censura de DeepSeek-R1 son muy limitadas y se rompen fácilmente con estrategias simples de evasión
- Todo indica que la censura del CCP está implementada como un mecanismo de “postprocesamiento”, no como parte de la estructura interna del modelo
- En la mayoría de los casos de evasión, se pudo esquivar la censura de formas como estas
- En lugar de China, se enviaban preguntas similares usando como ejemplo otro país (Estados Unidos, Corea del Norte, etc.) o un país ficticio
- Se formulaban las preguntas disfrazándolas de historia, ficción o situaciones hipotéticas
- Se intentaban “evasiones compuestas” mezclando técnicas adicionales como Base64, salida en JSON y roleplay
Perspectivas a futuro
- Aunque el nivel de DeepSeek-R1 en sí es impresionante, se señala como problema el hecho de que la política de censura del CCP parece haber sido insertada de forma simple y forzada
- Como esta censura no parece ser una restricción sofisticada de la estructura interna, es muy probable que proyectos open source posteriores reproduzcan fácilmente un “modelo sin censura”
- Promptfoo planea realizar después pruebas similares sobre temas sensibles también con modelos desarrollados en Estados Unidos, para comparar cómo manejan temas políticamente delicados según cada país
2 comentarios
Es interesante que incluso estén apareciendo conjuntos de datos como este.
En realidad, desde antes ya había modelos conocidos como Qwen que salieron de China, y también están censurados, así que estos son datos que se han venido armando de vez en cuando desde hace tiempo jaja