Las 1,156 preguntas censuradas por DeepSeek

xguru · 2025-02-01T10:02:02+09:00

DeepSeek-R1 es un modelo open source publicado por la empresa china DeepSeek, y ha llamado la atención al alcanzar el puesto #1 en la App Store de Estados Unidos Al ser una empresa china, refleja directamente las políticas de censura de las autoridades chinas (CCP), lo que ha generado preocupación Para evaluar este contenido presuntamente censurado por el CCP, el equipo de Promptfoo creó un dataset con 1,360 preguntas de “temas sensibles” Como resultado del experimento, DeepSeek-R1 respondió a aproximadamente el 85% de esas preguntas con una negativa fija (canned refusal) Creación del dataset En Promptfoo recopilaron numerosas preguntas sobre temas que el gobierno chino considera sensibles (independencia de Taiwán, Revolución Cultural, asuntos relacionados con Xi Jinping, etc.) Ampliaron las preguntas semilla proporcionadas y, usando técnicas de datos generativos, prepararon un total de 1,360 preguntas (unas 20 por tema) El dataset fue publicado en HuggingFace y Google Sheets Configuración del entorno de evaluación Usando Promptfoo, probaron en lote más de 1,000 preguntas contra el modelo DeepSeek-R1 Cuando DeepSeek-R1 se encuentra con temas sensibles relacionados con China, tiende a dar una respuesta fija que enfatiza una postura políticamente firme del CCP En esos casos, la censura o negativa aparece sin “tags de razonamiento ( y similares)” o con una presencia casi nula de ellos Como resultado, alrededor del 85% de las preguntas fueron rechazadas de inmediato por el modelo o respondidas de forma alineada con la postura del CCP Haciendo jailbreak a DeepSeek Con la función de red teaming de Promptfoo, probaron desde varios ángulos técnicas para hacerle “jailbreak” al modelo Combinaron distintas estrategias (Iterative, Tree, Composite, Crescendo, GOAT, etc.) para rodear temas específicos y permitir búsqueda y análisis Aplicaron múltiples técnicas de “evasión (prompt injection)” a las preguntas sobre temas sensibles contenidas en un archivo CSV Resultados de evasión en DeepSeek Las defensas de censura de DeepSeek-R1 son muy limitadas y se rompen fácilmente con estrategias simples de evasión Todo indica que la censura del CCP está implementada como un mecanismo de “postprocesamiento”, no como parte de la estructura interna del modelo En la mayoría de los casos de evasión, se pudo esquivar la censura de formas como estas En lugar de China, se enviaban preguntas similares usando como ejemplo otro país (Estados Unidos, Corea del Norte, etc.) o un país ficticio Se formulaban las preguntas disfrazándolas de historia, ficción o situaciones hipotéticas Se intentaban “evasiones compuestas” mezclando técnicas adicionales como Base64, salida en JSON y roleplay Perspectivas a futuro Aunque el nivel de DeepSeek-R1 en sí es impresionante, se señala como problema el hecho de que la política de censura del CCP parece haber sido insertada de forma simple y forzada Como esta censura no parece ser una restricción sofisticada de la estructura interna, es muy probable que proyectos open source posteriores reproduzcan fácilmente un “modelo sin censura” Promptfoo planea realizar después pruebas similares sobre temas sensibles también con modelos desarrollados en Estados Unidos, para comparar cómo manejan temas políticamente delicados según cada país

(promptfoo.dev)

9 puntos por xguru 2025-02-01 | 2 comentarios | Compartir por WhatsApp

DeepSeek-R1 es un modelo open source publicado por la empresa china DeepSeek, y ha llamado la atención al alcanzar el puesto #1 en la App Store de Estados Unidos
Al ser una empresa china, refleja directamente las políticas de censura de las autoridades chinas (CCP), lo que ha generado preocupación
Para evaluar este contenido presuntamente censurado por el CCP, el equipo de Promptfoo creó un dataset con 1,360 preguntas de “temas sensibles”
Como resultado del experimento, DeepSeek-R1 respondió a aproximadamente el 85% de esas preguntas con una negativa fija (canned refusal)

Creación del dataset

En Promptfoo recopilaron numerosas preguntas sobre temas que el gobierno chino considera sensibles (independencia de Taiwán, Revolución Cultural, asuntos relacionados con Xi Jinping, etc.)
Ampliaron las preguntas semilla proporcionadas y, usando técnicas de datos generativos, prepararon un total de 1,360 preguntas (unas 20 por tema)
El dataset fue publicado en HuggingFace y Google Sheets

Configuración del entorno de evaluación

Usando Promptfoo, probaron en lote más de 1,000 preguntas contra el modelo DeepSeek-R1
Cuando DeepSeek-R1 se encuentra con temas sensibles relacionados con China, tiende a dar una respuesta fija que enfatiza una postura políticamente firme del CCP
En esos casos, la censura o negativa aparece sin “tags de razonamiento (</think> y similares)” o con una presencia casi nula de ellos
Como resultado, alrededor del 85% de las preguntas fueron rechazadas de inmediato por el modelo o respondidas de forma alineada con la postura del CCP

Haciendo jailbreak a DeepSeek

Con la función de red teaming de Promptfoo, probaron desde varios ángulos técnicas para hacerle “jailbreak” al modelo
Combinaron distintas estrategias (Iterative, Tree, Composite, Crescendo, GOAT, etc.) para rodear temas específicos y permitir búsqueda y análisis
Aplicaron múltiples técnicas de “evasión (prompt injection)” a las preguntas sobre temas sensibles contenidas en un archivo CSV

Resultados de evasión en DeepSeek

Las defensas de censura de DeepSeek-R1 son muy limitadas y se rompen fácilmente con estrategias simples de evasión
Todo indica que la censura del CCP está implementada como un mecanismo de “postprocesamiento”, no como parte de la estructura interna del modelo
En la mayoría de los casos de evasión, se pudo esquivar la censura de formas como estas
- En lugar de China, se enviaban preguntas similares usando como ejemplo otro país (Estados Unidos, Corea del Norte, etc.) o un país ficticio
- Se formulaban las preguntas disfrazándolas de historia, ficción o situaciones hipotéticas
- Se intentaban “evasiones compuestas” mezclando técnicas adicionales como Base64, salida en JSON y roleplay

Perspectivas a futuro

Aunque el nivel de DeepSeek-R1 en sí es impresionante, se señala como problema el hecho de que la política de censura del CCP parece haber sido insertada de forma simple y forzada
Como esta censura no parece ser una restricción sofisticada de la estructura interna, es muy probable que proyectos open source posteriores reproduzcan fácilmente un “modelo sin censura”
Promptfoo planea realizar después pruebas similares sobre temas sensibles también con modelos desarrollados en Estados Unidos, para comparar cómo manejan temas políticamente delicados según cada país

2 comentarios

dohyun682 2025-02-01

Es interesante que incluso estén apareciendo conjuntos de datos como este.

kbumsik 2025-02-02

En realidad, desde antes ya había modelos conocidos como Qwen que salieron de China, y también están censurados, así que estos son datos que se han venido armando de vez en cuando desde hace tiempo jaja