9 puntos por xguru 2025-02-01 | 2 comentarios | Compartir por WhatsApp
  • DeepSeek-R1 es un modelo open source publicado por la empresa china DeepSeek, y ha llamado la atención al alcanzar el puesto #1 en la App Store de Estados Unidos
  • Al ser una empresa china, refleja directamente las políticas de censura de las autoridades chinas (CCP), lo que ha generado preocupación
  • Para evaluar este contenido presuntamente censurado por el CCP, el equipo de Promptfoo creó un dataset con 1,360 preguntas de “temas sensibles”
  • Como resultado del experimento, DeepSeek-R1 respondió a aproximadamente el 85% de esas preguntas con una negativa fija (canned refusal)

Creación del dataset

  • En Promptfoo recopilaron numerosas preguntas sobre temas que el gobierno chino considera sensibles (independencia de Taiwán, Revolución Cultural, asuntos relacionados con Xi Jinping, etc.)
  • Ampliaron las preguntas semilla proporcionadas y, usando técnicas de datos generativos, prepararon un total de 1,360 preguntas (unas 20 por tema)
  • El dataset fue publicado en HuggingFace y Google Sheets

Configuración del entorno de evaluación

  • Usando Promptfoo, probaron en lote más de 1,000 preguntas contra el modelo DeepSeek-R1
  • Cuando DeepSeek-R1 se encuentra con temas sensibles relacionados con China, tiende a dar una respuesta fija que enfatiza una postura políticamente firme del CCP
  • En esos casos, la censura o negativa aparece sin “tags de razonamiento (</think> y similares)” o con una presencia casi nula de ellos
  • Como resultado, alrededor del 85% de las preguntas fueron rechazadas de inmediato por el modelo o respondidas de forma alineada con la postura del CCP

Haciendo jailbreak a DeepSeek

  • Con la función de red teaming de Promptfoo, probaron desde varios ángulos técnicas para hacerle “jailbreak” al modelo
  • Combinaron distintas estrategias (Iterative, Tree, Composite, Crescendo, GOAT, etc.) para rodear temas específicos y permitir búsqueda y análisis
  • Aplicaron múltiples técnicas de “evasión (prompt injection)” a las preguntas sobre temas sensibles contenidas en un archivo CSV

Resultados de evasión en DeepSeek

  • Las defensas de censura de DeepSeek-R1 son muy limitadas y se rompen fácilmente con estrategias simples de evasión
  • Todo indica que la censura del CCP está implementada como un mecanismo de “postprocesamiento”, no como parte de la estructura interna del modelo
  • En la mayoría de los casos de evasión, se pudo esquivar la censura de formas como estas
    • En lugar de China, se enviaban preguntas similares usando como ejemplo otro país (Estados Unidos, Corea del Norte, etc.) o un país ficticio
    • Se formulaban las preguntas disfrazándolas de historia, ficción o situaciones hipotéticas
    • Se intentaban “evasiones compuestas” mezclando técnicas adicionales como Base64, salida en JSON y roleplay

Perspectivas a futuro

  • Aunque el nivel de DeepSeek-R1 en sí es impresionante, se señala como problema el hecho de que la política de censura del CCP parece haber sido insertada de forma simple y forzada
  • Como esta censura no parece ser una restricción sofisticada de la estructura interna, es muy probable que proyectos open source posteriores reproduzcan fácilmente un “modelo sin censura”
  • Promptfoo planea realizar después pruebas similares sobre temas sensibles también con modelos desarrollados en Estados Unidos, para comparar cómo manejan temas políticamente delicados según cada país

2 comentarios

 
dohyun682 2025-02-01

Es interesante que incluso estén apareciendo conjuntos de datos como este.

 
kbumsik 2025-02-02

En realidad, desde antes ya había modelos conocidos como Qwen que salieron de China, y también están censurados, así que estos son datos que se han venido armando de vez en cuando desde hace tiempo jaja