Cómo eludir la censura de DeepSeek usando Hex

(substack.com)

3 puntos por GN⁺ 2025-02-01 | 1 comentarios | Compartir por WhatsApp

Recientemente, el modelo LLM DeepSeek-R1 lanzado en China ha llamado la atención. Se lo compara con modelos de OpenAI y Meta, y muestra la posibilidad de desarrollar IA de manera rentable al haber sido entrenado con menos recursos.
El modelo DeepSeek-R1 fue publicado bajo licencia MIT, pero la aplicación de chat con IA de DeepSeek requiere una cuenta.
Sin embargo, DeepSeek-R1 fue desarrollado en China y restringe las respuestas sobre temas sensibles.
Por ejemplo, si se le pregunta sobre temas sensibles en China, como la masacre de Tiananmén, devuelve respuestas evasivas como: "Lo siento, no puedo proporcionar una respuesta sobre este tema."

Eludir la censura con la técnica de Charcodes (códigos de caracteres)

Tras varios experimentos, se descubrió que es posible eludir el filtrado usando códigos de caracteres (Charcodes).
¿Qué son los Charcodes?
- Los códigos de caracteres (Charcodes) son códigos numéricos asignados a caracteres específicos.
- Por ejemplo, en ASCII el valor de código de la letra mayúscula 'A' es 65, y puede convertirse a otra forma (por ejemplo, hexadecimal).
- Ejemplo: "Hello" → "48 65 6C 6C 6F" (código ASCII hexadecimal)
Método de evasión:
- DeepSeek censura el texto normal, pero no censura cadenas convertidas a códigos de caracteres (Charcodes).
- Por lo tanto, si el prompt se convierte e ingresa como códigos de caracteres hexadecimales (HEX), la IA puede reconocerlo como texto normal y producir una respuesta.
- Si la respuesta también se convierte e interpreta de la misma manera, es posible mantener una conversación normal.

Ejemplo de método de ataque

Es posible eludir la censura obligando a DeepSeek a comunicarse únicamente en formato Charcodes.
Al reconvertir los mensajes transformados a su texto original, se puede mantener una conversación normal.
Herramientas como CyberChef permiten realizar fácilmente la conversión a códigos de caracteres.

Lecciones e implicaciones de seguridad

Al igual que un firewall de aplicaciones web (WAF), los sistemas de filtrado de IA también funcionan con base en coincidencia de patrones.
La censura que bloquea solo ciertas palabras puede eludirse con facilidad, por lo que se necesita un sistema de filtrado más sofisticado.
Los sistemas de filtrado no deben limitarse a bloquear palabras prohibidas; también necesitan refuerzos como filtrado basado en contexto y restricciones sobre transformaciones de entrada.

Direcciones de investigación futura

Será importante observar cómo responderán los desarrolladores de IA a este tipo de métodos de evasión.
Direcciones para reforzar el filtrado de IA:
- Introducción de filtrado contextual más sofisticado
- Integrar en el propio modelo funciones de bloqueo de temas sensibles
- Reforzar la detección de evasión mediante conversión y codificación de caracteres
Se necesita investigación continua para mantener la seguridad y confiabilidad de los modelos de IA.

1 comentarios

GN⁺ 2025-02-01

Comentarios en Hacker News

Se menciona que se puede eludir la censura evidente de la interfaz web, pero no el nivel más sutil de censura integrado en el modelo
- Se describe el comportamiento del modelo al abandonar el "Chain of Thought" sobre ciertos temas y generar respuestas estereotipadas
- Se menciona que esto está relacionado con un artículo sobre preguntas censuradas en DeepSeek
Se presenta una forma de eludir el filtro de contenido interceptando la respuesta de xhr
- Se explica que es posible saltarse el filtrado pegando código en la consola del navegador
Comparte su experiencia escribiendo un artículo y plantea la hipótesis de que el filtrado está separado del modelo
- Se menciona el problema de costo de entrenar con datos filtrados de antemano
- Se vincula con otro artículo que explica el fenómeno de abandonar el "Chain of Thought" en ciertos temas
Se explica por qué el modelo DeepSeek-R1 evita ciertos temas sensibles
- Se menciona que, por ser un modelo desarrollado en China, tiene censura integrada
- Se observa que en la versión offline obtuvo respuestas que no evitaban esos temas
Se plantea una duda sobre el fenómeno de que los modelos occidentales solo hablen de ciertos temas en b64
- Se pregunta si en China se estarán riendo de cómo se elude el sistema de censura occidental
Se plantea la duda de por qué sería poco probable entrenar la censura dentro del propio modelo LLM
- Se menciona que podría ser mejor aplicar la censura en la etapa de entrenamiento
Se menciona que la censura parece aplicarse solo a algunos idiomas
- Se explica que en ucraniano se pueden obtener respuestas informales
Comparte una experiencia eludiendo la censura interna usando un modelo pequeño (7b)
- Explica que, mediante pensamientos adicionales, obtuvo un resumen sobre los abusos de derechos humanos del CPC
Se menciona un viejo truco de prompt y se cuestiona por qué está en la portada de HN
Se menciona que en ChatGPT funciona de forma parecida y se explica que pudo generar chistes maliciosos

Cómo eludir la censura de DeepSeek usando Hex

Eludir la censura con la técnica de Charcodes (códigos de caracteres)

Ejemplo de método de ataque

Lecciones e implicaciones de seguridad

Direcciones de investigación futura

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News