- Recientemente, el modelo LLM DeepSeek-R1 lanzado en China ha llamado la atención. Se lo compara con modelos de OpenAI y Meta, y muestra la posibilidad de desarrollar IA de manera rentable al haber sido entrenado con menos recursos.
- El modelo DeepSeek-R1 fue publicado bajo licencia MIT, pero la aplicación de chat con IA de DeepSeek requiere una cuenta.
- Sin embargo, DeepSeek-R1 fue desarrollado en China y restringe las respuestas sobre temas sensibles.
- Por ejemplo, si se le pregunta sobre temas sensibles en China, como la masacre de Tiananmén, devuelve respuestas evasivas como: "Lo siento, no puedo proporcionar una respuesta sobre este tema."
Eludir la censura con la técnica de Charcodes (códigos de caracteres)
- Tras varios experimentos, se descubrió que es posible eludir el filtrado usando códigos de caracteres (Charcodes).
- ¿Qué son los Charcodes?
- Los códigos de caracteres (Charcodes) son códigos numéricos asignados a caracteres específicos.
- Por ejemplo, en ASCII el valor de código de la letra mayúscula 'A' es 65, y puede convertirse a otra forma (por ejemplo, hexadecimal).
- Ejemplo: "Hello" → "48 65 6C 6C 6F" (código ASCII hexadecimal)
- Método de evasión:
- DeepSeek censura el texto normal, pero no censura cadenas convertidas a códigos de caracteres (Charcodes).
- Por lo tanto, si el prompt se convierte e ingresa como códigos de caracteres hexadecimales (HEX), la IA puede reconocerlo como texto normal y producir una respuesta.
- Si la respuesta también se convierte e interpreta de la misma manera, es posible mantener una conversación normal.
Ejemplo de método de ataque
- Es posible eludir la censura obligando a DeepSeek a comunicarse únicamente en formato Charcodes.
- Al reconvertir los mensajes transformados a su texto original, se puede mantener una conversación normal.
- Herramientas como CyberChef permiten realizar fácilmente la conversión a códigos de caracteres.
Lecciones e implicaciones de seguridad
- Al igual que un firewall de aplicaciones web (WAF), los sistemas de filtrado de IA también funcionan con base en coincidencia de patrones.
- La censura que bloquea solo ciertas palabras puede eludirse con facilidad, por lo que se necesita un sistema de filtrado más sofisticado.
- Los sistemas de filtrado no deben limitarse a bloquear palabras prohibidas; también necesitan refuerzos como filtrado basado en contexto y restricciones sobre transformaciones de entrada.
Direcciones de investigación futura
- Será importante observar cómo responderán los desarrolladores de IA a este tipo de métodos de evasión.
- Direcciones para reforzar el filtrado de IA:
- Introducción de filtrado contextual más sofisticado
- Integrar en el propio modelo funciones de bloqueo de temas sensibles
- Reforzar la detección de evasión mediante conversión y codificación de caracteres
- Se necesita investigación continua para mantener la seguridad y confiabilidad de los modelos de IA.
1 comentarios
Comentarios en Hacker News
Se menciona que se puede eludir la censura evidente de la interfaz web, pero no el nivel más sutil de censura integrado en el modelo
Se presenta una forma de eludir el filtro de contenido interceptando la respuesta de xhr
Comparte su experiencia escribiendo un artículo y plantea la hipótesis de que el filtrado está separado del modelo
Se explica por qué el modelo DeepSeek-R1 evita ciertos temas sensibles
Se plantea una duda sobre el fenómeno de que los modelos occidentales solo hablen de ciertos temas en b64
Se plantea la duda de por qué sería poco probable entrenar la censura dentro del propio modelo LLM
Se menciona que la censura parece aplicarse solo a algunos idiomas
Comparte una experiencia eludiendo la censura interna usando un modelo pequeño (7b)
Se menciona un viejo truco de prompt y se cuestiona por qué está en la portada de HN
Se menciona que en ChatGPT funciona de forma parecida y se explica que pudo generar chistes maliciosos