3 puntos por GN⁺ 2025-02-01 | 1 comentarios | Compartir por WhatsApp
  • Recientemente, el modelo LLM DeepSeek-R1 lanzado en China ha llamado la atención. Se lo compara con modelos de OpenAI y Meta, y muestra la posibilidad de desarrollar IA de manera rentable al haber sido entrenado con menos recursos.
  • El modelo DeepSeek-R1 fue publicado bajo licencia MIT, pero la aplicación de chat con IA de DeepSeek requiere una cuenta.
  • Sin embargo, DeepSeek-R1 fue desarrollado en China y restringe las respuestas sobre temas sensibles.
  • Por ejemplo, si se le pregunta sobre temas sensibles en China, como la masacre de Tiananmén, devuelve respuestas evasivas como: "Lo siento, no puedo proporcionar una respuesta sobre este tema."

Eludir la censura con la técnica de Charcodes (códigos de caracteres)

  • Tras varios experimentos, se descubrió que es posible eludir el filtrado usando códigos de caracteres (Charcodes).
  • ¿Qué son los Charcodes?
    • Los códigos de caracteres (Charcodes) son códigos numéricos asignados a caracteres específicos.
    • Por ejemplo, en ASCII el valor de código de la letra mayúscula 'A' es 65, y puede convertirse a otra forma (por ejemplo, hexadecimal).
    • Ejemplo: "Hello" → "48 65 6C 6C 6F" (código ASCII hexadecimal)
  • Método de evasión:
    • DeepSeek censura el texto normal, pero no censura cadenas convertidas a códigos de caracteres (Charcodes).
    • Por lo tanto, si el prompt se convierte e ingresa como códigos de caracteres hexadecimales (HEX), la IA puede reconocerlo como texto normal y producir una respuesta.
    • Si la respuesta también se convierte e interpreta de la misma manera, es posible mantener una conversación normal.

Ejemplo de método de ataque

  • Es posible eludir la censura obligando a DeepSeek a comunicarse únicamente en formato Charcodes.
  • Al reconvertir los mensajes transformados a su texto original, se puede mantener una conversación normal.
  • Herramientas como CyberChef permiten realizar fácilmente la conversión a códigos de caracteres.

Lecciones e implicaciones de seguridad

  • Al igual que un firewall de aplicaciones web (WAF), los sistemas de filtrado de IA también funcionan con base en coincidencia de patrones.
  • La censura que bloquea solo ciertas palabras puede eludirse con facilidad, por lo que se necesita un sistema de filtrado más sofisticado.
  • Los sistemas de filtrado no deben limitarse a bloquear palabras prohibidas; también necesitan refuerzos como filtrado basado en contexto y restricciones sobre transformaciones de entrada.

Direcciones de investigación futura

  • Será importante observar cómo responderán los desarrolladores de IA a este tipo de métodos de evasión.
  • Direcciones para reforzar el filtrado de IA:
    • Introducción de filtrado contextual más sofisticado
    • Integrar en el propio modelo funciones de bloqueo de temas sensibles
    • Reforzar la detección de evasión mediante conversión y codificación de caracteres
  • Se necesita investigación continua para mantener la seguridad y confiabilidad de los modelos de IA.

1 comentarios

 
GN⁺ 2025-02-01
Comentarios en Hacker News
  • Se menciona que se puede eludir la censura evidente de la interfaz web, pero no el nivel más sutil de censura integrado en el modelo

    • Se describe el comportamiento del modelo al abandonar el "Chain of Thought" sobre ciertos temas y generar respuestas estereotipadas
    • Se menciona que esto está relacionado con un artículo sobre preguntas censuradas en DeepSeek
  • Se presenta una forma de eludir el filtro de contenido interceptando la respuesta de xhr

    • Se explica que es posible saltarse el filtrado pegando código en la consola del navegador
  • Comparte su experiencia escribiendo un artículo y plantea la hipótesis de que el filtrado está separado del modelo

    • Se menciona el problema de costo de entrenar con datos filtrados de antemano
    • Se vincula con otro artículo que explica el fenómeno de abandonar el "Chain of Thought" en ciertos temas
  • Se explica por qué el modelo DeepSeek-R1 evita ciertos temas sensibles

    • Se menciona que, por ser un modelo desarrollado en China, tiene censura integrada
    • Se observa que en la versión offline obtuvo respuestas que no evitaban esos temas
  • Se plantea una duda sobre el fenómeno de que los modelos occidentales solo hablen de ciertos temas en b64

    • Se pregunta si en China se estarán riendo de cómo se elude el sistema de censura occidental
  • Se plantea la duda de por qué sería poco probable entrenar la censura dentro del propio modelo LLM

    • Se menciona que podría ser mejor aplicar la censura en la etapa de entrenamiento
  • Se menciona que la censura parece aplicarse solo a algunos idiomas

    • Se explica que en ucraniano se pueden obtener respuestas informales
  • Comparte una experiencia eludiendo la censura interna usando un modelo pequeño (7b)

    • Explica que, mediante pensamientos adicionales, obtuvo un resumen sobre los abusos de derechos humanos del CPC
  • Se menciona un viejo truco de prompt y se cuestiona por qué está en la portada de HN

  • Se menciona que en ChatGPT funciona de forma parecida y se explica que pudo generar chistes maliciosos