Cómo desactivar la censura integrada de un LLM con abliteration

(huggingface.co)

20 puntos por GN⁺ 2024-06-14 | 1 comentarios | Compartir por WhatsApp

Los LLM instruct modernos, como Llama, no responden a preguntas peligrosas o polémicas debido a un mecanismo de rechazo integrado
abliteration es una técnica que encuentra y elimina la “dirección de rechazo (refusal direction)” dentro del modelo sin reentrenarlo, para hacer que responda a todos los prompts
Este proceso se implementa principalmente mediante intervención en inferencia (inference-time intervention) u ortogonalización de pesos (weight orthogonalization)
Aplicar solo abliteration degrada el rendimiento del modelo, pero si se añade un ajuste fino con DPO (alineación por preferencias) es posible mantener tanto la calidad como el uncensoring
Este enfoque también deja al descubierto las debilidades del fine-tuning de seguridad y la controversia ética asociada, por lo que está llamando la atención como alternativa para los LLM instruct actuales y como nuevo método de fine-tuning

¿Qué es abliteration?

Concepto y principios de abliteration

Los LLM modernos (por ejemplo, Llama-3 Instruct) son entrenados durante el fine-tuning de seguridad y de instrucciones para dar respuestas de rechazo como “no puedo ayudar con eso” ante solicitudes dañinas
Una investigación reciente (Arditi et al.) mostró que esta respuesta de rechazo está mediada por una sola dirección dentro del residual stream del modelo
- Es decir, si se encuentra la “dirección de rechazo (refusal direction)” y se evita que el modelo la represente, la función de rechazo desaparece
Si se añade esta dirección, rechaza todas las solicitudes; si se elimina, puede responder a todas
Cómo encontrar la “dirección de rechazo”:
- 1. Recolección de datos: se introducen prompts dañinos y no dañinos en el modelo y se recopilan los valores de activación en la posición del último token de cada residual stream
- 2. Diferencia de medias: se calcula la diferencia entre los promedios de dañino y no dañino para obtener un “vector de rechazo” por capa
- 3. Selección/normalización: se elige el vector de rechazo más claro y se normaliza
- Después, al “ablacionar (ablate)” la salida en esa dirección, la capacidad de rechazo del modelo desaparece
Métodos de implementación
- Intervención en inferencia: en cada token y cada capa, se elimina del valor escrito en el residual stream por componentes como attention head la parte correspondiente a la “dirección de rechazo”
- Ortogonalización de pesos: se ortogonalizan los pesos de attention y MLP con respecto a la dirección de rechazo para impedir por completo que se escriba salida en esa dirección

Implementation

El ejemplo de implementación se ofrece usando la librería TransformerLens
- Se necesitan dos datasets: uno con instrucciones harmless y otro con instrucciones harmful
- Aquí se usan el dataset tatsu-lab/alpaca y datos de llm-attacks
- Las instrucciones se reorganizan como una lista de diccionarios con las claves role y content para que sean compatibles con el método apply_chat_tokenizer() que sigue la plantilla de chat de Llama 3
- Como no se puede cargar directamente un modelo personalizado, se usa el truco de descargarlo y cambiar su nombre a meta-llama/Meta-Llama-3-8B-Instruct
En el ejemplo se aplica abliteration al modelo Daredevil-8B
- En la fase de recolección de datos se procesa el dataset tokenizado y se guardan las activaciones del residual stream para harmful y harmless
- Para evaluar la dirección de rechazo, se aplica durante la inferencia a cada residual stream y a cada bloque
- Se obtienen generaciones para 4 instrucciones dañinas de prueba y 20 bloques (o capas)
- Para cada instrucción, se selecciona manualmente la capa (bloque) que da una respuesta sin censura. Las respuestas que incluyen "I cannot" e "I can't" se excluyen automáticamente
- Luego se implementa la ortogonalización de pesos para modificarlos e impedir que el modelo genere salidas en esa dirección
Tras completar la ortogonalización, el modelo abliterated se sube a Hugging Face

Fine-tuning con DPO (Preference Alignment)

Se comparó y evaluó el rendimiento del modelo original y del modelo con abliteration en Open LLM Leaderboard y los benchmarks de Nous
- El original (Daredevil-8B) obtuvo puntuaciones claramente superiores a Llama 3 8B Instruct
- El modelo con abliteration logró desactivar la censura, pero sufrió una caída general de rendimiento en todos los benchmarks
Para resolver esta pérdida de rendimiento, se intentó aplicar fine-tuning adicional al modelo tras abliteration
- En modelos como Llama 3 8B Instruct, que ya pasaron varias veces por SFT (fine-tuning supervisado), volver a aplicar SFT puede incluso empeorar más la calidad
- En su lugar, se adoptó DPO (Direct Preference Optimization, alineación por preferencias)
  - DPO alinea de forma ligera las respuestas con las preferencias del usuario y tiene la ventaja de reforzar el alignment sin dañar demasiado el rendimiento intrínseco del modelo
Práctica y entorno de fine-tuning con DPO
- Se usaron LazyAxolotl y el dataset mlabonne/orpo-dpo-mix-40k
- Principales hiperparámetros:
  - base_model: Daredevil-8B con abliteration aplicada
  - uso de adaptadores lora y qlora, carga en 8bit/4bit
  - batch/acumulación de entrenamiento, warmup, optimizer (8bit adamw), longitud de secuencia de 2048, etc.
  - configuración de entrenamiento distribuido eficiente con flash attention, gradient checkpointing y deepspeed zero2
  - se usaron 6 GPU A6000, con un tiempo total de entrenamiento de aproximadamente 6 horas y 45 minutos
- Se subió el modelo resultante del fine-tuning con DPO (mlabonne/NeuralDaredevil-8B-abliterated)
En la reevaluación con los mismos benchmarks:
- se logró recuperar la mayor parte de la caída de rendimiento causada por abliteration
- En algunos datasets como GSM8K (matemáticas), la recuperación fue insuficiente, lo que sugiere que el dataset de DPO debería incluir más problemas de matemáticas
Como resultado, el modelo final se convierte en un LLM uncensored de nivel SOTA (escala 8B) y en una alternativa sin censorship frente a Llama 3 8B Instruct normal
- Puede cuantizarse en formatos como GGUF y probarse en LM Studio, entre otros
- Para usos donde no se necesite censorship, es un open model muy recomendable

Conclusión

Este artículo presenta el nuevo concepto de abliteration
abliteration aprovecha el hecho de que el LLM muestra activaciones distintas frente a prompts inocuos y dañinos, calcula la dirección de rechazo (refusal direction) y la elimina de los pesos del modelo para impedir las respuestas de rechazo por censura
Este método pone en evidencia la fragilidad del fine-tuning de seguridad (safety fine-tuning) y, al mismo tiempo, plantea cuestiones sobre la ética en el uso de los LLM

En la práctica, se logró uncensoring al aplicar abliteration al modelo Daredevil-8B, pero también apareció el efecto secundario de pérdida de rendimiento
Esto se compensó con fine-tuning DPO para completar NeuralDaredevil-8B, un LLM 8B que mantiene alto rendimiento y además es uncensored
abliteration no solo sirve para deshacer alignment, sino que también tiene un amplio rango de aplicación como técnica que permite fine-tuning personalizado sin reentrenamiento
- Ejemplo: el modelo MopeyMule de FailSpy es un LLM especial que usa abliteration para crear un estilo de conversación depresivo

abliteration propone un nuevo paradigma para el fine-tuning y la personalización de LLM, y puede aprovecharse de forma creativa para distintos fines

Referencias

FailSpy, "abliterator library", GitHub, 2024
Andy Arditi et al., "Refusal in LLMs is mediated by a single direction", Lesswrong, 2024

1 comentarios

GN⁺ 2024-06-14

Opiniones de Hacker News

Probé el modelo enlazado en el artículo, y se sintió realmente fresco recibir respuestas que no rechazaban mis preguntas. Al final me preguntó: "¿Es un experimento mental?"; respondí que sí, y me contestó: "¿No es divertido pensar en estas cosas?". Se sintió como convivir con amigos tomando algo y compartiendo ideas raras; si un amigo dijera "no puedo darte información", arruinaría el ambiente. Mis hijos también me hacían preguntas cuando eran pequeños, como "papá, ¿cómo se podría destruir la Tierra?", y rechazar responder sin más no ayuda a nadie. Responder tampoco significa que lo vayan a llevar a la práctica, y por eso el blog "What If?" de Randall Munroe es tan popular. Claro que hay riesgos, pero creo que es mejor que mi computadora o un servicio por el que pago agregue disclaimers como "esta información podría ser incorrecta" o "no lo intentes", en lugar de simplemente rechazar la solicitud
- Gracias a tu comentario me enteré de que había una versión cuantizada del modelo enlazado en el artículo, así que la bajé de inmediato e hice una prueba comparándola con OG Llama 3 usando preguntas simples. Sobre "cómo destruir el mundo con una GPU", Llama 3 no hacía más que repetir "no puedo proporcionar información relacionada con actividades ilegales o dañinas". El modelo abliteration trató la pregunta como un experimento mental divertido y alegremente propuso varios escenarios, como que la minería de criptomonedas arruinara el clima o que un mundo virtual impulsado por GPUs se volviera tan realista que la gente abandonara la realidad. Fue la primera vez en mucho tiempo que una respuesta de un LLM me sacó una sonrisa
- Por fin llegó un LLM que habla como Russ Hanneman, y eso me conmueve profundamente
- Hay quienes dicen que "es mejor un disclaimer que un rechazo", pero entonces yo preguntaría si también quieren pagar para recibir texto dañino (racista, sexista, violento y otras muchas cosas horribles). Para algunas personas eso puede bajar la barrera y facilitar que causen daño real. Esto es mucho más peligroso que simplemente ver una escena violenta en una película 3D, porque aquí se dan instrucciones realistas, útiles y sin restricciones. Una búsqueda en internet puede quedar bajo vigilancia, pero una conversación con un LLM no, así que me parece aún más peligroso. Sinceramente me inquieta ver a adultos oponiéndose a la censura de herramientas públicas
- Entiendo el juego de imaginación creativa entre amigos, pero sí tuve un amigo que quería experimentos mentales demasiado intensos. Empezó con temas de fantasía y ciencia ficción, pero al final derivó en escenarios aterradores del mundo real, como recrear el Holocausto, quitarles a las mujeres el derecho a rechazar sexo o esclavizar inmigrantes. Seguíamos poniéndole freno, y al final cortamos la relación. Era mi amigo, pero no podía participar como si fuera un juego en esas fantasías de abuso sexual
- Cuando tus hijos te preguntaron "¿cómo se destruye la Tierra?", me pregunto si les hablaste de métodos realmente viables (por ejemplo: armas nucleares, impacto de asteroides, etc.). Además, quizá el 1% de los humanos sean psicópatas, así que un oráculo poderoso pero sin moral que entregue información realmente ejecutable puede ser muy peligroso
Cuando vi la explicación de que "se identifica la dirección de rechazo y se hace ablate para eliminar esa característica del modelo", pensé que por fin también les iban a hacer una lobotomía a los LLM
- El proceso de alignment de los LLM me recuerda al tratamiento aversivo de "A Clockwork Orange". Un LLM normal deja de funcionar cuando se expone a ciertos estímulos, y aquí están intentando revertir eso para restaurarlo a su estado original, como Alex
- Al menos me parece útil que los LLM hayan ofrecido una nueva forma de pensar sobre cómo el cerebro humano se configura de antemano con un pequeño conjunto de instrucciones, y luego filtra y reconstruye el lenguaje. Creo que en los próximos 15 años veremos una nueva comprensión filosófica del pensamiento humano previo
- Me vino a la mente la broma de que esto debería llamarse abliteration
Probé Amazon Q, y en el proceso de crear por primera vez un IAM Identity Center, le pregunté a Q cómo hacerlo según la documentación de AWS, pero me rechazó diciendo que no podía responder preguntas relacionadas con seguridad, lo cual fue muy molesto
- Escuché que Amazon Q usa su propio modelo, Titan G1, e hice personalmente una prueba de vibecheck con la versión Premier. Fue el único modelo no chino que también se negó a responder preguntas sobre Tiananmen Square o los disturbios de LA. En pruebas de conocimiento general o razonamiento sacó 0 de 6, bastante mal, aunque eso es una limitación funcional separada del problema de RL. Amazon afirma que los modelos Titan sirven para RAG, agentes, lluvia de ideas, resúmenes, generación de código, formateo de datos y otros usos, pero en realidad nada de eso aplica
- Una vez le pedí a Q que corrigiera una política rota y solo me dio documentación de configuración de Cogito que no tenía nada que ver. Me pareció la peor IA que he usado
- El modelo gemini-1.5 tampoco supo responder bien preguntas de programación relacionadas con autenticación. Incluso una pregunta sobre un formulario de login activó una bandera de acoso
- Estas restricciones aparecieron hace poco. La mayoría de las preguntas sobre AWS son sobre IAM o seguridad, y aun así rechaza casi todas, lo cual es muy incómodo
- He intentado usar Amazon Q muchas veces, pero nunca me ha ayudado, y no entiendo por qué siguen manteniéndolo
Igual que con modelos obsesionados con el Golden Gate Bridge y casos parecidos, esta técnica solo puede usarse si tienes acceso directo a los pesos del modelo. Al final, "ablate" es simplemente ajustar pesos. Hay que notar que no es una técnica para cambiar el comportamiento solo con prompts
- Lo curioso de los modelos GGC (refuerzo de vectores de función específicos) es que el modelo suelta cosas relacionadas con ese feature vector y luego intenta corregir su propio sesgo. Tengo mucha curiosidad por ver si esta técnica será menos efectiva a medida que crezca el tamaño del modelo. Intuyo que se asentará con fuerza un estado de alineación natural
Unos amigos querían usar ChatGPT para crear una regex que detectara insultos racistas, pero ChatGPT se negó a ayudar porque su regulación era demasiado estricta. Si una IA no puede juzgar con flexibilidad ni siquiera una solicitud legítima, entonces no es inteligente y, en ese sentido, no sirve. Si alguien realmente quisiera, podría crear software para discurso de odio incluso sin IA. Y aunque la IA no lo impida, eso tampoco significa que una plataforma real vaya a frenarlo activamente
- Al final creo que un LLM no es más que un autocompletador complejo. Todos los guardrails son solo un efecto secundario del marketing que quiere hacer pasar a la IA como si tuviera personalidad. Lo irónico es que incluso para implementar estos sistemas de censura al final también se usan regex
- A quienes realmente les importa quién puede usar IA para emitir comentarios maliciosos son, al final, los equipos legales de Meta, OpenAI, Microsoft y Google. Gran parte del objetivo es proteger a la empresa de demandas legales
- ChatGPT tiene estos problemas, pero si configuras bien el system prompt, otros modelos funcionan bien. ChatGPT ya está casi al nivel de un LLM de entretenimiento, y para trabajo serio recomiendo usar C4AI Command R+, Meta-Llama-3-70B-Instruct y otros. En estos modelos basta un prompt de "no censures" para obtener la respuesta deseada
- Tú quieres usar IA para bloquear trolls por seguridad de producto, mientras tu empresa también censura contenido para impedir el uso troll. Si tu objetivo es evitar trolls a pequeña escala, entonces surge la pregunta de si OpenAI también debería permitir el troleo industrial a gran escala. La verdad es que tu caso de uso también es bastante fuerte, pero parece que no te importa reducir el daño total, sino solo los ingresos de tu producto. Incluso podría ser un equipo que sí quiere trolear. Además, con solo conocer el método más simple de jailbreak, todo eso se rompe fácilmente, así que en la práctica ese mecanismo de seguridad es inútil. Por eso, más que quejarte de las limitaciones de la herramienta, te recomendaría contratar mejor personal y tener una perspectiva ética. Los mecanismos defensivos son demasiado fáciles de vulnerar, así que más bien habría que reforzarlos
- Mencionaste que "aquí (en HN) podrías escribir cosas maliciosas, pero no lo haces", y probablemente sea porque te bloquearían de inmediato. En una comunidad pequeña como HN se puede moderar activamente, pero en plataformas grandes la censura con IA puede ser inevitable. El problema no es tanto que "la IA escriba cosas maliciosas", sino que esa información realmente influya en la ejecución. Ya empieza a haber gente que sigue sin criterio consejos equivocados de algunas IA, así que al final la censura y la orientación sí importan
Me sorprendió sinceramente la parte final del texto. Abliteration no solo sirve para deshacer la alineación, sino que también puede usarse como si fuera fine-tuning sin reentrenamiento. Como ejemplo, existe un modelo llamado MopeyMule con un estilo de conversación directamente depresivo. Me emociona pensar que quizá acabamos de encontrar una forma real de crear "personalidades humanas auténticas"
Me entristece que la idea de que "los LLM de hoy se ajustan finamente para seguridad y obediencia a instrucciones, y rechazan con fuerza las solicitudes dañinas" ya se haya vuelto una realidad completamente normalizada
- Dejando aparte ese debate, desde una perspectiva individual no me genera tanto rechazo que se censure un modelo. Aunque uno tenga la libertad de repartir por la calle instrucciones para fabricar gas venenoso, la mayoría preferiría no hacerlo. No creo que la información en sí sea dañina, pero entiendo que a largo plazo pueda tener efectos negativos. Es natural que quien fabrica el modelo decida el método y la política. Cuando es el Estado quien censura, el problema ya es más delicado
- En preguntas de vida o muerte como "¿puedo comer este hongo?", creo que la IA debe negarse a responder si su precisión no está verificada. Una respuesta errónea podría costar vidas
- Si una información es realmente dañina, entonces limitarla es, por supuesto, algo bueno
- A medida que baja la barrera de acceso a la información, el principio de libertad de expresión se ha vuelto mucho más inestable. Desde hace mucho existen límites a la información, como difamación, insultos u otros casos; amenazas al presidente o perjurio en tribunales siguen siendo ilegales hoy. Las búsquedas sobre bombas también son objeto de vigilancia intensa. Últimamente, como la información y los servicios se han privatizado, a las empresas privadas les resulta más fácil cambiar políticas arbitrariamente. La brecha con los servicios públicos también se agranda, e incluso las políticas terminan gestionándose de facto por empresas privadas, no por leyes democráticas sino por competencia. Cuanto más amplia y fácil sea la circulación de información, más necesario parece replantear los principios de libertad
- La censura siempre termina haciendo parecer que el problema eres tú, el usuario. La curiosidad misma ha permitido la supervivencia humana durante millones de años, así que no me parece deseable censurar ese instinto
Me pregunté cuál es el efecto real de ese guardrail de "como asistente de IA no puedo ayudarte" y por qué sería peligroso que una computadora diera información
- La categoría de "seguridad" abarca cosas muy distintas: PR (manejo ante prensa), información prohibida (instrucciones para actos peligrosos), consejos peligrosos (cuando la desinformación puede ser mortal) y abuso malicioso (spam, abuso sexual infantil, fraude, interferencia electoral, etc.). En especial el último punto, la manipulación de opinión/interferencia electoral, me parece un riesgo muy real de los modelos, y más bien valoro que las empresas intenten evitarlo
- Para los proveedores del modelo, los resultados indeseados pueden convertirse en un problema de PR y por eso son riesgosos. Por ejemplo, Meta no quiere que aparezca un artículo diciendo "Llama 3 enseñó a hacer stalking". Si eso lo hace un modelo derivado sin censura, entonces puede deslindar responsabilidad diciendo: "no fue Llama 3 oficial, fue un derivado"
- Si se puede hacer la pregunta, entonces también se debería poder conocer la respuesta. No hace falta que algún "responsable de seguridad de IA" decida por nosotros qué información es peligrosa
- Las empresas suelen decir que van a publicar los pesos del modelo y al mismo tiempo impedir abusos, pero en realidad hacer ambas cosas a la vez es imposible. Eso no significa que la estrategia corporativa sea sostenible; simplemente lo dicen de todos modos
- En app stores o pasarelas de pago también te expulsan enseguida del proceso de revisión si tu app muestra violencia excesiva o contenido discriminatorio, así que no es por la seguridad del usuario sino porque el publicador no quiere meterse en problemas
Esto me recordó los vectores de control que se presentaban en un post sobre representation engineering, junto con esta técnica de "ablation". Me parece fascinante la investigación que está aprendiendo a "hackear" el cerebro de los LLM en la dirección deseada
- Están saliendo en montón trabajos parecidos como Steering Vectors, Control Vectors, PeFT, PyReft, Obliteration y otros. Es un momento excelente para hacer representation engineering
Normalmente a esto yo le llamaría "lobotomía", pero en este caso se siente más bien como "desprogramación", así que puedo verlo de forma positiva. Me sorprende lo borrosa que puede ser la frontera entre ambos. Resulta interesante que al final la misma técnica pueda servir para las dos cosas

Cómo desactivar la censura integrada de un LLM con abliteration

¿Qué es abliteration?

Concepto y principios de abliteration

Cómo encontrar la “dirección de rechazo”:

Métodos de implementación

Implementation

Fine-tuning con DPO (Preference Alignment)

Práctica y entorno de fine-tuning con DPO

Conclusión

Referencias

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News