Un enfoque desconcertantemente simple para recuperar conocimiento olvidado en los LLM

(arxiv.org)

1 puntos por GN⁺ 2024-11-05 | 1 comentarios | Compartir por WhatsApp

El paper de ICLR 2025 muestra que el machine unlearning en LLM puede no borrar por completo el conocimiento, sino ocultarlo, y que la cuantización en la etapa de despliegue puede volver a revelarlo
En experimentos con varias técnicas de cuantización y niveles de precisión, los métodos de unlearning con restricciones de utilidad conservaron en precisión completa un promedio del 21% del conocimiento que debía olvidarse, pero después de la cuantización a 4 bits aumentó hasta el 83%
En el caso GA_KLR del dataset BOOKS, la tasa original de retención de conocimiento del modelo de precisión completa era del 13%, pero después de la cuantización se recuperó hasta aproximadamente el 89%
La causa es que, debido a tasas de aprendizaje pequeñas y a la regularización con datos retain, la diferencia de pesos entre el modelo original y el modelo con unlearning se vuelve pequeña, y la cuantización puede mapearlos al mismo valor
Las mitigaciones consisten en usar una tasa de aprendizaje mayor y un module-level saliency map para actualizar solo los componentes de mayor impacto, pero siguen siendo sensibles a los hiperparámetros y aún falta una solución estable

¿El unlearning borra el conocimiento o lo oculta?

Los LLM adquieren una potente capacidad generativa al entrenarse con grandes corpus de texto, pero también pueden aprender comportamientos no deseados presentes en los datos de entrenamiento
- Algunos ejemplos son la reproducción no autorizada de contenido con copyright, la generación de datos personales como información de contacto, y la generación de mensajes ofensivos o dañinos
- También existe un contexto legal, como el “Right to be Forgotten” del GDPR, en el que los usuarios pueden exigir la eliminación de sus datos personales de un modelo entrenado
El machine unlearning es un enfoque que busca eliminar la memorización de conocimientos específicos para quitar la influencia de datos problemáticos, sin volver a entrenar todo el modelo
- Reentrenar un LLM suele ser poco práctico por su alto costo y tiempo
- El objetivo es eliminar conocimiento específico manteniendo al máximo la utilidad del modelo
La pregunta clave es si los métodos actuales de unlearning para LLM logran un olvido real, o si simplemente ocultan el conocimiento de una forma que los benchmarks actuales no detectan

Métodos existentes de unlearning para preservar la utilidad

Se abordan métodos representativos de unlearning como gradient ascent(GA) y negative preference optimization(NPO)
- GA aplica gradient ascent sobre la cross-entropy loss para reducir la posibilidad de predecir respuestas correctas en el dataset forget
- NPO considera el forget set como negative preference data y ajusta el modelo modificando el objetivo de offline DPO para asignar baja likelihood al forget set
GA y NPO no fueron diseñados originalmente para preservar la utilidad, por lo que normalmente se usan junto con técnicas de regularización
- Gradient descent sobre el dataset retain
- Minimización de la KL divergence entre las distribuciones de probabilidad del modelo con unlearning y el modelo objetivo en entradas retain
Estas combinaciones intentan equilibrar el rendimiento de olvido y la utilidad del modelo, pero ese equilibrio puede romperse en entornos con cuantización

Resultados experimentales: la cuantización revive el conocimiento olvidado

El experimento consiste en aplicar unlearning al modelo objetivo y al dataset forget para crear un unlearned model, y luego comparar su rendimiento en precisión completa y después de la cuantización
En precisión completa, el modelo con unlearning muestra un fuerte rendimiento de unlearning, pero simplemente aplicar cuantización daña ese rendimiento
Los resultados cuantitativos muestran que la recuperación de conocimiento no se limita a una sola configuración
- Los métodos de unlearning con restricciones de utilidad conservan en precisión completa un promedio del 21% del conocimiento que debía olvidarse
- Después de la cuantización a 4 bits, este valor aumenta al 83%
- Al aplicar GA_KLR en el dataset BOOKS, en precisión completa solo se conservó el 13% del conocimiento original, pero después de la cuantización se recuperó hasta aproximadamente el 89%
El mismo fenómeno se verifica en varias técnicas de cuantización, niveles de precisión y benchmarks

La vulnerabilidad que generan pequeños cambios en los pesos

La hipótesis central es que el unlearning existente depende de pequeños cambios en los pesos
- Para mantener la utilidad del modelo se usan tasas de aprendizaje pequeñas y regularización con el retain set
- Como resultado, los pesos del LLM objetivo y del LLM con unlearning quedan muy cerca
La cuantización puede mapear pesos cercanos al mismo valor
- El LLM objetivo y el LLM con unlearning llegan a tener pesos similares después de la cuantización
- Como el LLM objetivo cuantizado conserva la mayor parte del conocimiento que debía olvidarse, el LLM con unlearning cuantizado también puede recuperar ese conocimiento
Este problema es importante en despliegues reales
- La cuantización se usa ampliamente para desplegar LLM en entornos con recursos limitados
- Si un modelo fue ajustado con fine-tuning para olvidar contenido malicioso o datos personales, ese contenido no debería recuperarse después de la cuantización

Estrategias de mitigación y límites pendientes

La estrategia propuesta de unlearning robusto a la cuantización se centra en reducir la discrepancia de olvido entre el modelo full-precision y el modelo quantized
La idea básica es aplicar una tasa de aprendizaje mayor tanto a la forgetting loss como a la retaining loss
- La forgetting loss penaliza a los modelos que conservan información del forget set
- La retaining loss busca preservar la utilidad en el dataset retain
Una tasa de aprendizaje grande puede reducir la recuperación de conocimiento, pero también tiene efectos secundarios importantes
- El forgetting gradient puede inducir actualizaciones agresivas y hacer que el modelo se ajuste en exceso
- Si se usa una tasa de aprendizaje grande en el dataset retain, puede generarse un sesgo hacia los retain data y empeorar el rendimiento en tareas fuera de retain
Para reducir los efectos secundarios, se construye un saliency map a nivel de módulo y se actualizan selectivamente solo los componentes de mayor influencia relacionados con los datos que deben olvidarse
- Experimentalmente, esta targeted strategy ayuda a mitigar el riesgo de actualizaciones agresivas, preservar la utilidad del modelo y producir resultados de unlearning más equilibrados
Sin embargo, este framework es muy sensible a la elección de hiperparámetros, por lo que el modelo con unlearning puede volverse inestable
El código está disponible en FailureLLMUnlearning

1 comentarios

GN⁺ 2024-11-05

Opiniones de Hacker News

En resumen, el hallazgo de este paper es que al cuantizar un modelo se revierten varias técnicas de “desaprendizaje (unlearning)”
Las técnicas de desaprendizaje consisten en actualizar los pesos del modelo de cierta manera para que olvide hechos específicos; por lo general buscan satisfacer reclamos de copyright, aunque no sé bien si realmente se usan
Parece que aquí hace falta un buen análisis del modelo de amenazas. Por ejemplo, si tengo un modelo fp32 ajustado finamente para olvidar un hecho específico y puedo cuantizarlo para recuperar ese hecho, habría que analizar en qué situaciones eso se vuelve riesgoso
- El desaprendizaje se describe como “el proceso de borrar conocimiento específico de un LLM preservando al máximo la utilidad del modelo”
  Es decir, suena a algo como: “sabemos que nuestro modelo no sirve sin tu material fuente. Así que tomaremos las partes útiles de tu material y difuminaremos el resto, cobraremos a los usuarios por la utilidad que tú aportaste y a ti no te pagaremos nada”
- En el futuro habrá LLM dedicados a encontrar “LLM al estilo de El candidato de Manchuria”
- Más allá del “desaprendizaje”, me pregunto si ejecutar un modelo fp16 en fp32 o fp64 mejora algo
  Por ejemplo, si revela conocimientos a los que no se podía acceder con menor precisión
- Si una organización tiene a alguien con un cargo de seguridad de IA, supongo que usará técnicas de desaprendizaje para intentar que el modelo no recuerde recetas comunes de drogas ilegales, venenos o explosivos
  Aquí el modelo de amenazas probablemente sea que se distribuya un modelo en el que esos hechos se hayan “revivido” por accidente. Más aún porque es común distribuir modelos cuantizados
  La mayor parte de esta información “peligrosa” ya está en libros de texto, patentes y foros de química amateur, pero socialmente solemos asumir que quien es lo bastante inteligente como para encontrarla y entenderla no la va a usar mal. Lo que no queremos es que Mythbusters la explique en televisión en horario estelar o que ChatGPT se la explique a cualquiera
Creo que la cuantización distrae del punto central. Si existe aunque sea una forma de revertir el desaprendizaje, entonces ese conocimiento sigue estando en los pesos, y eso es teoría de la información básica
Imagino que debe haber innumerables maneras de recuperar conocimiento eliminado sin usar cuantización
- Creo que la cuantización o el submuestreo en sí podrían ser una forma fundamental de abordar este problema
  1. Entrenar un modelo normal de precisión completa
  2. Cuantizarlo hasta que el rendimiento esté cerca del límite y luego aplicar el proceso de desaprendizaje
  3. Después, para iteraciones de ajuste, volver a entrenarlo, convertirlo y sobremuestrearlo a FP
    Así se podría crear un cuello de botella de información. Los ecos de lo olvidado podrían tener dificultades para atravesar un cuello de botella tan estrecho
- Es cierto que la cuantización no tiene nada de especial, pero no diría que “distrae del punto central”. Como dice el título, es simplemente un método vergonzosamente simple
- Eso se parece a decir que el cifrado distrae del punto central
  La información está ahí, sí, pero recuperarla es otro problema. En este caso, la diferencia importante es que la cuantización permite recuperar la información sin conocer la clave que la hizo “olvidarse”
- Si existe una forma de revertir el desaprendizaje, también debería existir una forma de usar ese método para identificar los pesos que contienen esa información e impedir que se transmita. En el núcleo del aprendizaje está la detección
  La información puede seguir estando dentro, pero podría ser imposible de detectar con cualquier método conocido. Si pones todos los pesos del modelo en cero, la información queda eliminada con certeza. El problema es que tal vez sea imposible identificar cuándo se alcanzó el objetivo de eliminar por completo cierta información sin destruir otra
  Quizá en el futuro aparezcan cosas como vulnerabilidades de día cero de reversión del desaprendizaje
Es parecido a decirle a un bebé que olvide “lo malo” que aprendió. Casi seguro que, en vez de olvidarlo, ese conocimiento se reforzaría aún más.
Cada vez que escucho hablar de la fiebre por la IA, me recuerda a la fiebre por las impresoras 3D de hace 10 o 15 años. Se decía cosas como “un golpe mortal para las fábricas”, “vamos a imprimir nuestro propio auto”, “vamos a imprimir nuestra propia comida”. Creo que la IA basada en LLM correrá la misma suerte: es posible, pero en la práctica no tanto.
- La “fiebre” actual no es tanto la idea de que la IA basada en LLM sea una única tecnología que lo cambiará todo, sino más bien la expectativa de que todos los avances en IA/machine learning, incluidos métodos que todavía ni imaginamos, se combinarán en una tecnología teórica que cambiará todo en el futuro cercano.
  Además, 10 o 15 años no son nada. No veo a las impresoras 3D como una tecnología realmente transformadora en comparación con la IA, pero hay que recordar que, salvo la excepción de la Segunda Guerra Mundial, los aviones y las computadoras también tardaron 30 o 40 años en tener un impacto social y de consumo amplio más allá del uso militar.
- ¿Quieres decir que no llegará al nivel de Star Trek, pero sí será increíble y muy útil?
- Tendemos a sobreestimar los efectos de la tecnología a corto plazo y a subestimarlos a largo plazo.
  Las impresoras 3D quizá terminen cambiando drásticamente toda la manufactura, pero para llegar ahí hacen falta muchas iteraciones. Incluso hoy, en teoría, podríamos imprimir en 3D muchas de las cosas que fabricamos, pero los métodos de manufactura existentes siguen siendo más baratos y funcionan bien, así que no hay un factor que obligue al cambio. Si creáramos asentamientos autosuficientes en el espacio, ese sería un entorno donde la impresión 3D podría llegar mucho más lejos. Al no haber mucha mano de obra humana ni enormes cadenas de suministro, se necesitaría manufactura portátil, independiente y de propósito general.
  Los LLM no van a reemplazar pronto a escritores o programadores humanos, salvo en las tareas más simples. En cambio, los potencian. En programación, se parecen más a un autocompletado más inteligente y versátil. También me han resultado útiles para buscar conceptos, investigar, resumir y documentar código y texto. Estas cosas no me reemplazan, pero me permiten hacer un poco más, un poco más rápido.
  A muy largo plazo, los LLM podrían volverse lo bastante potentes como para sintetizar aplicaciones completas de verdad, más allá de ejemplos forzados. Pero, igual que con la impresión 3D reemplazando toda la manufactura, harán falta muchas iteraciones, y quizá también un factor que obligue al cambio.
- Aquí discrepo bastante.
  Recuerdo esa fiebre. La escuchaba con frecuencia incluso antes de entrar a una empresa que se tomaba la impresión 3D bastante en serio, como Autodesk.
  No tenía experiencia previa con impresión 3D, pero me tomó apenas un par de meses darme cuenta de que lo que decía la prensa era una tontería. Técnicamente, no estaba ni cerca de lo que afirmaban algunos artículos, por ejemplo imprimir un auto propio; y, desde el punto de vista de negocio, había sorprendentemente pocos casos en los que usar impresión 3D en lugar de la manufactura tradicional mejorara algo.
  No quiero exagerar. La impresión 3D es excelente y tiene muchos usos reales. El problema era que los medios alrededor de ella la inflaron demasiado.
  La mayoría de las personas que realmente conocían la impresión 3D sabían que la prensa era, por decirlo amablemente, demasiado entusiasta. Y aun varios años después, esas grandes visiones no se han concretado.
  En cambio, con la IA hay dos grandes diferencias. Primero, ya demostró ser enormemente útil y ya tuvo 100 veces el impacto que tuvo la impresión 3D. Basta pensar cuándo fue la última vez que un producto lanzado, en la práctica, hace unos cuatro años logró una penetración de mercado tan impresionante. ChatGPT es, efectivamente, el producto de mayor crecimiento de la historia en cantidad de usuarios.
  Segundo, quienes están dentro del sector en general están enormemente entusiasmados con esta tecnología, creen que puede mejorar muchísimo más y que su potencial actual todavía no se ha aprovechado por completo. Mi opinión definitivamente va en esa dirección.
Desde el punto de vista de la teoría de la información, suena un poco inesperado. En la representación completa de 32 bits del modelo parece que se eliminó este conocimiento, pero al comprimirlo a 4 bits ese conocimiento vuelve a aparecer.
Entonces da curiosidad qué información desaparece realmente durante la etapa de compresión y cuantización.
- Una forma sencilla de explicar este paper es que la mayoría de los métodos de “olvido” pueden verse como sumar algún delta w a los parámetros de la red neuronal, pero la mayor parte de ese w simplemente se “redondea y desaparece” durante la cuantización. Es decir, queda quantize(X+w) ~= quantize(X).
  Es una idea bastante ingeniosa, considerando que muchos de los métodos citados optimizan y regularizan explícitamente para mantener w pequeño y evitar degradar la precisión de evaluación.
  Por eso surge la duda de si, desde la teoría de la información, estos métodos realmente pueden llamarse olvido, o si son más bien como poner un if (false) alrededor del conocimiento latente.
- Lo que se eliminó en la versión de 32 bits probablemente no sea el conocimiento en sí, sino la representación del conocimiento. Y es posible que se haya asignado algo de espacio para almacenar la información de que no se debe hablar sobre cierto tema.
  Por ejemplo, las personas también conocen varias expresiones racistas, pero saben que no deben acceder a ese conocimiento ni usarlo.
  Pero si una persona o un modelo de IA recibe un golpe en la cabeza, o pasa por algo como la cuantización, el conocimiento sobre X puede permanecer mientras desaparece el conocimiento de que no debe hablar sobre X. Visto así, resulta bastante intuitivo.
- Es posible que el conocimiento no haya desaparecido, sino que esté oculto.
  Si pensamos en una red neuronal como código, los pesos serían el código fuente. El ajuste fino podría ser, en la práctica, un hack para que ese código no devuelva cierta salida.
  De hecho, el ajuste fino se parece en cierta medida a eso.
  Así que puede que solo se haya construido un firewall alrededor de cierta salida. Pero al cuantizar, esa modificación reciente puede desaparecer. Es demasiado sutil para sobrevivir.
  En cambio, que la cuantización no destruye todo el conocimiento lo demuestran los modelos cuantizados populares.
  Además, si @simonw tiene activadas las notificaciones, este tema parece perfecto para escribir un artículo.
- El conocimiento no fue eliminado; simplemente nunca se usaba debido a los pesos.
  La cuantización cambia el cálculo, y ahora ese conocimiento se vuelve accesible.
- En realidad no es sorprendente.
  El punto flotante siempre me pareció una forma extraña de representar el lenguaje. Si uno hace zoom en una sola variable, ¿habrá conjuntos de significado como https://vinaire.me/2019/07/17/scn-8-8008-the-emotional-scale... y estarán sobre alguna pendiente, pero con significados especiales asignados a ciertos rangos? Puedo imaginar circuitos neuronales diseñados cuidadosamente para decodificar una variable así, y también imaginar cómo construir una red con esa estructura, pero no resulta intuitivo que una red neuronal aprenda una estructura así. Puedo creer en una escala que va de “bueno” a “malo”, pero me cuesta creer que muchísimos valores distintos tengan significados específicos asociados.
  Pensándolo así, alguna forma de red neuronal binaria parecería muy efectiva, pero en la práctica no parece serlo. Aunque sí parece que internamente las redes neuronales no usan mucha más precisión que unos 4 bits.
  Estos sistemas de “olvido” no eliminan realmente el “engrama” de memoria dentro de la red, sino que se parecen más a aprender un nuevo comportamiento que inhibe ciertas salidas. No es muy distinto del problema de agregar nuevo conocimiento gradualmente a una red, salvo que lo que se aprende en la segunda etapa es bastante diferente del aprendizaje normal. Si no quieres arruinar la red, puedes imaginar agregar un bit extra de precisión para añadir el nuevo comportamiento: a baja precisión se mantiene el comportamiento anterior, y a alta precisión se hacen distinciones importantes para el comportamiento “olvidado/aprendido”.
La hipótesis central es que, para lograr el olvido sin dañar la utilidad del modelo, los métodos existentes suelen usar tasas de aprendizaje pequeñas y regularización sobre el conjunto de retención, de modo que los cambios en los pesos del modelo durante el olvido sean mínimos.
Como resultado, los pesos del modelo del LLM objetivo y del LLM olvidado quedan muy cerca.
Entonces parecería necesario impedir que el contenido no deseado se aprenda durante la etapa de entrenamiento base, o hacer que el proceso de olvido del modelo base sea consciente de la cuantización.
No soy para nada experto en esta área, así que quizá sea una pregunta tonta. ¿Esto significa que si cuantizas llama3 a 4 bits puedes acceder a información oculta, como por ejemplo cómo sintetizar cierto compuesto? Obviamente con menor calidad.
- Yo me preguntaba exactamente lo mismo. ¿Olvido = guardrails? Suena como si hubieran ajustado los pesos apenas un poco para que se autocensure, pero ese ajuste es tan fino que no sobrevive a baja resolución.
  Pero si saltarse los guardrails fuera tan fácil, creo que ya lo habríamos escuchado.
- Solo es posible si la “receta para sintetizar cierto compuesto” ya estaba originalmente dentro del modelo.
La parte de “a pesar de la efectividad de los métodos de olvido actuales, se ha prestado poca atención a si los métodos existentes de olvido en LLM logran un olvido verdadero o simplemente ocultan el conocimiento” plantea una buena pregunta.
En el contexto de los LLM, y también en el contexto filosófico del conocimiento en general, hay que analizar qué significan olvidar y recordar, si un LLM puede “olvidar” algo que “aprendió” y, si puede, qué significa exactamente eso en términos matemáticos y computacionales.
También me pregunto si un LLM puede volver a enseñarse por sí mismo algo que antes había olvidado, a partir del conocimiento existente mediante procesos lógicos, implicaciones, derivaciones, razonamiento inductivo, razonamiento deductivo, etc.
Si eso es posible, también surge la pregunta de cuál es el núcleo más pequeño de un LLM capaz de hacerlo y por qué.
No creo que este sea ni el primer paper ni el último sobre este tema.
Uso LLM cuantizados en entornos de producción, pero nunca he sentido que los modelos estén menos censurados.
Para olvidar comportamientos reforzados, la técnica de abliteration [1] parece mucho más potente.
1 https://huggingface.co/blog/mlabonne/abliteration
- ¿Por casualidad usaste específicamente un modelo olvidado mediante ascenso de gradiente?
El problema de los modelos actuales no es que aprendan, sino que se los adoctrina a la fuerza.
Falta pensamiento crítico en la etapa de aprendizaje.
- Antropomorfizar a los LLM no es técnicamente correcto ni particularmente útil.
- Si no fuera así, ¿cómo censurarías a un LLM? ¿De verdad quieres que un LLM pueda hablar libremente?
Ni siquiera hace falta usar cuantización. La mayoría de los benchmarks se pueden romper solo con prompts.
https://arxiv.org/abs/2410.02879

Un enfoque desconcertantemente simple para recuperar conocimiento olvidado en los LLM

¿El unlearning borra el conocimiento o lo oculta?

Métodos existentes de unlearning para preservar la utilidad

Resultados experimentales: la cuantización revive el conocimiento olvidado

La vulnerabilidad que generan pequeños cambios en los pesos

Estrategias de mitigación y límites pendientes

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News