17 puntos por GN⁺ 2024-05-06 | 2 comentarios | Compartir por WhatsApp
  • El machine unlearning se refiere a eliminar datos no deseados de un modelo entrenado, y está creciendo el interés por editar modelos sin necesidad de reentrenarlos desde cero
    • Por ejemplo, esto incluye eliminar información personal, conocimiento desactualizado, material con copyright, contenido dañino/peligroso, capacidades riesgosas y desinformación

Formas de unlearning

  • Unlearning exacto (Exact unlearning)
    • Requiere que el modelo al que se le aplicó unlearning y el modelo reentrenado sean distribucionalmente idénticos
    • La clave es que el algoritmo de entrenamiento tenga componentes modulares que correspondan a distintos conjuntos de ejemplos de entrenamiento
  • “Unlearning” mediante privacidad diferencial (Differential Privacy)
    • Consiste en hacer que el modelo no dependa de un punto de datos específico
    • Requiere cercanía distribucional entre el modelo con unlearning y el modelo reentrenado
  • Unlearning empírico con espacio de ejemplos conocido (Empirical unlearning with known example space)
    • Se aplica cuando los datos a desaprender se conocen con precisión
    • Es una forma de hacer unlearning mediante fine-tuning del modelo
  • Unlearning empírico con espacio de ejemplos desconocido (Empirical unlearning with unknown example space)
    • Se aplica cuando el alcance o los límites de los datos a desaprender no están claros
    • Esto incluye casos de desaprender conceptos, hechos o conocimiento
  • Pedir directamente el unlearning (Just ask for unlearning)
    • Es una forma de solicitarle de manera directa el unlearning a un LLM potente

Evaluación del unlearning

  • Evaluar el unlearning es un problema muy difícil, especialmente por la grave falta de métricas y benchmarks
  • En la evaluación del unlearning hay que centrarse en tres aspectos
    • Eficiencia: qué tan rápido es el algoritmo en comparación con reentrenar
    • Utilidad del modelo: si hay degradación de desempeño en los datos que deben conservarse o en tareas ortogonales
    • Calidad del olvido: cuánto de los datos que debían olvidarse realmente fue desaprendido
  • Los benchmarks TOFU y WMDP fueron propuestos recientemente y están ayudando a evaluar el unlearning
    • TOFU se enfoca en el unlearning de datos personales de autores, y WMDP en el unlearning de conocimiento peligroso relacionado con bioseguridad/ciberseguridad
    • Realizan una evaluación de alto nivel basada en posesión y comprensión de conocimiento, no en instancias individuales
  • Parece necesario contar con benchmarks de unlearning centrados en aplicaciones, como información personal identificable, copyright, toxicidad y backdoors

Realidad y perspectivas del unlearning

  • Existe un espectro de dificultad en el unlearning
    • El texto de baja frecuencia es lo más fácil de desaprender, y luego se vuelve progresivamente más difícil con texto de alta frecuencia y después con hechos fundamentales
    • Esto se debe a que cuanto más fundamental es un conocimiento, más conectado está con otros conocimientos, por lo que el alcance del unlearning crece exponencialmente
    • Los ejemplos aprendidos al inicio pueden ser difíciles de desaprender porque luego quedan “sobrescritos” por ejemplos posteriores
    • En cambio, los ejemplos aprendidos tarde pueden ser difíciles de desaprender porque el modelo podría olvidarlos de forma gradual o catastrófica
  • Protección de copyright
    • El unlearning parece prometedor para proteger el copyright, pero por ahora el panorama legal no está claro
    • Si el uso de contenido con copyright califica como uso justo bajo la doctrina de fair use, entonces el unlearning podría no ser necesario
  • Sistemas de IA basados en búsqueda
    • Un enfoque es eliminar del corpus de preentrenamiento el contenido que podría recibir solicitudes de unlearning y guardarlo en una base de datos externa
    • Cuando llegue una solicitud de unlearning, basta con borrar esos datos de la base de datos
    • Pero hay problemas como deduplicación, manejo de citas/adaptaciones y ataques de extracción de datos
  • Seguridad de la IA
    • El unlearning puede usarse para eliminar conocimiento, conductas y capacidades peligrosas del modelo
    • Pero debe verse como uno de varios mecanismos de mitigación y defensa posteriores, reconociendo que tiene trade-offs con otras herramientas como el fine-tuning de alineación o el filtrado de contenido

La opinión de GN⁺

  • El machine unlearning todavía está en una etapa temprana de investigación, y especialmente en los modelos de lenguaje grandes parece haber muchas dificultades. Salvo en casos especiales donde es posible el unlearning exacto, la mayoría de los enfoques dependen de métodos empíricos y experimentales.
  • El mayor obstáculo parece ser el problema de la evaluación. Como la definición y los criterios de unlearning son ambiguos, y la situación cambia según la aplicación, será difícil avanzar sin benchmarks y métricas de evaluación adecuados. Aun así, es alentador que estén apareciendo benchmarks centrados en aplicaciones como TOFU y WMDP.
  • Sobre el problema del copyright, además del unlearning también vale la pena considerar soluciones económicas. OpenAI está haciendo algo como ofrecer servicios de unlearning exacto mediante reentrenamiento periódico, y mientras tanto indemnizar al propietario del modelo por infracciones de copyright que ocurran entre un ciclo y otro de reentrenamiento.
  • Los sistemas basados en búsqueda tienen muchas ventajas, pero al entrar en los detalles no parecen tan sencillos como podría pensarse. Hay muchos retos por resolver, como la deduplicación, la identificación de copyright y la defensa contra ataques de extracción de datos. A medida que aumenta la capacidad de aprendizaje en contexto de los LLM, parece que retrieval por sí solo podrá hacer muchas cosas, pero difícilmente sustituirá por completo al fine-tuning.
  • Desde la perspectiva de la seguridad de la IA, el unlearning es un campo de investigación bastante interesante. Pero no es una solución universal y deberá usarse junto con otras técnicas de defensa como alineación y filtrado. A medida que los modelos ganen autonomía, también parece probable que crezca el interés desde la perspectiva de políticas públicas y regulación.

2 comentarios

 
GN⁺ 2024-05-06
Opiniones de Hacker News
  • Existe un problema fundamental: incluso si se elimina cierta información del modelo, puede volver a aprenderse mediante inferencia o prompting
  • En lugar de filtrar la información prohibida en sí, podría haber una solución en los pesos e incentivos que forman la capa final de inferencia
  • Los modelos "seguros" actuales muchas veces no dan resultados satisfactorios, porque todavía no queremos modelos veraces, sino modelos que permitan un desarrollo adicional
  • Podría haber una forma de codificar y asignar peso al principio de que el modelo fue generado por algo externo
  • Eliminar conjuntos de datos que infringen derechos de autor podría ser la forma más aceptable legalmente
  • ¿Y si, en lugar de recopilar todo el contenido, solo se recopila el contenido marcado explícitamente como utilizable para construir modelos?
  • Si el modelo se entrena con DP, los datos terminan tan mezclados que ya no puede devolver datos exactos o, por el contrario, la etapa de DP se vuelve inútil
  • El borrado de conocimiento es una tarea problemática
  • Existe preocupación por la "solidez" de las IA entrenadas, desentrenadas y reentrenadas
  • En 2014, los responsables de formular políticas no predijeron que el deep learning se convertiría en una enorme mezcla de datos y cómputo
  • "Desaprender" no es el objetivo real, y no se trata de querer que el modelo, metafóricamente, esconda la cabeza en la arena
  • Las nuevas startups incluyen una turba con rastrillos dentro del loop de entrenamiento de ML