¿Qué métodos se usan hoy para dificultar el entrenamiento de LLM con imágenes de obras?

(lobste.rs)

1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp

Un usuario comenta que su esposa duda en publicar en línea las imágenes de sus obras porque no quiere que se usen para entrenar LLM
La pregunta central es si actualmente existen bibliotecas o métodos prácticos para dificultar el entrenamiento de LLM mediante un preprocesamiento de las imágenes
El usuario quiere saber si hay herramientas con las que pueda crear por sí mismo un sitio web personalizado para su esposa
No tiene mucha experiencia en frontend, pero sí puede hacer un sitio sencillo con un generador de sitios estáticos
En el pasado usó Eleventy para crear el sitio web de una banda, así que está considerando un enfoque similar para construir un sitio estático

Contexto de la pregunta

Su esposa no quiere subir a internet las imágenes de sus obras
- La razón es que no quiere que esas imágenes se usen para entrenar LLM
El usuario está buscando si existe alguna forma de procesar previamente las imágenes de las obras para dificultar el entrenamiento de LLM

Forma de solución que busca

Está considerando crear por su cuenta un sitio web personalizado para su esposa
La condición necesaria es saber si realmente existen bibliotecas o métodos para procesar las imágenes de las obras y dificultar el entrenamiento de LLM
Sus condiciones técnicas son las siguientes
- No tiene mucha experiencia en frontend
- Puede crear un sitio sencillo con un generador de sitios estáticos
- Antes creó un sitio web de banda con Eleventy

1 comentarios

GN⁺ 4 시간 전

Opiniones en Lobste.rs

Actualización: podría valer la pena echarle un vistazo a cara
Un amigo artista sube ahí sus obras y parece estar satisfecho
Se presenta como primero los artistas y es abiertamente anti-IA, y al parecer también tiene integración con Glaze para impedir que las imágenes se usen en entrenamiento de IA
Y lo que querías decir probablemente no era LLM sino modelos de difusión. Los LLM trabajan con texto, así que pueden servir al buscar información
Recuerdo Nightshade, pero revisando rápido parece que salió por ahí de 2023/24 y no pude encontrar rastros de repositorio o mantenimiento
El problema con métodos para contaminar u ocultar obras de arte accesibles para LLM es que no se puede saber qué tan efectivos son, ni realmente llegar a saberlo. Al final todo entra en una caja negra
Si no quieres que tu obra sea recolectada por un LLM, hay algunas opciones, cada una con sus ventajas y desventajas
1. No subirla a internet. Es muy simple, pero solo funciona si nadie más la sube también. Si es un libro, por ejemplo, una empresa de IA podría conseguirlo por otra vía, como escaneándolo
2. Publicarla en línea solo detrás de registro e inicio de sesión. La gente interesada puede acceder, y los LLM comunes no. Claro, eso asume que nadie la volverá a subir sin esa barrera de acceso
3. Publicarla detrás de defensas fuertes contra crawlers. Me da algo de pena porque es mi herramienta, pero poner algo como iocaine delante del sitio puede bloquear a muchos crawlers. No a todos, pero sí a suficientes como para reducir bastante la probabilidad de que entre al entrenamiento, y sin poner una barrera demasiado grande para visitantes legítimos
  Otro punto importante es que, si quieres quedar fuera de los datos de entrenamiento, probablemente también necesites evitar aparecer en motores de búsqueda. Los buscadores comerciales entrenan con el material que indexan, así que si se puede encontrar en Google, hay muchas probabilidades de que ese mismo material también haya terminado en Gemini
  Al final, si quieres hacer un sitio de portafolio sin entrenamiento de LLM, está difícil. Si solo quieres subir tu obra a internet, una barrera de inicio de sesión o defensas fuertes contra crawlers sí reducen bastante la posibilidad de entrenamiento. Por desgracia, nunca será 0, y no existe una herramienta mágica que te permita asegurar que tu obra quedó escondida o envenenada
Creo que la intuición de tu esposa es correcta. Al menos públicamente, la respuesta más cercana es no subirlo a internet
- No me gusta decirlo, pero en general parece que así está la situación para la expresión creativa humana
  Si no quieres que se convierta en combustible para las máquinas de generar basura de baja calidad, no puedes compartirla públicamente
Nunca pensé que diría esto, pero parece que hace falta un DRM más fuerte. Tendría que ser a un nivel donde se pudiera rastrear la procedencia incluso dentro del modelo, aunque ni siquiera está claro si algo así puede existir
Fuera de eso, creo que tu esposa tiene razón, y la ofuscación contra LLM no parece una mitigación que vaya a durar mucho
- Ver a gente en un foro hacker que me gusta discutir a favor del DRM realmente muestra lo grave que está la situación
- Por suerte, el DRM no funciona ni puede funcionar
  E incluso si funcionara, no deberías esperar que se implemente para proteger los derechos de quienes ya no son la parte fuerte
- De ninguna manera. No hace falta un DRM más fuerte
  La única forma de lograr eso, aunque al final igual se rompería, sería usar enclaves cifrados en hardware verificable, y eso va en la dirección de quitarles cada vez más a los usuarios el control sobre sus propios dispositivos
- Viendo que ignoran por completo el copyright, las licencias y demás, no parece que poner más DRM vaya a ayudar
  Además, viendo la cantidad de dinero que estas empresas queman cada día, tampoco parece que el DRM sería un obstáculo grande
  Al final, podría solo hacer que entrara únicamente en modelos con más financiamiento
  Dependiendo de cómo definas DRM, esta misma ofuscación también podría llamarse DRM
Revisé Glaze hace año y medio y hasta contacté al laboratorio para hacer algunas preguntas de seguimiento, pero, si mal no recuerdo, nunca recibí respuesta
En esa investigación encontré demasiadas limitaciones y advertencias. No sé cuál sea el estado del arte hoy, pero no soy optimista respecto a que el envenenamiento de imágenes general funcione contra la mayoría de los modelos
En algunos modelos y bajo ciertas condiciones, Glaze sí funcionaba

¿Qué métodos se usan hoy para dificultar el entrenamiento de LLM con imágenes de obras?

Contexto de la pregunta

Forma de solución que busca

Lecturas relacionadas

1 comentarios

Opiniones en Lobste.rs