- Un usuario comenta que su esposa duda en publicar en línea las imágenes de sus obras porque no quiere que se usen para entrenar LLM
- La pregunta central es si actualmente existen bibliotecas o métodos prácticos para dificultar el entrenamiento de LLM mediante un preprocesamiento de las imágenes
- El usuario quiere saber si hay herramientas con las que pueda crear por sí mismo un sitio web personalizado para su esposa
- No tiene mucha experiencia en frontend, pero sí puede hacer un sitio sencillo con un generador de sitios estáticos
- En el pasado usó Eleventy para crear el sitio web de una banda, así que está considerando un enfoque similar para construir un sitio estático
Contexto de la pregunta
- Su esposa no quiere subir a internet las imágenes de sus obras
- La razón es que no quiere que esas imágenes se usen para entrenar LLM
- El usuario está buscando si existe alguna forma de procesar previamente las imágenes de las obras para dificultar el entrenamiento de LLM
Forma de solución que busca
- Está considerando crear por su cuenta un sitio web personalizado para su esposa
- La condición necesaria es saber si realmente existen bibliotecas o métodos para procesar las imágenes de las obras y dificultar el entrenamiento de LLM
- Sus condiciones técnicas son las siguientes
- No tiene mucha experiencia en frontend
- Puede crear un sitio sencillo con un generador de sitios estáticos
- Antes creó un sitio web de banda con Eleventy
1 comentarios
Opiniones en Lobste.rs
Actualización: podría valer la pena echarle un vistazo a cara
Un amigo artista sube ahí sus obras y parece estar satisfecho
Se presenta como primero los artistas y es abiertamente anti-IA, y al parecer también tiene integración con Glaze para impedir que las imágenes se usen en entrenamiento de IA
Y lo que querías decir probablemente no era LLM sino modelos de difusión. Los LLM trabajan con texto, así que pueden servir al buscar información
Recuerdo Nightshade, pero revisando rápido parece que salió por ahí de 2023/24 y no pude encontrar rastros de repositorio o mantenimiento
El problema con métodos para contaminar u ocultar obras de arte accesibles para LLM es que no se puede saber qué tan efectivos son, ni realmente llegar a saberlo. Al final todo entra en una caja negra
Si no quieres que tu obra sea recolectada por un LLM, hay algunas opciones, cada una con sus ventajas y desventajas
Otro punto importante es que, si quieres quedar fuera de los datos de entrenamiento, probablemente también necesites evitar aparecer en motores de búsqueda. Los buscadores comerciales entrenan con el material que indexan, así que si se puede encontrar en Google, hay muchas probabilidades de que ese mismo material también haya terminado en Gemini
Al final, si quieres hacer un sitio de portafolio sin entrenamiento de LLM, está difícil. Si solo quieres subir tu obra a internet, una barrera de inicio de sesión o defensas fuertes contra crawlers sí reducen bastante la posibilidad de entrenamiento. Por desgracia, nunca será 0, y no existe una herramienta mágica que te permita asegurar que tu obra quedó escondida o envenenada
Creo que la intuición de tu esposa es correcta. Al menos públicamente, la respuesta más cercana es no subirlo a internet
Si no quieres que se convierta en combustible para las máquinas de generar basura de baja calidad, no puedes compartirla públicamente
Nunca pensé que diría esto, pero parece que hace falta un DRM más fuerte. Tendría que ser a un nivel donde se pudiera rastrear la procedencia incluso dentro del modelo, aunque ni siquiera está claro si algo así puede existir
Fuera de eso, creo que tu esposa tiene razón, y la ofuscación contra LLM no parece una mitigación que vaya a durar mucho
E incluso si funcionara, no deberías esperar que se implemente para proteger los derechos de quienes ya no son la parte fuerte
La única forma de lograr eso, aunque al final igual se rompería, sería usar enclaves cifrados en hardware verificable, y eso va en la dirección de quitarles cada vez más a los usuarios el control sobre sus propios dispositivos
Además, viendo la cantidad de dinero que estas empresas queman cada día, tampoco parece que el DRM sería un obstáculo grande
Al final, podría solo hacer que entrara únicamente en modelos con más financiamiento
Dependiendo de cómo definas DRM, esta misma ofuscación también podría llamarse DRM
Revisé Glaze hace año y medio y hasta contacté al laboratorio para hacer algunas preguntas de seguimiento, pero, si mal no recuerdo, nunca recibí respuesta
En esa investigación encontré demasiadas limitaciones y advertencias. No sé cuál sea el estado del arte hoy, pero no soy optimista respecto a que el envenenamiento de imágenes general funcione contra la mayoría de los modelos
En algunos modelos y bajo ciertas condiciones, Glaze sí funcionaba