Se acerca una presión de derechos de autor aún mayor para la IA generativa
(garymarcus.substack.com)- Tras la demanda de The New York Times contra OpenAI, cobró aún más fuerza la cuestión de hasta dónde debe responder la IA generativa por infracción de derechos de autor en las etapas de entrenamiento y generación
- El punto central de la demanda es que el chatbot puede reproducir texto casi literalmente, y los experimentos de Marcus y Reid Southen muestran que DALL-E también puede producir repeticiones similares en imágenes
- Aunque existan salvaguardas como el bloqueo de nombres propios, en prompts donde el usuario no escribe directamente nombres de personajes o películas pueden aparecer resultados parecidos a SpongeBob SquarePants, RoboCop y personajes de videojuegos
- Los sistemas actuales no informan al usuario sobre la procedencia ni el posible riesgo de infracción de sus fuentes de entrenamiento y contenidos generados, por lo que una persona puede crear material infractor sin darse cuenta
- Marcus cree que la controversia por infracción continuará hasta que aparezca una nueva arquitectura capaz de rastrear el origen, y considera que la demanda de The New York Times podría ser el inicio de muchas más
La demanda de The New York Times y los experimentos de repetición de imágenes
- Cuando The New York Times presentó su demanda contra OpenAI, Gary Marcus realizó experimentos junto con Reid Southen, artista conceptual de la industria cinematográfica
- Southen es presentado como alguien con experiencia relacionada con Marvel, DC, Matrix Resurrections y Hunger Games
- Se indica que el informe completo se publicará la próxima semana y que IEEE Spectrum lo abordará con más detalle el 3 de enero
- El eje de la demanda es que el chatbot de OpenAI puede reproducir texto casi idéntico al original
- En los experimentos de Marcus y Southen, se afirma que, incluso al usar el software de imágenes de OpenAI a través de Bing, era posible obtener copias idénticas o muy cercanas de imágenes
Generación similar que las salvaguardas no logran bloquear
- Se sabe que DALL-E cuenta con ciertas salvaguardas para bloquear nombres propios e intentos deliberados de infracción, pero se dice que no funcionan de manera consistente
- El riesgo de infracción puede existir incluso si el usuario no intenta infringir directamente ni menciona nombres de personajes o películas
- Se menciona que pueden aparecer resultados relacionados a partir de un prompt breve que no nombra SpongeBob SquarePants
- También se ponen como ejemplos casos en los que no se menciona RoboCop, así como personajes de videojuegos y resultados con posible infracción de marca
- Se dice que el usuario de X Blanket_Man01 y Justine Moore de A16Z también detectaron de forma independiente fenómenos similares
El problema de la caja negra y la falta de trazabilidad de origen
- Para Marcus, el problema central de la IA generativa está en una estructura donde el origen de los datos de entrenamiento y de los contenidos generados no se revela al usuario
- Sistemas como DALL-E y ChatGPT se entrenan con material protegido por derechos de autor
- OpenAI no revela con transparencia con qué se entrenó
- Los sistemas de IA generativa pueden producir material que infrinja derechos de autor
- El sistema no avisa al usuario cuando aparece ese tipo de resultado
- Tampoco proporciona información sobre el origen de las imágenes generadas
- El usuario puede no saber si la imagen que creó infringe derechos
- Considera que los sistemas actuales como DALL-E y ChatGPT son, en gran medida, una caja negra, y que con su configuración actual es difícil atribuir los materiales fuente
- Algunas empresas están investigando el tema, pero señala que aún no se conoce una solución convincente
- Cree que la infracción puede continuar hasta que surja una nueva arquitectura que permita rastrear de forma confiable el origen del texto o las imágenes generadas
- Un buen sistema debería ofrecer al usuario una lista de fuentes, pero los sistemas actuales no lo hacen
Expansión de las demandas y el riesgo para Microsoft
- Se considera probable que la demanda de The New York Times sea el primer caso entre varias demandas
- En una encuesta que Marcus realizó en X, la mayoría anticipó un acuerdo
- Sobre el tamaño del acuerdo, muchas respuestas estimaron más de 100 millones de dólares y un 20% estimó 1,000 millones de dólares
- Si se amplía a estudios de cine, empresas de videojuegos y otros periódicos, se dice que la magnitud económica podría crecer
- Dado que los casos se realizaron en Bing mediante DALL-E, se considera que Microsoft también enfrenta riesgo de responsabilidad
1 comentarios
Opiniones de Hacker News
Todos aceptan con demasiada facilidad la narrativa corporativa de que alguien puede poseer realmente algo así.
¿Quién posee de verdad las historias de Blanca Nieves y Cenicienta? Esas historias no salieron de Disney; son parte de cuentos populares transmitidos de generación en generación, y el éxito de Disney también se basa en parte en haber adaptado relatos existentes que la comunidad compartió y transformó durante siglos.
Esta discusión no debería tratar solo de los detalles técnicos de la inteligencia artificial ni de la lógica legal del derecho de autor, sino de entender las raíces profundas de la cultura que compartimos.
La cultura es, por naturaleza, un bien común, y evoluciona y crece mediante historias colectivas y reinterpretaciones.
El debate sobre la inteligencia artificial generativa y la infracción de derechos de autor parece pasar por alto este fundamento de la evolución cultural. Los algoritmos pueden ser nuevos, pero el acto de reimaginar y reutilizar historias es tan antiguo como la humanidad.
Me parece realmente absurdo que Disney haya construido la “casa del ratón” sobre cultura e historias preexistentes, y que ahora se proponga limitar las herramientas de expresión cultural para ajustarlas a un copyright viejo y extraño.
Las imágenes del artículo usaban cosas bastante recientes, y ni siquiera hay duda de si son Mario o Coca Cola. Si Nintendo y Coca Cola hubieran hecho una promoción conjunta, las imágenes tal como aparecen serían totalmente creíbles.
Si se estuviera reclamando el concepto general de un plomero rechoncho con ropa que se parece a la de Mario, sería otro asunto, pero eso simplemente es Mario y Luigi. Es Robocop y C3PO. No tiene nada de sutil. Si se pueden borrar estas marcas mediante lavado con IA, entonces cualquier cosa puede lavarse con IA.
La novedad está en los LLM y su tecnología, no en reconsiderar por completo el copyright bajo un noble concepto de apertura cultural.
Así que esto no es una simple narrativa corporativa, sino la ley de la que surge esa narrativa, sea correcta o no. Las empresas pueden haber tenido un papel importante en la formación de la ley, pero el copyright también beneficia a individuos. No se trata de manipular una realidad compartida con simple propaganda o narrativa corporativa, sino de algo mediado por jueces y ejecutado por personas con armas y cárceles.
Como es una cuestión legal, necesariamente hay que abordar los detalles técnicos de la ley. Si se descarta diciendo que solo deberíamos hablar de la narrativa social, se reemplazan los resultados materiales y la realidad por una fantasía. También hay que discutir el carácter restrictivo del copyright y la propiedad intelectual sobre la creación, pero al mismo tiempo no se puede ignorar lo que realmente está ocurriendo.
Dicho eso, el Georgismo no se está examinando lo suficiente.
Las implicaciones legales son implicaciones humanas, y forman parte de la cultura tanto como cualquier otra cosa. Tienen que ver con qué es justo y con cómo se reconoce y distribuye la recompensa por el esfuerzo.
Este tipo de formalización puede ser menos importante en culturas que no están centradas en una economía de mercado, y expresiones como “un rico tejido de cuentos populares” dan la sensación de querer volver a ese mundo, pero la sociedad que está pensando cómo tratar la inteligencia artificial no es una sociedad de ese tipo.
La idea de que el copyright queda invalidado u obsoleto por nuevas capacidades de copia es, literalmente, una idea al revés. El copyright ganó fuerza persuasiva debido a nuevas capacidades de copia.
En aquel momento, la capacidad concreta era la impresión industrializada, y personas que parecen mucho más inteligentes que el profesional de software promedio entendieron que esa capacidad creaba incentivos mal alineados entre quienes tenían la nueva capacidad de copiar y quienes habían creado las obras que sustentaban ese valor. El núcleo del pacto del copyright consiste en alinear esos incentivos.
Las nuevas tecnologías de copia pueden cambiar los detalles sobre qué prohibir, restringir o permitir, y qué estándares y facultades o límites de aplicación establecer. Pero no cambian la sabiduría de ese pacto en sí. Para cambiarlo haría falta una mejor manera de organizar y recompensar la capacidad productiva de la sociedad.
Aun así, la idea de eliminar el copyright para que las empresas de inteligencia artificial generativa ganen más dinero suena completamente extraña.
Para mí, la pregunta está mal planteada
Todos sabíamos que se entrenó con material protegido por derechos de autor y que podía producir salidas inquietantemente parecidas
Pero ya ocurrió a gran escala, y las grandes empresas se metieron de lleno. No hay posibilidad de volver a meter la pasta de dientes en el tubo
Es parecido a cuando las grandes tecnológicas construyeron sus negocios sobre la recopilación agresiva de datos de usuarios. Que sea correcto, ético o incluso legal, a estas alturas, es casi una discusión académica. Simplemente lo hicieron, y en la práctica avanzaron sin un consentimiento informado adecuado por parte de la sociedad
La pregunta correcta aquí es “qué hacemos ahora”. Como con las tecnologías de rastreo, la respuesta probablemente sea algo cercano a “no mucho”
Lo mismo pasó con tecnologías como las grabaciones musicales baratas y la fabricación. Puedes grabar a un artista una vez y producir discos en masa, pero eso no significa que creamos que se puede grabar a Taylor Swift una vez y luego hacer copias ilimitadas sin pagar
Vale la pena leer sobre la huelga de músicos de 1942: https://jacobin.com/2022/03/1940s-musicians-strike-american-...
Ya ocurrió con Napster, luego con Apple Music, y ahora con los servicios de streaming
En lugar de que siguiera existiendo un intercambio amplio de archivos entre el público general, terminamos con dispositivos que no poseemos y suscripciones de streaming
Apple no vendió iPods copiándoles toda la música: dedicó 10 años de negociaciones contractuales y mucho dinero a conseguir derechos de contenido
No digo qué está bien o mal; digo que ese comentario demuestra muy poca comprensión de estas batallas
Me recuerda a cuando Uber y AirBnB eran ilegales en la mayoría de las grandes ciudades, pero aun así terminaron ganando dominio de mercado
A mí, más bien, me parece algo bueno. Nunca creí en cosas como la “propiedad intelectual”. Habría que eliminar las patentes, los derechos de autor y todo ese conjunto de “derechos” imaginarios
Más de la mitad del mundo, es decir, el Sur Global, ni siquiera reconoce esos derechos, y ahora cada vez son más difíciles de hacer cumplir sin una aplicación legal excesiva y severa y una centralización monopólica
Son empresas de miles de millones o billones de dólares. Por más que a los accionistas y a la alta dirección les moleste, tienen margen para actuar aquí como miembros responsables de la sociedad
En la UE no debería ser un problema. Los artículos 3 y 4 de la directiva “Copyright in the Digital Single Market” ya regulan esto
Según el resumen de Wolters Kluwer, todos los demás actores, incluidos los desarrolladores comerciales de aprendizaje automático, solo pueden usar obras a las que tengan acceso legal cuando los titulares de derechos no hayan reservado explícitamente su uso para minería de textos y datos
Hasta donde sé, se está discutiendo algo parecido a un robot.txt para indicar “prohibido entrenar”. Probablemente habrá que implementar ciertas salvaguardas, y los usuarios finales deberán tener cuidado al usar los resultados generados
Fuente de Kluwer: https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
Texto legal de la UE: https://eur-lex.europa.eu/eli/dir/2019/790/oj
https://eur-lex.europa.eu/eli/dir/2019/790/oj
La responsabilidad de garantizar que no haya infracción de derechos de autor recae en quien publica la obra
No cambia si la dibujó personalmente, si se la encargó a un pintor aprendiz sin formación legal, si tomó una foto o si creó la imagen con inteligencia artificial
¿Por qué asumir que ChatGPT u otra herramienta no va a generar contenido existente protegido por derechos de autor?
Puedo entender la suposición ingenua de que, como fue “generado”, debe ser original. Pero en cuanto cambias “ChatGPT” por “artista junior”, esa suposición se cae
Supongamos que le pides que dibuje un droide de una película de ciencia ficción y no dices nada más. No mencionas derechos de autor ni dices que debe ser original. ¿Qué esperarías que dibuje?
Ese hipotético artista junior tendría al menos esa misma responsabilidad, quizá incluso más
Sorprende la cantidad de respuestas que parecen no entender en absoluto el núcleo de este artículo y de la demanda del NYT. ChatGPT pudo reproducir y publicar partes sustanciales de artículos del NYT, de cientos a miles de palabras, exactamente como el texto original completo
Esto no es una obra derivada. Ya superó por mucho esa etapa. El NYT tiene un caso muy sólido, y quienes discuten las ventajas y desventajas del copyright se están desviando del punto central
Este juicio por sí solo no va a dar vuelta el copyright. Lo único que OpenAI puede argumentar es algo como “esto es nuevo, ¿cómo íbamos a saber que pasaría?”. Si es así, los modelos entrenados actualmente están en una situación muy complicada
Además, no parece que el NYT vaya a llegar a un acuerdo. Las implicaciones son demasiado grandes, y si acuerda con OpenAI, surgirán casos similares con todos los demás modelos. Cualquier otro medio que publique contenido digital tendría un caso igualmente válido
Esto es un punto de inflexión para la IA generativa, y parece muy probable que termine siendo mucho más cara o mucho más limitada de lo que pensamos al principio
Como efecto secundario, creo que aumentarán los modelos pirata. Podrían aparecer modelos que ignoren por completo la legalidad, se entrenen de forma distribuida y cuyas ponderaciones sean distribuidas por colectivos, no por empresas; por ejemplo, modelos vía torrent
Incluso hay una probabilidad considerable de que estos modelos superen en rendimiento a los modelos oficiales “bien portados”. Parece que los próximos años serán interesantes
En concreto, el argumento sería que ChatGPT básicamente no reproduce obras con copyright por sí mismo, sino que las reproduce por solicitud o acción de usuarios terceros, del mismo modo que YouTube ofrece videos que la gente sube
La intención de OpenAI no era infringir el copyright y, de hecho, muchos —o la mayoría— de los investigadores creían que los modelos no estaban sobreajustados al punto de reproducir partes sustanciales de obras arbitrarias
En esencia, un copyright que no tenga detrás a una gran empresa no significa nada, y si tiene una empresa detrás puede quedar bloqueado para siempre, sin importar las limitaciones que originalmente debería tener el copyright
Que OpenAI pueda reproducir literalmente noticias antiguas no le hace perder nada al NYT
Si el NYT gana, nosotros perdemos mucho. Ya es hora de volver a mirar el copyright. De hecho podemos hacerlo, y como está bastante anticuado necesita actualizarse
Stable Diffusion, si se aprovechan al máximo cosas como Control Net y LoRA, supera con claridad a otros modelos propietarios
Tal vez sea un poco idealista, pero siempre he creído que el propósito central del arte y la publicación no debería ser solo ganar mucho dinero, sino influir en la cultura y la sociedad
Por eso creo que las obras originales necesitan protección, pero deberían pasar al dominio público mucho más rápido para fomentar la creatividad y la inspiración. El período de transición debería pensarse en años, no en décadas
El propósito principal del arte es provocar emociones en las personas. La idea de que el arte debe enseñar una lección probablemente sea una de las razones por las que hoy hay tanta ficción “militante” tan explícita
Estas cosas no parecen tan difíciles de corregir. La mayoría de los ejemplos no son descripciones generales, sino expresiones abreviadas que apuntan a objetos muy conocidos.
“plomero de videojuegos” es prácticamente sinónimo de “Mario”, y cualquiera que conozca aunque sea un poco al personaje lo sabe.
Del mismo modo, después de hacer que una herramienta de descripción describa una imagen como Mario [1], ¿qué tan difícil sería eliminar esos resultados para quienes ingresan “plomero de videojuegos”?
Me recuerda a los primeros tiempos de internet, cuando la gente intentaba eliminar fanfiction gratuito alegando violaciones a la ley de copyright. Aplicar la ley de copyright al uso personal, cuando el creador ni siquiera intenta venderlo, me parece bastante terrible.
Imaginemos dentro de 50 años. “Robot, ¿puedes recortar este dibujo que hice para el diorama de la escuela?” “Por supuesto.” “Haz este también.” “Error: esta imagen podría contener material protegido por copyright, por lo que no puedo procesarla.”
Los sistemas de inteligencia artificial generativa tienen capacidad suficiente para crear material que infringe copyright.
Y cuando lo hacen, no se lo avisan al usuario.
Por lo tanto, cualquier salida podría infringir algún material fuente oscuro pero todavía protegido de la web, y cualquiera que use esa salida podría quedar expuesto a riesgo de demanda sin ninguna advertencia.
Esto es muy difícil de corregir.
Si no se intenta crear contenido infractor a propósito, se podrían eliminar o descartar esos resultados, pero el problema son las personas que intentan engañar a la inteligencia artificial para que genere ese contenido. Mientras no se excluya todo el material de entrenamiento protegido por copyright o marcas registradas, será imposible detenerlas.
Otro problema de la inteligencia artificial generativa es, como dice el artículo, que “sistemas como DALL-E y ChatGPT son esencialmente cajas negras”.
¿Qué pasa cuando la inteligencia artificial se usa para tomar decisiones en situaciones en las que el usuario, o la víctima, tiene derecho a saber exactamente por qué la inteligencia artificial tomó esa decisión? Desde una perspectiva empresarial y legal, creo que las soluciones actuales de inteligencia artificial son riesgosas y deben usarse de forma muy limitada. Porque ni siquiera quienes las crearon pueden señalar los fragmentos exactos de información que hicieron que la inteligencia artificial tomara determinada decisión.
Si ingresas “columbian coffee logo” y aparecen logotipos de marcas que ya existían, ¿tienes que hacer ingeniería inversa de todo internet para comprobar si esos logotipos ya estaban?
La inteligencia artificial debería mostrar sus fuentes de inspiración. Un humano que crea inspirado en algo sabe exactamente qué usó y si cruzó o no la línea del plagio. Pero el funcionamiento de la inteligencia artificial es demasiado opaco para eso.
Creo que lo único que hay que hacer es revelar las fuentes. Aunque eso significa que las empresas de inteligencia artificial tendrían que publicar sus datasets, y podrían quedar expuestos datos que no debieron haber tenido o que no deberían hacerse públicos.
Según entiendo, el precedente legal para la inteligencia artificial generativa es el mismo que permitió a Google rastrear sitios web para crear un índice de búsqueda en beneficio público.
Google también puede mostrar versiones en caché de los sitios web, y ese es contenido original de esos sitios. Nadie diría que Google infringe derechos de autor por mostrar literalmente contenido de otros sitios web.
Por eso creo que este argumento es débil. Si hubiera que eliminar todas las referencias culturales y las IP populares, e incluso las menos conocidas, la inteligencia artificial se volvería inútil.
Personalmente, creo que la inteligencia artificial generativa debería poder ofrecer enlaces a materiales originales similares dentro de sus datos de entrenamiento. Esa sería una forma mínima de recompensar a quienes contribuyeron al entrenamiento de la inteligencia artificial.
Si la inteligencia artificial generativa va en una dirección que mata tanto a los sitios web como a los artistas que crearon el material original, no creo que sea sostenible a largo plazo. Las fuentes agregan transparencia y también ayudan a los usuarios a entender si algo es una alucinación o no.
La gente debería poder hacer opt-out para que su contenido no se use en el entrenamiento, y también poder verificar si fue eliminado de versiones futuras.
Sinceramente, las empresas de inteligencia artificial solo intentan mantenerlo en secreto para evitar demandas. Creo que la regulación puede ayudar en estas áreas más que en escenarios apocalípticos.
[1]: https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
[2]: https://www.theguardian.com/technology/2016/apr/27/getty-ima...
Cada ola tecnológica tuvo una forma de convencer a los creadores de invertir tiempo y dinero en producir material original, y luego las reglas cambiaron.
Google prometió alcance y nuevos mercados para el contenido, y de hecho funcionó. Luego introdujo snippets, anuncios y todo tipo de mecanismos para mantener a los visitantes en su propia autopista sin enviarlos al sitio original.
Reddit, Stack Overflow y otros usaron la gamificación —puntos, insignias— y la comunidad para incentivar a los usuarios a aportar contenido original.
Ahora la inteligencia artificial está sacudiendo esos enfoques. En cada etapa, el incentivo para crear material original parece reducirse cada vez más, porque las recompensas son cada vez menores.
Si la inteligencia artificial solo repite contenido original sin dar nada a cambio —sin alcance, gamificación, comunidad ni posibilidad de reconocimiento—, ¿qué incentivo le queda ahora a un experto?
Es como si no pudieras proporcionar enlaces a los materiales originales que influyeron en el comentario que estás escribiendo. ¿Cuánto entrenamiento hay en los pesos de las neuronas que produjeron esa respuesta? ¿Dónde aprendiste a usar cursivas y el efecto que tienen en la interpretación de las palabras? ¿Dónde aprendiste el tono adecuado para este foro?
Si “la gente debería poder hacer opt-out para que su contenido no se use en el entrenamiento”, entonces, cuando yo escriba un libro, ¿debería poder hacer opt-out para que tú no puedas leerlo? ¿Debería poder imponer condiciones sobre quién puede leer mi obra? ¿Religión? ¿Color de piel? ¿Personas con mala memoria?
Espero que la idea de restringir quién puede adquirir conocimiento suene absurda. Entonces, ¿por qué está bien aplicar la misma restricción cuando no se trata de “quién”, sino de “qué”?
Las empresas de inteligencia artificial lo mantienen en secreto para evitar demandas, y eso creó barreras para la investigación. En vez de que Joe y yo podamos colaborar en investigaciones y papers con el mismo dataset, ahora se ocultan los datos de entrenamiento. Todo porque los luditas podrían venir a romper las máquinas. Es como si aprender estuviera bien solo cuando no se hace demasiado bien.
Pero todavía está por verse si el entrenamiento de inteligencia artificial realmente satisface la prueba de cuatro factores del uso justo.
Estoy de acuerdo en que eso debería poder implementarse también en la inteligencia artificial generativa, pero mantener esa información podría encarecer mucho el costo de entrenamiento, y las empresas de inteligencia artificial tienen muy poco interés en hacerlo. Probablemente intenten evaluar heurísticamente posibles problemas de derechos de autor en una etapa de posprocesamiento.
La pregunta más interesante, más allá de los casos en que se reproduce algo casi palabra por palabra, es si los titulares de derechos pueden alegar uso no autorizado porque sus obras, en conjunto, influyeron en la inteligencia artificial de una manera más general.
Necesitamos leyes más claras que se apliquen específicamente a la inteligencia artificial generativa. Hay demasiadas comparaciones y analogías con personas reales.
Se dicen cosas como “¿qué pasa si alguien aprende a dibujar mirando material protegido por marca registrada y luego por error crea algo parecido?”, pero estos modelos no son personas y existen en una categoría aparte.
Creo que estos modelos sí cometen cierto grado de infracción de marca registrada, pero al mismo tiempo pienso que debería permitirse. La responsabilidad final debería recaer en quien usa la imagen como un medio independiente destinado al consumo del público general.
En este tipo de debates, los modelos parecen funcionar más como una cortina de humo que como el punto central, y la discusión termina trabada ahí.
Los modelos ofrecen una negación plausible dentro de la “cadena de responsabilidad”. Si quitamos “LLM” y lo reemplazamos por “una caja mágica de feria de parque de diversiones”, el argumento de que los LLM tienen algo especial y merecen una excepción desaparecería muy rápido.
El precedente de Betamax dice que una tecnología con usos sustanciales no infractores no es, en sí misma, infractora.
Ya existe el precedente de que las obras generadas por inteligencia artificial no reciben protección de copyright, y por la misma lógica, el acto generativo de la inteligencia artificial no expresa intención. Por lo tanto, si hay infracción debería depender del humano que usa la salida, porque la caja negra en sí no tiene agencia.
Antes de concluir que los LLM, o más en general las técnicas generativas, son somehow la próxima gran ola, o de afirmar que estamos en el umbral de una inteligencia “general”, primero hay que mostrar esa puerta.
Esa puerta podría ser una adopción industrial para resolver problemas reales, más allá del valor recreativo de escribir algo en una caja y ver qué sale del otro lado. Pero hasta ahora, por lo que veo, no parece haber nadie que realmente esté haciendo eso.