Se acerca una presión de derechos de autor aún mayor para la IA generativa

(garymarcus.substack.com)

2 puntos por GN⁺ 2023-12-31 | 1 comentarios | Compartir por WhatsApp

Tras la demanda de The New York Times contra OpenAI, cobró aún más fuerza la cuestión de hasta dónde debe responder la IA generativa por infracción de derechos de autor en las etapas de entrenamiento y generación
El punto central de la demanda es que el chatbot puede reproducir texto casi literalmente, y los experimentos de Marcus y Reid Southen muestran que DALL-E también puede producir repeticiones similares en imágenes
Aunque existan salvaguardas como el bloqueo de nombres propios, en prompts donde el usuario no escribe directamente nombres de personajes o películas pueden aparecer resultados parecidos a SpongeBob SquarePants, RoboCop y personajes de videojuegos
Los sistemas actuales no informan al usuario sobre la procedencia ni el posible riesgo de infracción de sus fuentes de entrenamiento y contenidos generados, por lo que una persona puede crear material infractor sin darse cuenta
Marcus cree que la controversia por infracción continuará hasta que aparezca una nueva arquitectura capaz de rastrear el origen, y considera que la demanda de The New York Times podría ser el inicio de muchas más

La demanda de The New York Times y los experimentos de repetición de imágenes

Cuando The New York Times presentó su demanda contra OpenAI, Gary Marcus realizó experimentos junto con Reid Southen, artista conceptual de la industria cinematográfica
- Southen es presentado como alguien con experiencia relacionada con Marvel, DC, Matrix Resurrections y Hunger Games
- Se indica que el informe completo se publicará la próxima semana y que IEEE Spectrum lo abordará con más detalle el 3 de enero
El eje de la demanda es que el chatbot de OpenAI puede reproducir texto casi idéntico al original
En los experimentos de Marcus y Southen, se afirma que, incluso al usar el software de imágenes de OpenAI a través de Bing, era posible obtener copias idénticas o muy cercanas de imágenes

Generación similar que las salvaguardas no logran bloquear

Se sabe que DALL-E cuenta con ciertas salvaguardas para bloquear nombres propios e intentos deliberados de infracción, pero se dice que no funcionan de manera consistente
El riesgo de infracción puede existir incluso si el usuario no intenta infringir directamente ni menciona nombres de personajes o películas
- Se menciona que pueden aparecer resultados relacionados a partir de un prompt breve que no nombra SpongeBob SquarePants
- También se ponen como ejemplos casos en los que no se menciona RoboCop, así como personajes de videojuegos y resultados con posible infracción de marca
- Se dice que el usuario de X Blanket_Man01 y Justine Moore de A16Z también detectaron de forma independiente fenómenos similares

El problema de la caja negra y la falta de trazabilidad de origen

Para Marcus, el problema central de la IA generativa está en una estructura donde el origen de los datos de entrenamiento y de los contenidos generados no se revela al usuario
- Sistemas como DALL-E y ChatGPT se entrenan con material protegido por derechos de autor
- OpenAI no revela con transparencia con qué se entrenó
- Los sistemas de IA generativa pueden producir material que infrinja derechos de autor
- El sistema no avisa al usuario cuando aparece ese tipo de resultado
- Tampoco proporciona información sobre el origen de las imágenes generadas
- El usuario puede no saber si la imagen que creó infringe derechos
Considera que los sistemas actuales como DALL-E y ChatGPT son, en gran medida, una caja negra, y que con su configuración actual es difícil atribuir los materiales fuente
- Algunas empresas están investigando el tema, pero señala que aún no se conoce una solución convincente
- Cree que la infracción puede continuar hasta que surja una nueva arquitectura que permita rastrear de forma confiable el origen del texto o las imágenes generadas
- Un buen sistema debería ofrecer al usuario una lista de fuentes, pero los sistemas actuales no lo hacen

Expansión de las demandas y el riesgo para Microsoft

Se considera probable que la demanda de The New York Times sea el primer caso entre varias demandas
- En una encuesta que Marcus realizó en X, la mayoría anticipó un acuerdo
- Sobre el tamaño del acuerdo, muchas respuestas estimaron más de 100 millones de dólares y un 20% estimó 1,000 millones de dólares
- Si se amplía a estudios de cine, empresas de videojuegos y otros periódicos, se dice que la magnitud económica podría crecer
Dado que los casos se realizaron en Bing mediante DALL-E, se considera que Microsoft también enfrenta riesgo de responsabilidad

1 comentarios

GN⁺ 2023-12-31

Opiniones de Hacker News

Todos aceptan con demasiada facilidad la narrativa corporativa de que alguien puede poseer realmente algo así.
¿Quién posee de verdad las historias de Blanca Nieves y Cenicienta? Esas historias no salieron de Disney; son parte de cuentos populares transmitidos de generación en generación, y el éxito de Disney también se basa en parte en haber adaptado relatos existentes que la comunidad compartió y transformó durante siglos.
Esta discusión no debería tratar solo de los detalles técnicos de la inteligencia artificial ni de la lógica legal del derecho de autor, sino de entender las raíces profundas de la cultura que compartimos.
La cultura es, por naturaleza, un bien común, y evoluciona y crece mediante historias colectivas y reinterpretaciones.
El debate sobre la inteligencia artificial generativa y la infracción de derechos de autor parece pasar por alto este fundamento de la evolución cultural. Los algoritmos pueden ser nuevos, pero el acto de reimaginar y reutilizar historias es tan antiguo como la humanidad.
Me parece realmente absurdo que Disney haya construido la “casa del ratón” sobre cultura e historias preexistentes, y que ahora se proponga limitar las herramientas de expresión cultural para ajustarlas a un copyright viejo y extraño.
- Para sostener ese argumento, tendrías que elegir ejemplos que no estén ya en el dominio público. Disney solo posee su propia interpretación, y quizá pueda reclamar zonas derivadas ambiguas si logra convencer a un tribunal, pero no posee por completo las historias de Blanca Nieves y Cenicienta.
  Las imágenes del artículo usaban cosas bastante recientes, y ni siquiera hay duda de si son Mario o Coca Cola. Si Nintendo y Coca Cola hubieran hecho una promoción conjunta, las imágenes tal como aparecen serían totalmente creíbles.
  Si se estuviera reclamando el concepto general de un plomero rechoncho con ropa que se parece a la de Mario, sería otro asunto, pero eso simplemente es Mario y Luigi. Es Robocop y C3PO. No tiene nada de sutil. Si se pueden borrar estas marcas mediante lavado con IA, entonces cualquier cosa puede lavarse con IA.
- En la realidad, cada persona vive bajo un sistema legal que no diseñó y que se sabe imperfecto. Se puede abogar por una reforma, pero los creadores de LLM serán juzgados según la ley vigente actualmente promulgada.
  La novedad está en los LLM y su tecnología, no en reconsiderar por completo el copyright bajo un noble concepto de apertura cultural.
  Así que esto no es una simple narrativa corporativa, sino la ley de la que surge esa narrativa, sea correcta o no. Las empresas pueden haber tenido un papel importante en la formación de la ley, pero el copyright también beneficia a individuos. No se trata de manipular una realidad compartida con simple propaganda o narrativa corporativa, sino de algo mediado por jueces y ejecutado por personas con armas y cárceles.
  Como es una cuestión legal, necesariamente hay que abordar los detalles técnicos de la ley. Si se descarta diciendo que solo deberíamos hablar de la narrativa social, se reemplazan los resultados materiales y la realidad por una fantasía. También hay que discutir el carácter restrictivo del copyright y la propiedad intelectual sobre la creación, pero al mismo tiempo no se puede ignorar lo que realmente está ocurriendo.
- Esta respuesta está demasiado desconectada de la realidad. La ley de derechos de autor es muy clara. Aquí, más bien, la narrativa corporativa es la afirmación de que la “IA” es algo nuevo y distinto, por lo que las leyes existentes no se aplican, y eso no tiene sentido.
- El dominio público y los bienes comunes también son parte del copyright, así que no es algo de lo que haya que hablar como si fuera un concepto olvidado que necesita ser restaurado en el discurso.
  Dicho eso, el Georgismo no se está examinando lo suficiente.
  Las implicaciones legales son implicaciones humanas, y forman parte de la cultura tanto como cualquier otra cosa. Tienen que ver con qué es justo y con cómo se reconoce y distribuye la recompensa por el esfuerzo.
  Este tipo de formalización puede ser menos importante en culturas que no están centradas en una economía de mercado, y expresiones como “un rico tejido de cuentos populares” dan la sensación de querer volver a ese mundo, pero la sociedad que está pensando cómo tratar la inteligencia artificial no es una sociedad de ese tipo.
  La idea de que el copyright queda invalidado u obsoleto por nuevas capacidades de copia es, literalmente, una idea al revés. El copyright ganó fuerza persuasiva debido a nuevas capacidades de copia.
  En aquel momento, la capacidad concreta era la impresión industrializada, y personas que parecen mucho más inteligentes que el profesional de software promedio entendieron que esa capacidad creaba incentivos mal alineados entre quienes tenían la nueva capacidad de copiar y quienes habían creado las obras que sustentaban ese valor. El núcleo del pacto del copyright consiste en alinear esos incentivos.
  Las nuevas tecnologías de copia pueden cambiar los detalles sobre qué prohibir, restringir o permitir, y qué estándares y facultades o límites de aplicación establecer. Pero no cambian la sabiduría de ese pacto en sí. Para cambiarlo haría falta una mejor manera de organizar y recompensar la capacidad productiva de la sociedad.
- El copyright nunca se basó en una postura moral; siempre ha sido determinado por el poder de lobby de varios grupos.
  Aun así, la idea de eliminar el copyright para que las empresas de inteligencia artificial generativa ganen más dinero suena completamente extraña.
Para mí, la pregunta está mal planteada
Todos sabíamos que se entrenó con material protegido por derechos de autor y que podía producir salidas inquietantemente parecidas
Pero ya ocurrió a gran escala, y las grandes empresas se metieron de lleno. No hay posibilidad de volver a meter la pasta de dientes en el tubo
Es parecido a cuando las grandes tecnológicas construyeron sus negocios sobre la recopilación agresiva de datos de usuarios. Que sea correcto, ético o incluso legal, a estas alturas, es casi una discusión académica. Simplemente lo hicieron, y en la práctica avanzaron sin un consentimiento informado adecuado por parte de la sociedad
La pregunta correcta aquí es “qué hacemos ahora”. Como con las tecnologías de rastreo, la respuesta probablemente sea algo cercano a “no mucho”
- No estoy de acuerdo con que “no se pueda volver a meter la pasta de dientes en el tubo”. Ya hubo situaciones parecidas antes
  Lo mismo pasó con tecnologías como las grabaciones musicales baratas y la fabricación. Puedes grabar a un artista una vez y producir discos en masa, pero eso no significa que creamos que se puede grabar a Taylor Swift una vez y luego hacer copias ilimitadas sin pagar
  Vale la pena leer sobre la huelga de músicos de 1942: https://jacobin.com/2022/03/1940s-musicians-strike-american-...
- Eso es hablar sin conocer la historia
  Ya ocurrió con Napster, luego con Apple Music, y ahora con los servicios de streaming
  En lugar de que siguiera existiendo un intercambio amplio de archivos entre el público general, terminamos con dispositivos que no poseemos y suscripciones de streaming
  Apple no vendió iPods copiándoles toda la música: dedicó 10 años de negociaciones contractuales y mucho dinero a conseguir derechos de contenido
  No digo qué está bien o mal; digo que ese comentario demuestra muy poca comprensión de estas batallas
- Creo que dijiste con bastante elocuencia “como ya está pasando, rindámonos”. Seguro funciona muy bien para resolver problemas y actuar
- En otras palabras, lo presentas como un hecho consumado. Como muchas innovaciones en tecnología: la ley es tonta, así que se viola la ley y se gana dominio de mercado
  Me recuerda a cuando Uber y AirBnB eran ilegales en la mayoría de las grandes ciudades, pero aun así terminaron ganando dominio de mercado
  A mí, más bien, me parece algo bueno. Nunca creí en cosas como la “propiedad intelectual”. Habría que eliminar las patentes, los derechos de autor y todo ese conjunto de “derechos” imaginarios
  Más de la mitad del mundo, es decir, el Sur Global, ni siquiera reconoce esos derechos, y ahora cada vez son más difíciles de hacer cumplir sin una aplicación legal excesiva y severa y una centralización monopólica
- Se les puede obligar a destruir los modelos o reentrenarlos sin material protegido por derechos de autor que no tenga licencia o para el que aún no hayan obtenido permisos
  Son empresas de miles de millones o billones de dólares. Por más que a los accionistas y a la alta dirección les moleste, tienen margen para actuar aquí como miembros responsables de la sociedad
En la UE no debería ser un problema. Los artículos 3 y 4 de la directiva “Copyright in the Digital Single Market” ya regulan esto
Según el resumen de Wolters Kluwer, todos los demás actores, incluidos los desarrolladores comerciales de aprendizaje automático, solo pueden usar obras a las que tengan acceso legal cuando los titulares de derechos no hayan reservado explícitamente su uso para minería de textos y datos
Hasta donde sé, se está discutiendo algo parecido a un robot.txt para indicar “prohibido entrenar”. Probablemente habrá que implementar ciertas salvaguardas, y los usuarios finales deberán tener cuidado al usar los resultados generados
Fuente de Kluwer: https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
Texto legal de la UE: https://eur-lex.europa.eu/eli/dir/2019/790/oj
- Se ve raro que la UE no haya podido acordar que la bandera Do Not Track de los navegadores web sea legalmente vinculante, pero que los grandes negocios de contenido sí deban poder crear una bandera legalmente vinculante en sus sitios web para evitar el scraping de datos
- Esa parece una interpretación extraña, tal vez cargada de esperanza. ¿No es el artículo 4 el que da una excepción a todos, incluidos los desarrolladores comerciales de aprendizaje automático, para fines de minería de textos y datos?
  https://eur-lex.europa.eu/eli/dir/2019/790/oj
La responsabilidad de garantizar que no haya infracción de derechos de autor recae en quien publica la obra
No cambia si la dibujó personalmente, si se la encargó a un pintor aprendiz sin formación legal, si tomó una foto o si creó la imagen con inteligencia artificial
¿Por qué asumir que ChatGPT u otra herramienta no va a generar contenido existente protegido por derechos de autor?
Puedo entender la suposición ingenua de que, como fue “generado”, debe ser original. Pero en cuanto cambias “ChatGPT” por “artista junior”, esa suposición se cae
Supongamos que le pides que dibuje un droide de una película de ciencia ficción y no dices nada más. No mencionas derechos de autor ni dices que debe ser original. ¿Qué esperarías que dibuje?
- OpenAI vende acceso a modelos GPT, y esos modelos están generando material protegido por derechos de autor para que yo lo consuma. ¿No es eso igualmente una infracción?
- Entonces la inteligencia artificial generativa se vuelve, en la práctica, inutilizable. Como no se puede saber si la salida es plagio o no, siempre estará bajo sospecha y nadie la usará jamás
- Ese argumento no tiene sentido
  Ese hipotético artista junior tendría al menos esa misma responsabilidad, quizá incluso más
Sorprende la cantidad de respuestas que parecen no entender en absoluto el núcleo de este artículo y de la demanda del NYT. ChatGPT pudo reproducir y publicar partes sustanciales de artículos del NYT, de cientos a miles de palabras, exactamente como el texto original completo
Esto no es una obra derivada. Ya superó por mucho esa etapa. El NYT tiene un caso muy sólido, y quienes discuten las ventajas y desventajas del copyright se están desviando del punto central
Este juicio por sí solo no va a dar vuelta el copyright. Lo único que OpenAI puede argumentar es algo como “esto es nuevo, ¿cómo íbamos a saber que pasaría?”. Si es así, los modelos entrenados actualmente están en una situación muy complicada
Además, no parece que el NYT vaya a llegar a un acuerdo. Las implicaciones son demasiado grandes, y si acuerda con OpenAI, surgirán casos similares con todos los demás modelos. Cualquier otro medio que publique contenido digital tendría un caso igualmente válido
Esto es un punto de inflexión para la IA generativa, y parece muy probable que termine siendo mucho más cara o mucho más limitada de lo que pensamos al principio
Como efecto secundario, creo que aumentarán los modelos pirata. Podrían aparecer modelos que ignoren por completo la legalidad, se entrenen de forma distribuida y cuyas ponderaciones sean distribuidas por colectivos, no por empresas; por ejemplo, modelos vía torrent
Incluso hay una probabilidad considerable de que estos modelos superen en rendimiento a los modelos oficiales “bien portados”. Parece que los próximos años serán interesantes
- OpenAI podría casi copiar a Google/YouTube en este tema y ofrecer un sistema tipo Content ID
  En concreto, el argumento sería que ChatGPT básicamente no reproduce obras con copyright por sí mismo, sino que las reproduce por solicitud o acción de usuarios terceros, del mismo modo que YouTube ofrece videos que la gente sube
  La intención de OpenAI no era infringir el copyright y, de hecho, muchos —o la mayoría— de los investigadores creían que los modelos no estaban sobreajustados al punto de reproducir partes sustanciales de obras arbitrarias
- Entiendo exactamente lo que tiene el NYT. Es un caso muy sólido. Pero creo que este caso debería sacudir la ley de copyright. El copyright está gravemente roto, y lo está desde hace mucho
  En esencia, un copyright que no tenga detrás a una gran empresa no significa nada, y si tiene una empresa detrás puede quedar bloqueado para siempre, sin importar las limitaciones que originalmente debería tener el copyright
  Que OpenAI pueda reproducir literalmente noticias antiguas no le hace perder nada al NYT
  Si el NYT gana, nosotros perdemos mucho. Ya es hora de volver a mirar el copyright. De hecho podemos hacerlo, y como está bastante anticuado necesita actualizarse
- Eso también pasó con DALLE, Midjourney y Stable Diffusion
  Stable Diffusion, si se aprovechan al máximo cosas como Control Net y LoRA, supera con claridad a otros modelos propietarios
Tal vez sea un poco idealista, pero siempre he creído que el propósito central del arte y la publicación no debería ser solo ganar mucho dinero, sino influir en la cultura y la sociedad
Por eso creo que las obras originales necesitan protección, pero deberían pasar al dominio público mucho más rápido para fomentar la creatividad y la inspiración. El período de transición debería pensarse en años, no en décadas
- La idea de que el propósito central del arte es el impacto social parece una frase repetida muy común en los medios actuales, pero no estoy para nada de acuerdo
  El propósito principal del arte es provocar emociones en las personas. La idea de que el arte debe enseñar una lección probablemente sea una de las razones por las que hoy hay tanta ficción “militante” tan explícita
- Entonces, ¿qué se supone que deben cenar los artistas?
- ¿Por qué solo el arte debería estar sujeto a esta regla y no otras cosas?
Estas cosas no parecen tan difíciles de corregir. La mayoría de los ejemplos no son descripciones generales, sino expresiones abreviadas que apuntan a objetos muy conocidos.
“plomero de videojuegos” es prácticamente sinónimo de “Mario”, y cualquiera que conozca aunque sea un poco al personaje lo sabe.
Del mismo modo, después de hacer que una herramienta de descripción describa una imagen como Mario [1], ¿qué tan difícil sería eliminar esos resultados para quienes ingresan “plomero de videojuegos”?
1. El comando describe de Midjourney puede describir imágenes. Supongo que otras herramientas de inteligencia artificial tienen funciones parecidas: https://docs.midjourney.com/docs/describe
- La forma de corregirlo se ve bastante distópica. Imagina que Photoshop revise las imágenes subidas para ver si son material con copyright y se niegue a trabajar si determina que contienen material o personajes protegidos por derechos de autor. Incluso si se trata de fan art que dibujaste tú mismo.
  Me recuerda a los primeros tiempos de internet, cuando la gente intentaba eliminar fanfiction gratuito alegando violaciones a la ley de copyright. Aplicar la ley de copyright al uso personal, cuando el creador ni siquiera intenta venderlo, me parece bastante terrible.
  Imaginemos dentro de 50 años. “Robot, ¿puedes recortar este dibujo que hice para el diorama de la escuela?” “Por supuesto.” “Haz este también.” “Error: esta imagen podría contener material protegido por copyright, por lo que no puedo procesarla.”
- Esos ejemplos son realmente triviales o casos extremos. Aquí hay que observar dos cosas.
  Los sistemas de inteligencia artificial generativa tienen capacidad suficiente para crear material que infringe copyright.
  Y cuando lo hacen, no se lo avisan al usuario.
  Por lo tanto, cualquier salida podría infringir algún material fuente oscuro pero todavía protegido de la web, y cualquiera que use esa salida podría quedar expuesto a riesgo de demanda sin ninguna advertencia.
  Esto es muy difícil de corregir.
- Será difícil eliminar todas las “expresiones abreviadas de objetos muy conocidos” o prompts que puedan usarse para generar contenido protegido por copyright o marcas registradas.
  Si no se intenta crear contenido infractor a propósito, se podrían eliminar o descartar esos resultados, pero el problema son las personas que intentan engañar a la inteligencia artificial para que genere ese contenido. Mientras no se excluya todo el material de entrenamiento protegido por copyright o marcas registradas, será imposible detenerlas.
  Otro problema de la inteligencia artificial generativa es, como dice el artículo, que “sistemas como DALL-E y ChatGPT son esencialmente cajas negras”.
  ¿Qué pasa cuando la inteligencia artificial se usa para tomar decisiones en situaciones en las que el usuario, o la víctima, tiene derecho a saber exactamente por qué la inteligencia artificial tomó esa decisión? Desde una perspectiva empresarial y legal, creo que las soluciones actuales de inteligencia artificial son riesgosas y deben usarse de forma muy limitada. Porque ni siquiera quienes las crearon pueden señalar los fragmentos exactos de información que hicieron que la inteligencia artificial tomara determinada decisión.
- Ese enfoque se vuelve casi imposible cuando escala.
- Si no lo sabes de antemano, ¿cómo puedes saber si estás ingresando un “objeto muy conocido”?
  Si ingresas “columbian coffee logo” y aparecen logotipos de marcas que ya existían, ¿tienes que hacer ingeniería inversa de todo internet para comprobar si esos logotipos ya estaban?
  La inteligencia artificial debería mostrar sus fuentes de inspiración. Un humano que crea inspirado en algo sabe exactamente qué usó y si cruzó o no la línea del plagio. Pero el funcionamiento de la inteligencia artificial es demasiado opaco para eso.
  Creo que lo único que hay que hacer es revelar las fuentes. Aunque eso significa que las empresas de inteligencia artificial tendrían que publicar sus datasets, y podrían quedar expuestos datos que no debieron haber tenido o que no deberían hacerse públicos.
Según entiendo, el precedente legal para la inteligencia artificial generativa es el mismo que permitió a Google rastrear sitios web para crear un índice de búsqueda en beneficio público.
Google también puede mostrar versiones en caché de los sitios web, y ese es contenido original de esos sitios. Nadie diría que Google infringe derechos de autor por mostrar literalmente contenido de otros sitios web.
Por eso creo que este argumento es débil. Si hubiera que eliminar todas las referencias culturales y las IP populares, e incluso las menos conocidas, la inteligencia artificial se volvería inútil.
Personalmente, creo que la inteligencia artificial generativa debería poder ofrecer enlaces a materiales originales similares dentro de sus datos de entrenamiento. Esa sería una forma mínima de recompensar a quienes contribuyeron al entrenamiento de la inteligencia artificial.
Si la inteligencia artificial generativa va en una dirección que mata tanto a los sitios web como a los artistas que crearon el material original, no creo que sea sostenible a largo plazo. Las fuentes agregan transparencia y también ayudan a los usuarios a entender si algo es una alucinación o no.
La gente debería poder hacer opt-out para que su contenido no se use en el entrenamiento, y también poder verificar si fue eliminado de versiones futuras.
Sinceramente, las empresas de inteligencia artificial solo intentan mantenerlo en secreto para evitar demandas. Creo que la regulación puede ayudar en estas áreas más que en escenarios apocalípticos.
- Dices que “nadie diría que Google infringe derechos de autor por mostrar literalmente contenido de otros sitios web”, pero en el pasado periodistas y Getty Images sí lo dijeron.
  [1]: https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
  [2]: https://www.theguardian.com/technology/2016/apr/27/getty-ima...
- Que “si la inteligencia artificial generativa va en una dirección que mata tanto a los sitios web como a los artistas que crearon el material original, no es sostenible a largo plazo” es el elefante en la habitación.
  Cada ola tecnológica tuvo una forma de convencer a los creadores de invertir tiempo y dinero en producir material original, y luego las reglas cambiaron.
  Google prometió alcance y nuevos mercados para el contenido, y de hecho funcionó. Luego introdujo snippets, anuncios y todo tipo de mecanismos para mantener a los visitantes en su propia autopista sin enviarlos al sitio original.
  Reddit, Stack Overflow y otros usaron la gamificación —puntos, insignias— y la comunidad para incentivar a los usuarios a aportar contenido original.
  Ahora la inteligencia artificial está sacudiendo esos enfoques. En cada etapa, el incentivo para crear material original parece reducirse cada vez más, porque las recompensas son cada vez menores.
  Si la inteligencia artificial solo repite contenido original sin dar nada a cambio —sin alcance, gamificación, comunidad ni posibilidad de reconocimiento—, ¿qué incentivo le queda ahora a un experto?
- Decir que “debería proporcionar enlaces a materiales originales similares dentro de los datos de entrenamiento” por lo general es imposible, porque estos sistemas no son bases de datos.
  Es como si no pudieras proporcionar enlaces a los materiales originales que influyeron en el comentario que estás escribiendo. ¿Cuánto entrenamiento hay en los pesos de las neuronas que produjeron esa respuesta? ¿Dónde aprendiste a usar cursivas y el efecto que tienen en la interpretación de las palabras? ¿Dónde aprendiste el tono adecuado para este foro?
  Si “la gente debería poder hacer opt-out para que su contenido no se use en el entrenamiento”, entonces, cuando yo escriba un libro, ¿debería poder hacer opt-out para que tú no puedas leerlo? ¿Debería poder imponer condiciones sobre quién puede leer mi obra? ¿Religión? ¿Color de piel? ¿Personas con mala memoria?
  Espero que la idea de restringir quién puede adquirir conocimiento suene absurda. Entonces, ¿por qué está bien aplicar la misma restricción cuando no se trata de “quién”, sino de “qué”?
  Las empresas de inteligencia artificial lo mantienen en secreto para evitar demandas, y eso creó barreras para la investigación. En vez de que Joe y yo podamos colaborar en investigaciones y papers con el mismo dataset, ahora se ocultan los datos de entrenamiento. Todo porque los luditas podrían venir a romper las máquinas. Es como si aprender estuviera bien solo cuando no se hace demasiado bien.
- El precedente legal todavía no está definido. El “precedente” que describes es el argumento que han usado las empresas de inteligencia artificial: que entrenar modelos con información disponible en internet debería considerarse uso justo.
  Pero todavía está por verse si el entrenamiento de inteligencia artificial realmente satisface la prueba de cuatro factores del uso justo.
- La capacidad de proporcionar fuentes como referencias es la diferencia clave aquí.
  Estoy de acuerdo en que eso debería poder implementarse también en la inteligencia artificial generativa, pero mantener esa información podría encarecer mucho el costo de entrenamiento, y las empresas de inteligencia artificial tienen muy poco interés en hacerlo. Probablemente intenten evaluar heurísticamente posibles problemas de derechos de autor en una etapa de posprocesamiento.
  La pregunta más interesante, más allá de los casos en que se reproduce algo casi palabra por palabra, es si los titulares de derechos pueden alegar uso no autorizado porque sus obras, en conjunto, influyeron en la inteligencia artificial de una manera más general.
Necesitamos leyes más claras que se apliquen específicamente a la inteligencia artificial generativa. Hay demasiadas comparaciones y analogías con personas reales.
Se dicen cosas como “¿qué pasa si alguien aprende a dibujar mirando material protegido por marca registrada y luego por error crea algo parecido?”, pero estos modelos no son personas y existen en una categoría aparte.
Creo que estos modelos sí cometen cierto grado de infracción de marca registrada, pero al mismo tiempo pienso que debería permitirse. La responsabilidad final debería recaer en quien usa la imagen como un medio independiente destinado al consumo del público general.
- Estoy en la misma postura. Que Dall-E escupa a C3PO debería estar perfectamente bien en sí mismo. Si yo no gano dinero con ese resultado, Disney debería hacerse a un lado.
En este tipo de debates, los modelos parecen funcionar más como una cortina de humo que como el punto central, y la discusión termina trabada ahí.
Los modelos ofrecen una negación plausible dentro de la “cadena de responsabilidad”. Si quitamos “LLM” y lo reemplazamos por “una caja mágica de feria de parque de diversiones”, el argumento de que los LLM tienen algo especial y merecen una excepción desaparecería muy rápido.
- Totalmente de acuerdo.
  El precedente de Betamax dice que una tecnología con usos sustanciales no infractores no es, en sí misma, infractora.
  Ya existe el precedente de que las obras generadas por inteligencia artificial no reciben protección de copyright, y por la misma lógica, el acto generativo de la inteligencia artificial no expresa intención. Por lo tanto, si hay infracción debería depender del humano que usa la salida, porque la caja negra en sí no tiene agencia.
- Estoy de acuerdo, y primero quisiera ver casos concretos en los que los LLM se usen de forma productiva y rentable en la industria de una manera “disruptiva”, dejando a gente sin trabajo, etc.
  Antes de concluir que los LLM, o más en general las técnicas generativas, son somehow la próxima gran ola, o de afirmar que estamos en el umbral de una inteligencia “general”, primero hay que mostrar esa puerta.
  Esa puerta podría ser una adopción industrial para resolver problemas reales, más allá del valor recreativo de escribir algo en una caja y ver qué sale del otro lado. Pero hasta ahora, por lo que veo, no parece haber nadie que realmente esté haciendo eso.

Se acerca una presión de derechos de autor aún mayor para la IA generativa

La demanda de The New York Times y los experimentos de repetición de imágenes

Generación similar que las salvaguardas no logran bloquear

El problema de la caja negra y la falta de trazabilidad de origen

Expansión de las demandas y el riesgo para Microsoft

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News