Demanda por copyright de The New York Times exige a OpenAI eliminar todas las instancias de GPT
(arstechnica.com)- The New York Times presentó una demanda por copyright contra filiales de OpenAI y Microsoft, alegando que usaron su contenido sin autorización para entrenamiento y resultados, e incluso exige la eliminación de instancias de GPT y datasets de entrenamiento
- El punto central no es solo el entrenamiento del modelo en sí, sino si las herramientas basadas en GPT pueden reproducir casi textualmente el contenido de artículos pagos del Times y eludir el muro de pago
- El Times afirma que Common Crawl incluyó 16 millones de registros únicos de su sitio, y que fue la tercera fuente más referenciada en los datos públicos de entrenamiento previos a GPT-3.5
- En pruebas de Ars Technica, ese bypass en ChatGPT parecía estar bloqueado, pero Copilot reprodujo una parte considerable del comienzo de un artículo específico del Times cuando se le pidió el primer párrafo
- La demanda incluye reclamos por infracción de copyright, DMCA, marcas registradas y competencia desleal, y solicita una orden judicial permanente, indemnización por daños, restitución y recuperación de enriquecimiento injusto
Demandados y exigencias principales
- The New York Times presentó una demanda por infracción de copyright contra varias empresas vinculadas a OpenAI y Microsoft
- Microsoft fue incluida como demandada porque, como socia de OpenAI, opera el servicio Copilot con tecnología de OpenAI y participó en la provisión de infraestructura para entrenar los grandes modelos de lenguaje GPT
- Las exigencias incluyen la eliminación de todas las instancias de GPT entrenadas con material del Times y la destrucción de los datasets usados para el entrenamiento
- También solicita una orden judicial permanente para impedir conductas similares en el futuro
- Las reparaciones monetarias incluyen daños estatutarios, daños compensatorios, restitución, recuperación de enriquecimiento injusto y cualquier otra reparación disponible en derecho o equidad
Cómo el Times describe el daño
- El Times sostiene que mantiene una gran plantilla de periodistas y personal de investigación, realiza cobertura en múltiples áreas y periodismo de investigación, y que por ello es considerado una fuente autorizada en diversos temas
- Para recuperar los costos de ese trabajo periodístico, el Times restringe el acceso a sus artículos mediante un sólido muro de pago
- Controla el uso de sus obras mediante avisos de copyright en la edición impresa, restricciones de reproducción y uso en sus términos de servicio, y una política de licenciamiento selectivo
- La lógica central de daño en la demanda es que, si las herramientas de OpenAI ofrecen contenido del Times sin permiso, dañan la relación con los lectores y le arrebatan ingresos por suscripciones, licencias, publicidad y alianzas
Cuestiones sobre el uso de datos de entrenamiento
- El Times afirma que su contenido fue usado sin autorización durante el entrenamiento de varias versiones de GPT
- Antes de GPT-3.5, la información sobre datasets de entrenamiento era pública, y el Times considera que uno de ellos, Common Crawl, incluía 16 millones de registros únicos publicados en su sitio
- Bajo ese criterio, el Times fue la tercera fuente más referenciada, después de Wikipedia y la base de datos de patentes de Estados Unidos
- OpenAI ya no divulga muchos detalles sobre los datos de entrenamiento de las versiones recientes de GPT, pero la demanda presenta indicios de que los artículos completos del Times siguieron formando parte del proceso de entrenamiento
- A medida que avance el caso, la información sobre acceso a datos de entrenamiento podría convertirse en un punto clave del proceso de discovery
El problema de reproducción visible en la etapa de salida
- La demanda no se limita a afirmar que material protegido por copyright se usó en el entrenamiento; también enfatiza que el material aprendido puede volver a aparecer en las respuestas durante el uso
- El Times afirma que las herramientas de IA generativa basadas en OpenAI pueden recitar palabra por palabra contenido del Times, resumirlo de forma muy cercana o imitar su estilo de expresión
- Los materiales de la demanda incluyen casos en los que GPT-4 reprodujo casi textualmente grandes partes de artículos del Times
- Un ejemplo de prompt consistía en darle a ChatGPT el título de un artículo del Times, pedirle el primer párrafo y luego seguir pidiéndole los párrafos siguientes
- Cuando Ars Technica probó algunos de los mismos prompts, ChatGPT recomendó consultar el sitio web del Times u otras fuentes confiables, pero consideró que no podía descartarse la posibilidad de que apareciera material protegido por copyright si existía contexto previo
- Copilot es el servicio que antes se llamaba Bing Chat, y Ars Technica comprobó que, al pedirle el primer párrafo de un artículo específico del Times, reprodujo aproximadamente un tercio del comienzo del artículo
Refutación del uso justo y daño reputacional
- OpenAI y Microsoft han sostenido públicamente que el uso no autorizado de contenido con copyright para entrenar modelos de IA generativa constituye uso justo porque ofrece un nuevo propósito transformador
- El Times rebate que no hay transformación en usar contenido del Times sin pagar para crear productos que sustituyen al Times y le quitan lectores
- Las alucinaciones de la IA también se presentan como un factor que puede dañar el valor reputacional del Times
- Como ejemplo, afirma que un modelo GPT inventó que el 10 de enero de 2020 el Times había publicado un artículo sobre la relación entre el jugo de naranja y el linfoma no Hodgkin, pero el Times sostiene que nunca publicó tal artículo
- La demanda afirma que, respecto de un artículo del Times sobre alimentos buenos para la salud del corazón, Copilot presentó una lista de ejemplos que no estaba en el texto original, y que el 80% de los elementos de la lista solicitada eran alimentos no mencionados en el artículo original
- En el caso de recomendaciones de Wirecutter, sostiene que productos que el personal no había reseñado fueron atribuidos como recomendaciones de Wirecutter
Wirecutter y el problema de ingresos por afiliados
- Wirecutter es un medio propiedad de The New York Times
- La demanda afirma que Copilot también puede generar grandes partes de artículos de Wirecutter
- En esos extractos de artículos se eliminan los enlaces de afiliados, lo que plantea el problema de bloquear una fuente principal de ingresos de Wirecutter
Reclamos legales
- La demanda responsabiliza a las empresas relacionadas con OpenAI por el desarrollo del software, y a Microsoft por ofrecer servicios basados en OpenAI y construir infraestructura de entrenamiento
- Los reclamos incluyen infracción directa de copyright, infracción contributiva e infracción vicaria
- Además, plantea violaciones de la DMCA, violaciones de marcas registradas y apropiación indebida por competencia desleal
1 comentarios
Opiniones de Hacker News
Dejando de lado el componente de los LLM, me pregunto si hacer un producto con artículos del NYT obtenidos legalmente por scraping sería uso justo
Por ejemplo, supongamos que alojas los artículos y ofreces un índice, y vendes como función de pago una reescritura tipo resumen de artículos sobre las relaciones entre EE. UU. y el Reino Unido de los últimos 5 años. Aunque solo pagues la suscripción mensual al NYT, no reproduzcas largos pasajes textuales y uses solo citas breves, no suena a uso justo
Normalmente no puedes tomar un producto de uso personal y venderle a terceros derivados de este. Con algo como VS Code pasa lo mismo
Hay una gran diferencia con un motor de búsqueda. Un buscador no sustituye a la fuente; al contrario, envía al original y le da la oportunidad de monetizar el artículo. En cambio, este tipo de producto o un LLM usa el contenido del NYT como sustituto, de modo que en la práctica ya no hace falta suscribirse al NYT
Además, si ves artículos de medios de segunda categoría o inferiores, casi todos contienen material tomado directamente de sitios como el NYT. Normalmente escriben algo como “según The Times, tal persona hizo tal cosa”, y por lo general también ponen el enlace al original
A veces están tan sobreajustados que ni siquiera es compresión con pérdida, sino que los datos originales quedan codificados textualmente dentro de la red neuronal
Si lo piensas, sorprende que Google sea legal, pero lo que hace está completamente establecido como legal. Internamente, Google conserva y usa copias completas en texto íntegro de todas las páginas web que indexa
Claro, Google da enlaces a la fuente. Si OpenAI hiciera lo mismo, ¿también lo consideraríamos legal aunque la tasa de clics fuera de solo 0.1% y casi no ayudara a los ingresos del NYTimes? ¿Y si detectara el momento en que va a reproducir el original y simplemente lo parafraseara? NYTimes no tiene derechos de autor sobre versiones parafraseadas de sus artículos. En lo sustancial no habría casi ninguna diferencia, así que sería bastante ridículo que el gobierno obligara a usar ese tipo de rodeo
Mirar por la ventana y ver a tu vecino yendo a la tienda está bien. Pero si usas una cámara para rastrear a toda la gente en la calle y meterla en una base de datos, en muchos lugares eso ya sería problemático o ilegal
Cuando escala, la lógica no necesariamente sigue aplicando igual
La demanda incluye casos en los que ChatGPT/Bing Copilot copiaron textualmente al NYT. Parece difícil sostener que ese tipo de copia sea uso justo
Dicho eso, OAI/MS probablemente podría corregirlo dentro del paradigma actual. Bastaría con entrenarlo con RLHF para que reconozca el plagio y reciba penalizaciones
Pero la demanda va mucho más allá de decir simplemente que esas copias constituyen infracción de copyright. Afirma que “la reproducción no autorizada de obras de The Times para entrenar LLM es un uso sustitutivo no justificado por un propósito transformativo”
Esa es una afirmación fuerte: que el solo hecho de descargar artículos para usarlos como datos de entrenamiento ya sería una infracción de copyright. Que GPT pueda escupir el texto original podría ser una distracción. Ojalá los jueces se den cuenta y se concentren en la cuestión legal, interesante y de gran alcance, de qué parte del modelo puede o no constituir uso transformativo
La idea esperada sería mantener un filtro Bloom de n-gramas del contenido con copyright conocido. Por ejemplo, enumerar todos los conjuntos de 7 palabras consecutivas de un artículo y verificar que el modelo solo pueda generar como máximo n-1 palabras idénticas seguidas respecto de la fuente
Pero esto probablemente terminaría saliendo mal. Las empresas de IA invertirían mucho más en atribución de contenido, y nuevas herramientas de atribución pasarían a aplicarse a todos los artículos escritos por humanos, porque cualquiera podría estar usando GPT a escondidas. Eso podría tener un efecto inhibidor sobre la creatividad. Además, no todo lo que escribe el NYT es original, así que el NYT también tendría que contrastarse con todas las demás fuentes
Se puede argumentar que los LLM son un archivo de datos comprimidos con un algoritmo raro. El hecho de que puedan escupir periódicamente los datos de entrenamiento textualmente, y que existan salvaguardas para impedirlo, es prueba de ello
La segunda prueba es el paper explicado aquí: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... los investigadores usaron datos comprimidos con gzip como modelo en lugar de un LLM, y en algunos casos incluso superaron a un LLM entrenado
La IA es una caja negra hasta cierto punto, pero operar una caja negra no te protege de demandas por violación de derechos. No puedes crear una base de datos hecha raspando datos con copyright y luego patentar que consultar esa base de datos es uso justo
Aquí hace falta legislación, y esa legislación no va a ser “si es para entrenar modelos, todo el mundo puede copiar gratis cualquier cosa”. Habrá que ordenar las licencias, y no solo mediante precedentes judiciales sino también con leyes escritas. Puedo simpatizar bastante con dar amplio margen a investigadores open source y hackers, pero no me genera la misma simpatía Microsoft ni OpenAI financiada por Microsoft
Si funcionara, sería bastante gracioso. Primero lo entrenas para copiar textualmente los datos de entrenamiento y luego lo vuelves a entrenar para que no lo haga
¿No funciona así desde el principio? La función de pérdida hace justamente eso: lo entrena para copiar textualmente los datos de entrenamiento. Solo que hay tantos datos que, dado el número de parámetros, no esperamos que eso sea posible para la mayoría de los datos de entrenamiento
Supongamos que vendo un sitio de suscripción llamado New Jersey Times, y simplemente descargo artículos del New York Times y los paso por un autoencoder con ruido aleatorio. El propósito es exactamente el mismo que el del sitio web del New York Times y el dinero me lo quedo yo. ¿Eso sería uso justo?
El NYT está construyendo un castillo de arena frente a un tsunami. En el panorama general, esta demanda no va a importar mucho por varias razones
Primero, la próxima generación de LLM se entrenará solo con datos “sintéticos”/públicos. GPT-4V puede lavar con facilidad un corpus completo de entrenamiento con copyright hasta volverlo irreconocible; por ejemplo, reescribiendo el 40% y eliminando autor y fuente. Entonces GPT-5 ya no escupirá material con copyright
Segundo, la investigación, el hosting y el progreso seguirán. EE. UU. no puede detener esto; solo puede elegir quedarse atrás. El mundo seguirá avanzando, y China observará con gusto cómo su mayor competidor comete suicidio intelectual para apaciguar a empresas de medios que buscan rentas
Tercero, los modelos pueden compartir pesos, fusionarse entre sí, colaborar, podarse y evolucionar a través de varias generaciones de lanzamientos. La ley de copyright está pésimamente adaptada para rastrear infractores dentro de esta sopa genealógica de IA calentada con datos de procedencia incierta o sospechosa
Nos guste o no, vivimos en una nueva era intelectual. El NYT y otros se subirán a esta ola quieran o no
Si vemos los factores de fair use, en el propósito y carácter del uso quizá en el futuro pueda sostenerse un argumento de transformación, pero la disputa actual trata del uso textual del original. Por lo tanto, claramente no es transformativo. El uso comercial también dificulta más una determinación de fair use
En cuanto a la naturaleza de la obra, los trabajos más factuales tienen más probabilidades de ser considerados fair use, pero los artículos del NYT son tanto factuales como creativos
En la cantidad y sustancialidad usada, se utilizó el artículo completo, así que no hay margen para decir que solo se tomó una parte insignificante
También en el impacto sobre el valor de mercado, el NYT no está recibiendo dinero, y si la gente consulta los artículos del NYT en ChatGPT en vez de leerlos en el NYT, eso difícilmente ayuda a su valor de mercado
No soy abogado, pero creo que el NYT tiene pleno derecho a presentar la demanda. El progreso es inevitable, pero los humanos deben moldearlo y dirigirlo activamente. Si no, no se le puede llamar progreso. Aquí, la acción legal es un medio necesario para que individuos y organizaciones hagan valer sus derechos e influyan en la dirección de ese progreso
Al menos en un caso, una startup china tuvo que cerrar un chatbot recién lanzado. Había dicho cosas sobre la guerra de Ucrania que no coincidían con la postura oficial del partido
https://finance.yahoo.com/news/beijing-tries-regulate-china-...
https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
Sí coincido en que la investigación, el hosting y el progreso seguirán, pero no estoy tan seguro de que China vaya a ser la beneficiaria si EE. UU. le agrega algunas barras de seguridad a esta montaña rusa
No tienes que estar de acuerdo ni te tiene que gustar. Pero si lo aceptas y vives en consecuencia, sales mucho menos quemado
La demanda en sí es este documento al que enlazó arstechnica: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
A partir de la página 30 hay ejemplos bastante claros de que ChatGPT tiene copias internas de material con copyright y lo recita palabra por palabra
En esencia, se copió masivamente material con copyright dentro de algún bloque y luego se le aplicó compresión con pérdida. ¿Qué tan destructiva tendría que ser esa compresión para que el copyright dejara de aplicar? Parece que tendría que ser bastante destructiva
Lo que podría salvar a OpenAI sería precisamente su carácter cerrado. OpenAI puede tomar la parte con copyright del dataset con el que se entrenó ChatGPT, compararla directamente y filtrar o bloquear en la interfaz web para que el material con copyright no salga del LLM. En cambio, un proyecto open source entrenado con el mismo dataset enfrenta la tarea mucho más difícil de eliminar el material con copyright del propio LLM
Es decir, hacerlo difícil de detectar, o al menos que incluso con análisis directo haya suficiente negación plausible como para salir librado
Es difícil saber si está repitiendo desde los datos de entrenamiento, o si cometieron el mismo error que en el artículo original y primero hicieron que Copilot buscara el artículo / hiciera una búsqueda en Bing antes de responder
Si creen que los ejemplos de la demanda son “uso justo”, hay que pensar en lo que eso significa. Básicamente sería permitir, casi sin reglas, que unas cuantas empresas integren todo el valor de internet dentro de su caja negra, y eso se ve muy peligroso
Incluso si no fuera este caso, ojalá los tribunales establezcan aquí las reglas del juego
Hasta que alguien resuelva el tema de los datos sintéticos, en este campo solo van a quedar jugadores como OpenAI y Google
La controversia sobre la infracción de propiedad intelectual por parte de los LLM está dejando en evidencia de inmediato esos defectos inherentes, y al final está forzando decisiones que sentarán precedentes sobre la legalidad del pensamiento humano. Es un tema con el que nadie puede sentirse cómodo
Entiendo que puede ser peligroso dar demasiada discreción a OpenAI y Microsoft, pero por otro lado se está pasando por alto que empresas como Disney ya han moldeado de facto gran parte de la ley de copyright durante décadas. Deben estar relamiéndose ante la posibilidad de que se cree un precedente donde haya que pagar por la capacidad de interactuar con cualquier medio o información, a cualquier nivel
Al final nos estamos dando cuenta de que construimos un enorme sistema económico sobre la idea, fundamentalmente defectuosa, de la propiedad de las ideas. La solución sería romper el libro de reglas, lo cual sería muy doloroso, o empujar todavía más en esa dirección, lo cual sería fatal
En Japón dijeron que con la IA se puede hacer cualquier cosa
Más te vale no perder tu ventaja competitiva por haber subido algo públicamente a internet. Si lo pusiste ahí para que todos lo vieran, debes esperar que otros lo usen
A los desarrolladores les gusta fingir que los LLM son parecidos a los humanos, y que han usado materiales como los de NYTimes como material educativo, igual que un humano
Pero no es así. Viéndolo de forma más simple, la escritura propietaria ahora quedó integrada en el código fuente de OpenAI. Es como si yo copiara parte de otro código propietario y lo pegara en mi codebase, y luego dijera que copiar y pegar es un proceso evolutivo natural de millones de años de evolución
El hecho de que los LLM sean demasiado complejos como para saber dónde está eso no hace que deje de serlo
El código fuente de un LLM probablemente sean unos pocos cientos de líneas de texto que describen la forma de la red neuronal incluida en el modelo
El contenido de NYTimes no estaría en el código fuente. NYTimes no publica código fuente en Python, publica noticias en lenguaje humano
Los LLM son conceptualmente simples, y en su mayor parte consisten en multiplicaciones de matrices, operaciones no lineales que conectan cada capa, bucles basados en atención, etc. Lo que los vuelve complejos es la enorme cantidad de datos de entrenamiento y cómputo
Todas las empresas que tienen contenido están oliendo el dinero
A NYT no le molestaría que usaran su contenido para entrenar LLM. Siempre que le paguen una tarifa. Reddit cerrará su API gratuita y hará que paguen para obtener contenido de entrenamiento. Discord también venderá contenido para entrenamiento de IA, si no lo está haciendo ya. Twitter también lo está haciendo
Antes no les importaba porque los LLM no pasaban de ser un experimento. Ahora hay billones de dólares en juego
La postura de NYT va a parecer realmente absurda en el futuro cuando metan LLM en cuerpos mecánicos capaces de interactuar con el mundo físico y aprender en tiempo real o actualizar sus pesos
Podría volverse ilegal que esos robots lean, vean o escuchen material con copyright. No podrían ver TV, ni leer libros de biblioteca, ni navegar por internet. Porque en el proceso podrían memorizar parte del contenido protegido
Sería más difícil para una persona, pero si se memoriza un libro con copyright y luego lo recita en vivo por TV, o crea copias desde la memoria y las vende, la van a demandar
Los humanos todo el tiempo hacen obras derivadas, y está bien que los LLM también lo hagan. Pero no pueden hacerlo de forma literal
Hay personas con memoria fotográfica, y si la gente dejara de comprar el periódico para pedirle a esa persona que les recite las noticias, surgiría el mismo problema
Actualmente, la ejecución pública de material con copyright es una infracción
¿O estarían todos en manos de una sola megacorporación, usándose para sacarnos dinero a todos, como hace el capitalismo? Entonces estoy a favor de prohibirlo
Desde la aparición de ChatGPT, se ha venido argumentando que los LLM deberían considerarse obras transformativas y, por tanto, entrar dentro del uso justo. No soy abogado y esto es solo la opinión de un no especialista, pero me parece interesante ver qué dirá el sistema legal al respecto.
Si se toman fragmentos prestados de decenas, cientos o miles de fuentes, ¿de quién se infringen los derechos de autor? Los remixes musicales también toman de muchas fuentes y, si la música es claramente distinta y original, parece que hasta cierto punto resisten el escrutinio legal.
Pero una afirmación amplia de que los LLM o la IA actual califican como uso justo se vuelve difícil de defender cuando el modelo reproduce repetidamente obras individuales completas e identificables y, en casos concretos, viola claramente la ley de derechos de autor. Puede que el modelo en la mayoría de los casos remezcle o transforme, pero hay evidencia de que no siempre lo hace en todos los casos. Quizá esta demanda termine siendo el detonante para corregir la IA y evitar que reproduzca obras específicas, y así el argumento de uso justo podría volverse más sólido y realmente defendible.
Esta situación ya había sido anticipada en el muy influyente video EPIC 2014 de 2004.
https://www.youtube.com/watch?v=eUHBPuHS-7s El original era en Flash y se perdió en el agujero de la memoria; solo queda esta conversión de baja calidad.
36 segundos: “Sin embargo, la prensa tal como la conocías ya no existe”.
40 segundos: “Las organizaciones de noticias del siglo XX se han vuelto secundarias. Son vestigios solitarios de un pasado no muy lejano”.
2 minutos 11 segundos: “En 2002, Google también lanza Google News, un portal de noticias. Las organizaciones periodísticas reaccionan con indignación. Google News es editado enteramente por computadoras”.
5 minutos 13 segundos: “La guerra de las noticias de 2010 resulta notable porque en ella no participa ni una sola organización periodística real. Googlezon finalmente pone en jaque mate a Microsoft con una funcionalidad que el gigante del software no puede igualar. Usando un nuevo algoritmo, las computadoras de Googlezon extraen dinámicamente y recombinan frases y hechos de todas las fuentes de contenido para crear una nueva historia. La computadora escribe una nueva historia para cada usuario”.
5 minutos 55 segundos: “En 2011, el Cuarto Poder, que había permanecido dormido, despierta y emprende su primera y última resistencia. The New York Times Company demanda a Googlezon, alegando que los robots extractores de hechos de la empresa violan la ley de derechos de autor. El caso llega hasta la Corte Suprema”.
Los detalles no coincidieron exactamente, pero la precisión general es sorprendente. Aunque, en esta línea temporal, también podría ser una especie de producto de la hiperstición.
https://en.wikipedia.org/wiki/EPIC_2014 Pensé que EPIC 2014 podría ser el único video en Flash con artículo en Wikipedia, pero al buscar vi que había cinco más.