Demanda por copyright de The New York Times exige a OpenAI eliminar todas las instancias de GPT

(arstechnica.com)

1 puntos por GN⁺ 2023-12-29 | 1 comentarios | Compartir por WhatsApp

The New York Times presentó una demanda por copyright contra filiales de OpenAI y Microsoft, alegando que usaron su contenido sin autorización para entrenamiento y resultados, e incluso exige la eliminación de instancias de GPT y datasets de entrenamiento
El punto central no es solo el entrenamiento del modelo en sí, sino si las herramientas basadas en GPT pueden reproducir casi textualmente el contenido de artículos pagos del Times y eludir el muro de pago
El Times afirma que Common Crawl incluyó 16 millones de registros únicos de su sitio, y que fue la tercera fuente más referenciada en los datos públicos de entrenamiento previos a GPT-3.5
En pruebas de Ars Technica, ese bypass en ChatGPT parecía estar bloqueado, pero Copilot reprodujo una parte considerable del comienzo de un artículo específico del Times cuando se le pidió el primer párrafo
La demanda incluye reclamos por infracción de copyright, DMCA, marcas registradas y competencia desleal, y solicita una orden judicial permanente, indemnización por daños, restitución y recuperación de enriquecimiento injusto

Demandados y exigencias principales

The New York Times presentó una demanda por infracción de copyright contra varias empresas vinculadas a OpenAI y Microsoft
Microsoft fue incluida como demandada porque, como socia de OpenAI, opera el servicio Copilot con tecnología de OpenAI y participó en la provisión de infraestructura para entrenar los grandes modelos de lenguaje GPT
Las exigencias incluyen la eliminación de todas las instancias de GPT entrenadas con material del Times y la destrucción de los datasets usados para el entrenamiento
También solicita una orden judicial permanente para impedir conductas similares en el futuro
Las reparaciones monetarias incluyen daños estatutarios, daños compensatorios, restitución, recuperación de enriquecimiento injusto y cualquier otra reparación disponible en derecho o equidad

Cómo el Times describe el daño

El Times sostiene que mantiene una gran plantilla de periodistas y personal de investigación, realiza cobertura en múltiples áreas y periodismo de investigación, y que por ello es considerado una fuente autorizada en diversos temas
Para recuperar los costos de ese trabajo periodístico, el Times restringe el acceso a sus artículos mediante un sólido muro de pago
Controla el uso de sus obras mediante avisos de copyright en la edición impresa, restricciones de reproducción y uso en sus términos de servicio, y una política de licenciamiento selectivo
La lógica central de daño en la demanda es que, si las herramientas de OpenAI ofrecen contenido del Times sin permiso, dañan la relación con los lectores y le arrebatan ingresos por suscripciones, licencias, publicidad y alianzas

Cuestiones sobre el uso de datos de entrenamiento

El Times afirma que su contenido fue usado sin autorización durante el entrenamiento de varias versiones de GPT
Antes de GPT-3.5, la información sobre datasets de entrenamiento era pública, y el Times considera que uno de ellos, Common Crawl, incluía 16 millones de registros únicos publicados en su sitio
Bajo ese criterio, el Times fue la tercera fuente más referenciada, después de Wikipedia y la base de datos de patentes de Estados Unidos
OpenAI ya no divulga muchos detalles sobre los datos de entrenamiento de las versiones recientes de GPT, pero la demanda presenta indicios de que los artículos completos del Times siguieron formando parte del proceso de entrenamiento
A medida que avance el caso, la información sobre acceso a datos de entrenamiento podría convertirse en un punto clave del proceso de discovery

El problema de reproducción visible en la etapa de salida

La demanda no se limita a afirmar que material protegido por copyright se usó en el entrenamiento; también enfatiza que el material aprendido puede volver a aparecer en las respuestas durante el uso
El Times afirma que las herramientas de IA generativa basadas en OpenAI pueden recitar palabra por palabra contenido del Times, resumirlo de forma muy cercana o imitar su estilo de expresión
Los materiales de la demanda incluyen casos en los que GPT-4 reprodujo casi textualmente grandes partes de artículos del Times
Un ejemplo de prompt consistía en darle a ChatGPT el título de un artículo del Times, pedirle el primer párrafo y luego seguir pidiéndole los párrafos siguientes
Cuando Ars Technica probó algunos de los mismos prompts, ChatGPT recomendó consultar el sitio web del Times u otras fuentes confiables, pero consideró que no podía descartarse la posibilidad de que apareciera material protegido por copyright si existía contexto previo
Copilot es el servicio que antes se llamaba Bing Chat, y Ars Technica comprobó que, al pedirle el primer párrafo de un artículo específico del Times, reprodujo aproximadamente un tercio del comienzo del artículo

Refutación del uso justo y daño reputacional

OpenAI y Microsoft han sostenido públicamente que el uso no autorizado de contenido con copyright para entrenar modelos de IA generativa constituye uso justo porque ofrece un nuevo propósito transformador
El Times rebate que no hay transformación en usar contenido del Times sin pagar para crear productos que sustituyen al Times y le quitan lectores
Las alucinaciones de la IA también se presentan como un factor que puede dañar el valor reputacional del Times
Como ejemplo, afirma que un modelo GPT inventó que el 10 de enero de 2020 el Times había publicado un artículo sobre la relación entre el jugo de naranja y el linfoma no Hodgkin, pero el Times sostiene que nunca publicó tal artículo
La demanda afirma que, respecto de un artículo del Times sobre alimentos buenos para la salud del corazón, Copilot presentó una lista de ejemplos que no estaba en el texto original, y que el 80% de los elementos de la lista solicitada eran alimentos no mencionados en el artículo original
En el caso de recomendaciones de Wirecutter, sostiene que productos que el personal no había reseñado fueron atribuidos como recomendaciones de Wirecutter

Wirecutter y el problema de ingresos por afiliados

Wirecutter es un medio propiedad de The New York Times
La demanda afirma que Copilot también puede generar grandes partes de artículos de Wirecutter
En esos extractos de artículos se eliminan los enlaces de afiliados, lo que plantea el problema de bloquear una fuente principal de ingresos de Wirecutter

Reclamos legales

La demanda responsabiliza a las empresas relacionadas con OpenAI por el desarrollo del software, y a Microsoft por ofrecer servicios basados en OpenAI y construir infraestructura de entrenamiento
Los reclamos incluyen infracción directa de copyright, infracción contributiva e infracción vicaria
Además, plantea violaciones de la DMCA, violaciones de marcas registradas y apropiación indebida por competencia desleal

1 comentarios

GN⁺ 2023-12-29

Opiniones de Hacker News

Dejando de lado el componente de los LLM, me pregunto si hacer un producto con artículos del NYT obtenidos legalmente por scraping sería uso justo
Por ejemplo, supongamos que alojas los artículos y ofreces un índice, y vendes como función de pago una reescritura tipo resumen de artículos sobre las relaciones entre EE. UU. y el Reino Unido de los últimos 5 años. Aunque solo pagues la suscripción mensual al NYT, no reproduzcas largos pasajes textuales y uses solo citas breves, no suena a uso justo
Normalmente no puedes tomar un producto de uso personal y venderle a terceros derivados de este. Con algo como VS Code pasa lo mismo
Hay una gran diferencia con un motor de búsqueda. Un buscador no sustituye a la fuente; al contrario, envía al original y le da la oportunidad de monetizar el artículo. En cambio, este tipo de producto o un LLM usa el contenido del NYT como sustituto, de modo que en la práctica ya no hace falta suscribirse al NYT
- Lo que describiste en realidad cae por completo dentro de uso justo
  Además, si ves artículos de medios de segunda categoría o inferiores, casi todos contienen material tomado directamente de sitios como el NYT. Normalmente escriben algo como “según The Times, tal persona hizo tal cosa”, y por lo general también ponen el enlace al original
- Otro factor a considerar es que una red neuronal puede funcionar como compresión con pérdida, y eso se vuelve muy evidente en modelos sobreajustados
  A veces están tan sobreajustados que ni siquiera es compresión con pérdida, sino que los datos originales quedan codificados textualmente dentro de la red neuronal
- “No reproduce grandes bloques textuales de artículos del NYT, solo usa extractos muy breves” en realidad describe a Google
  Si lo piensas, sorprende que Google sea legal, pero lo que hace está completamente establecido como legal. Internamente, Google conserva y usa copias completas en texto íntegro de todas las páginas web que indexa
  Claro, Google da enlaces a la fuente. Si OpenAI hiciera lo mismo, ¿también lo consideraríamos legal aunque la tasa de clics fuera de solo 0.1% y casi no ayudara a los ingresos del NYTimes? ¿Y si detectara el momento en que va a reproducir el original y simplemente lo parafraseara? NYTimes no tiene derechos de autor sobre versiones parafraseadas de sus artículos. En lo sustancial no habría casi ninguna diferencia, así que sería bastante ridículo que el gobierno obligara a usar ese tipo de rodeo
- ¿No es completamente común escribir artículos o entradas de blog que en esencia resumen noticias y, a veces, las citan?
- La pregunta “si haces un producto con artículos del NYT obtenidos legalmente por scraping, ¿es uso justo?” no es una buena pregunta
  Mirar por la ventana y ver a tu vecino yendo a la tienda está bien. Pero si usas una cámara para rastrear a toda la gente en la calle y meterla en una base de datos, en muchos lugares eso ya sería problemático o ilegal
  Cuando escala, la lógica no necesariamente sigue aplicando igual
La demanda incluye casos en los que ChatGPT/Bing Copilot copiaron textualmente al NYT. Parece difícil sostener que ese tipo de copia sea uso justo
Dicho eso, OAI/MS probablemente podría corregirlo dentro del paradigma actual. Bastaría con entrenarlo con RLHF para que reconozca el plagio y reciba penalizaciones
Pero la demanda va mucho más allá de decir simplemente que esas copias constituyen infracción de copyright. Afirma que “la reproducción no autorizada de obras de The Times para entrenar LLM es un uso sustitutivo no justificado por un propósito transformativo”
Esa es una afirmación fuerte: que el solo hecho de descargar artículos para usarlos como datos de entrenamiento ya sería una infracción de copyright. Que GPT pueda escupir el texto original podría ser una distracción. Ojalá los jueces se den cuenta y se concentren en la cuestión legal, interesante y de gran alcance, de qué parte del modelo puede o no constituir uso transformativo
- “Que RLHF reconozca el plagio y lo penalice” no es realmente un problema de RLHF
  La idea esperada sería mantener un filtro Bloom de n-gramas del contenido con copyright conocido. Por ejemplo, enumerar todos los conjuntos de 7 palabras consecutivas de un artículo y verificar que el modelo solo pueda generar como máximo n-1 palabras idénticas seguidas respecto de la fuente
  Pero esto probablemente terminaría saliendo mal. Las empresas de IA invertirían mucho más en atribución de contenido, y nuevas herramientas de atribución pasarían a aplicarse a todos los artículos escritos por humanos, porque cualquiera podría estar usando GPT a escondidas. Eso podría tener un efecto inhibidor sobre la creatividad. Además, no todo lo que escribe el NYT es original, así que el NYT también tendría que contrastarse con todas las demás fuentes
- Creo que el NYT va a ganar
  Se puede argumentar que los LLM son un archivo de datos comprimidos con un algoritmo raro. El hecho de que puedan escupir periódicamente los datos de entrenamiento textualmente, y que existan salvaguardas para impedirlo, es prueba de ello
  La segunda prueba es el paper explicado aquí: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... los investigadores usaron datos comprimidos con gzip como modelo en lugar de un LLM, y en algunos casos incluso superaron a un LLM entrenado
  La IA es una caja negra hasta cierto punto, pero operar una caja negra no te protege de demandas por violación de derechos. No puedes crear una base de datos hecha raspando datos con copyright y luego patentar que consultar esa base de datos es uso justo
  Aquí hace falta legislación, y esa legislación no va a ser “si es para entrenar modelos, todo el mundo puede copiar gratis cualquier cosa”. Habrá que ordenar las licencias, y no solo mediante precedentes judiciales sino también con leyes escritas. Puedo simpatizar bastante con dar amplio margen a investigadores open source y hackers, pero no me genera la misma simpatía Microsoft ni OpenAI financiada por Microsoft
- Muchos casos de uso justo incluyen copia textual. La pregunta importante no es tanto la copia en sí, sino el contexto en que ocurre esa copia. El NYT se está metiendo en un terreno todavía no explorado
- No sé cómo funcionaría en la práctica la propuesta de “hacer que RLHF reconozca el plagio y lo penalice”. Para reconocer plagio durante la inferencia, en realidad tendrías que memorizarlo todavía más fuerte
  Si funcionara, sería bastante gracioso. Primero lo entrenas para copiar textualmente los datos de entrenamiento y luego lo vuelves a entrenar para que no lo haga
  ¿No funciona así desde el principio? La función de pérdida hace justamente eso: lo entrena para copiar textualmente los datos de entrenamiento. Solo que hay tantos datos que, dado el número de parámetros, no esperamos que eso sea posible para la mayoría de los datos de entrenamiento
- ¿Copiar una obra y usarla con el mismo propósito expresivo original no deja de ser uso justo? Se supone que debe usarse con un propósito transformativo
  Supongamos que vendo un sitio de suscripción llamado New Jersey Times, y simplemente descargo artículos del New York Times y los paso por un autoencoder con ruido aleatorio. El propósito es exactamente el mismo que el del sitio web del New York Times y el dinero me lo quedo yo. ¿Eso sería uso justo?
El NYT está construyendo un castillo de arena frente a un tsunami. En el panorama general, esta demanda no va a importar mucho por varias razones
Primero, la próxima generación de LLM se entrenará solo con datos “sintéticos”/públicos. GPT-4V puede lavar con facilidad un corpus completo de entrenamiento con copyright hasta volverlo irreconocible; por ejemplo, reescribiendo el 40% y eliminando autor y fuente. Entonces GPT-5 ya no escupirá material con copyright
Segundo, la investigación, el hosting y el progreso seguirán. EE. UU. no puede detener esto; solo puede elegir quedarse atrás. El mundo seguirá avanzando, y China observará con gusto cómo su mayor competidor comete suicidio intelectual para apaciguar a empresas de medios que buscan rentas
Tercero, los modelos pueden compartir pesos, fusionarse entre sí, colaborar, podarse y evolucionar a través de varias generaciones de lanzamientos. La ley de copyright está pésimamente adaptada para rastrear infractores dentro de esta sopa genealógica de IA calentada con datos de procedencia incierta o sospechosa
Nos guste o no, vivimos en una nueva era intelectual. El NYT y otros se subirán a esta ola quieran o no
- Esta es una interpretación realmente mala. Es una apelación a las consecuencias. Me parece totalmente legítimo que The New York Times tome acciones legales. Invirtieron tiempo y esfuerzo en crear contenido, y se usó sin permiso para obtener beneficio económico. Es una infracción evidente
  Si vemos los factores de fair use, en el propósito y carácter del uso quizá en el futuro pueda sostenerse un argumento de transformación, pero la disputa actual trata del uso textual del original. Por lo tanto, claramente no es transformativo. El uso comercial también dificulta más una determinación de fair use
  En cuanto a la naturaleza de la obra, los trabajos más factuales tienen más probabilidades de ser considerados fair use, pero los artículos del NYT son tanto factuales como creativos
  En la cantidad y sustancialidad usada, se utilizó el artículo completo, así que no hay margen para decir que solo se tomó una parte insignificante
  También en el impacto sobre el valor de mercado, el NYT no está recibiendo dinero, y si la gente consulta los artículos del NYT en ChatGPT en vez de leerlos en el NYT, eso difícilmente ayuda a su valor de mercado
  No soy abogado, pero creo que el NYT tiene pleno derecho a presentar la demanda. El progreso es inevitable, pero los humanos deben moldearlo y dirigirlo activamente. Si no, no se le puede llamar progreso. Aquí, la acción legal es un medio necesario para que individuos y organizaciones hagan valer sus derechos e influyan en la dirección de ese progreso
- ¿“Empresas de medios que buscan rentas”? ¿Una empresa de medios que realmente crea contenido es rentista? ¿Comparada con la basura alucinada que produce la IA?
- ¿Eso de que “China disfruta ver a EE. UU. cometer suicidio intelectual” se refiere a la misma China que ya introdujo regulaciones extensas sobre la IA?
  Al menos en un caso, una startup china tuvo que cerrar un chatbot recién lanzado. Había dicho cosas sobre la guerra de Ucrania que no coincidían con la postura oficial del partido
  https://finance.yahoo.com/news/beijing-tries-regulate-china-...
  https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
  Sí coincido en que la investigación, el hosting y el progreso seguirán, pero no estoy tan seguro de que China vaya a ser la beneficiaria si EE. UU. le agrega algunas barras de seguridad a esta montaña rusa
- ¿De verdad los medios buscan rentas? Ellos crean contenido y análisis nuevos y quieren cobrar por ello. Eso se ve bastante distinto de acaparar recursos naturales o tierra
- La primera ley de internet es: “si lo subes a internet, ya no es tuyo”
  No tienes que estar de acuerdo ni te tiene que gustar. Pero si lo aceptas y vives en consecuencia, sales mucho menos quemado
La demanda en sí es este documento al que enlazó arstechnica: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
A partir de la página 30 hay ejemplos bastante claros de que ChatGPT tiene copias internas de material con copyright y lo recita palabra por palabra
En esencia, se copió masivamente material con copyright dentro de algún bloque y luego se le aplicó compresión con pérdida. ¿Qué tan destructiva tendría que ser esa compresión para que el copyright dejara de aplicar? Parece que tendría que ser bastante destructiva
Lo que podría salvar a OpenAI sería precisamente su carácter cerrado. OpenAI puede tomar la parte con copyright del dataset con el que se entrenó ChatGPT, compararla directamente y filtrar o bloquear en la interfaz web para que el material con copyright no salga del LLM. En cambio, un proyecto open source entrenado con el mismo dataset enfrenta la tarea mucho más difícil de eliminar el material con copyright del propio LLM
- El objetivo de eso de “copiar mucho material con copyright, meterlo en un bloque y aplicarle compresión con pérdida” probablemente esté muy cerca de “que nadie note lo robado”
  Es decir, hacerlo difícil de detectar, o al menos que incluso con análisis directo haya suficiente negación plausible como para salir librado
- Me gustaría saber cómo obtuvieron ese resultado. No muestran una UI normal, es decir, la pantalla de ChatGPT o Copilot
  Es difícil saber si está repitiendo desde los datos de entrenamiento, o si cometieron el mismo error que en el artículo original y primero hicieron que Copilot buscara el artículo / hiciera una búsqueda en Bing antes de responder
- La respuesta a la “cerrazón” es una auditoría controlada desde fuera
Si creen que los ejemplos de la demanda son “uso justo”, hay que pensar en lo que eso significa. Básicamente sería permitir, casi sin reglas, que unas cuantas empresas integren todo el valor de internet dentro de su caja negra, y eso se ve muy peligroso
Incluso si no fuera este caso, ojalá los tribunales establezcan aquí las reglas del juego
- Yo lo veo justo al revés. Si el costo de los datos de alta calidad llega a decenas de miles de millones de dólares, ningún modelo open source va a poder costear el entrenamiento
  Hasta que alguien resuelva el tema de los datos sintéticos, en este campo solo van a quedar jugadores como OpenAI y Google
- El scraping es legal, y esto parece una obra transformativa
- El otro lado también es preocupante. La ley de propiedad intelectual siempre ha sido compleja, desordenada, contradictoria y moralmente ambigua
  La controversia sobre la infracción de propiedad intelectual por parte de los LLM está dejando en evidencia de inmediato esos defectos inherentes, y al final está forzando decisiones que sentarán precedentes sobre la legalidad del pensamiento humano. Es un tema con el que nadie puede sentirse cómodo
  Entiendo que puede ser peligroso dar demasiada discreción a OpenAI y Microsoft, pero por otro lado se está pasando por alto que empresas como Disney ya han moldeado de facto gran parte de la ley de copyright durante décadas. Deben estar relamiéndose ante la posibilidad de que se cree un precedente donde haya que pagar por la capacidad de interactuar con cualquier medio o información, a cualquier nivel
  Al final nos estamos dando cuenta de que construimos un enorme sistema económico sobre la idea, fundamentalmente defectuosa, de la propiedad de las ideas. La solución sería romper el libro de reglas, lo cual sería muy doloroso, o empujar todavía más en esa dirección, lo cual sería fatal
- Los tribunales ya decidieron esto
  En Japón dijeron que con la IA se puede hacer cualquier cosa
  Más te vale no perder tu ventaja competitiva por haber subido algo públicamente a internet. Si lo pusiste ahí para que todos lo vieran, debes esperar que otros lo usen
A los desarrolladores les gusta fingir que los LLM son parecidos a los humanos, y que han usado materiales como los de NYTimes como material educativo, igual que un humano
Pero no es así. Viéndolo de forma más simple, la escritura propietaria ahora quedó integrada en el código fuente de OpenAI. Es como si yo copiara parte de otro código propietario y lo pegara en mi codebase, y luego dijera que copiar y pegar es un proceso evolutivo natural de millones de años de evolución
El hecho de que los LLM sean demasiado complejos como para saber dónde está eso no hace que deje de serlo
- Eso no es copiar y pegar, está comprimido con pérdida. Ni siquiera GPT-4 tiene, ni de cerca, la memoria suficiente para almacenar todos los datos de entrenamiento en un formato de compresión sin pérdida. Es parecido a cómo los humanos comprimimos la información que leemos
- Los desarrolladores que creen que los LLM son parecidos a los humanos no suelen ser precisamente los más inteligentes, y normalmente son objeto de burla
- No es cierto que “la escritura propietaria quedó integrada en el código fuente de OpenAI”
  El código fuente de un LLM probablemente sean unos pocos cientos de líneas de texto que describen la forma de la red neuronal incluida en el modelo
  El contenido de NYTimes no estaría en el código fuente. NYTimes no publica código fuente en Python, publica noticias en lenguaje humano
  Los LLM son conceptualmente simples, y en su mayor parte consisten en multiplicaciones de matrices, operaciones no lineales que conectan cada capa, bucles basados en atención, etc. Lo que los vuelve complejos es la enorme cantidad de datos de entrenamiento y cómputo
Todas las empresas que tienen contenido están oliendo el dinero
A NYT no le molestaría que usaran su contenido para entrenar LLM. Siempre que le paguen una tarifa. Reddit cerrará su API gratuita y hará que paguen para obtener contenido de entrenamiento. Discord también venderá contenido para entrenamiento de IA, si no lo está haciendo ya. Twitter también lo está haciendo
Antes no les importaba porque los LLM no pasaban de ser un experimento. Ahora hay billones de dólares en juego
- NYT no “tiene” contenido, crea contenido. Esa es su razón de ser
- “Ellos” también incluye a la gente que trabaja ahí. Si alguien escribe artículos a tiempo completo, ¿por qué tendría que regalar ese trabajo para que alguien entrene con él y luego gane dinero con el resultado?
- Si no les importó cuando los LLM eran un experimento y recién se movieron ahora que ven billones de dólares de valor, ¿se puede decir que es culpa de NYT por no haber previsto el futuro, quedarse dormido y “sin querer, en retrospectiva” permitir a OpenAI y otros acceso gratis, público e ilimitado a su contenido?
La postura de NYT va a parecer realmente absurda en el futuro cuando metan LLM en cuerpos mecánicos capaces de interactuar con el mundo físico y aprender en tiempo real o actualizar sus pesos
Podría volverse ilegal que esos robots lean, vean o escuchen material con copyright. No podrían ver TV, ni leer libros de biblioteca, ni navegar por internet. Porque en el proceso podrían memorizar parte del contenido protegido
- No estoy de acuerdo. El problema es la parte de texto literal. Lo comparas con cómo funcionan los humanos, pero a los humanos tampoco se les permite hacer eso
  Sería más difícil para una persona, pero si se memoriza un libro con copyright y luego lo recita en vivo por TV, o crea copias desde la memoria y las vende, la van a demandar
  Los humanos todo el tiempo hacen obras derivadas, y está bien que los LLM también lo hagan. Pero no pueden hacerlo de forma literal
- La memorización no es el problema. El problema es devolverlo de forma literal o cortar el acceso a la fuente
  Hay personas con memoria fotográfica, y si la gente dejara de comprar el periódico para pedirle a esa persona que les recite las noticias, surgiría el mismo problema
  Actualmente, la ejecución pública de material con copyright es una infracción
- ¿Esos LLM serían ciudadanos independientes con derechos? Entonces está bien
  ¿O estarían todos en manos de una sola megacorporación, usándose para sacarnos dinero a todos, como hace el capitalismo? Entonces estoy a favor de prohibirlo
- Si se permitiera que un LLM con cuerpo lea nytimes en una tablet, creo que a NYT tampoco le importaría
Desde la aparición de ChatGPT, se ha venido argumentando que los LLM deberían considerarse obras transformativas y, por tanto, entrar dentro del uso justo. No soy abogado y esto es solo la opinión de un no especialista, pero me parece interesante ver qué dirá el sistema legal al respecto.
- La demanda sostiene que GPT reprodujo párrafos del NYT casi textualmente.
- Si se considera el tamaño de los datos de entrenamiento y se imagina que cierto resultado es producto de interpolar innumerables ejemplos de entrenamiento de distintas personas, esta postura parece razonable.
  Si se toman fragmentos prestados de decenas, cientos o miles de fuentes, ¿de quién se infringen los derechos de autor? Los remixes musicales también toman de muchas fuentes y, si la música es claramente distinta y original, parece que hasta cierto punto resisten el escrutinio legal.
  Pero una afirmación amplia de que los LLM o la IA actual califican como uso justo se vuelve difícil de defender cuando el modelo reproduce repetidamente obras individuales completas e identificables y, en casos concretos, viola claramente la ley de derechos de autor. Puede que el modelo en la mayoría de los casos remezcle o transforme, pero hay evidencia de que no siempre lo hace en todos los casos. Quizá esta demanda termine siendo el detonante para corregir la IA y evitar que reproduzca obras específicas, y así el argumento de uso justo podría volverse más sólido y realmente defendible.
- Esta pregunta inevitablemente tendrá que llegar hasta la Corte Suprema. Mientras antes, mejor. Claramente es uso justo. Los agentes generativos terminarán siendo vistos legalmente como no distintos de un artista humano que crea una obra nueva usando la suma de todas sus influencias.
- ¿Qué pasa si le pides a ChatGPT que imprima textualmente un artículo de su dataset, citando la fuente tal cual?
- ¿Incluso contenido detrás de un muro de pago?
Esta situación ya había sido anticipada en el muy influyente video EPIC 2014 de 2004.
https://www.youtube.com/watch?v=eUHBPuHS-7s El original era en Flash y se perdió en el agujero de la memoria; solo queda esta conversión de baja calidad.
36 segundos: “Sin embargo, la prensa tal como la conocías ya no existe”.
40 segundos: “Las organizaciones de noticias del siglo XX se han vuelto secundarias. Son vestigios solitarios de un pasado no muy lejano”.
2 minutos 11 segundos: “En 2002, Google también lanza Google News, un portal de noticias. Las organizaciones periodísticas reaccionan con indignación. Google News es editado enteramente por computadoras”.
5 minutos 13 segundos: “La guerra de las noticias de 2010 resulta notable porque en ella no participa ni una sola organización periodística real. Googlezon finalmente pone en jaque mate a Microsoft con una funcionalidad que el gigante del software no puede igualar. Usando un nuevo algoritmo, las computadoras de Googlezon extraen dinámicamente y recombinan frases y hechos de todas las fuentes de contenido para crear una nueva historia. La computadora escribe una nueva historia para cada usuario”.
5 minutos 55 segundos: “En 2011, el Cuarto Poder, que había permanecido dormido, despierta y emprende su primera y última resistencia. The New York Times Company demanda a Googlezon, alegando que los robots extractores de hechos de la empresa violan la ley de derechos de autor. El caso llega hasta la Corte Suprema”.
Los detalles no coincidieron exactamente, pero la precisión general es sorprendente. Aunque, en esta línea temporal, también podría ser una especie de producto de la hiperstición.
https://en.wikipedia.org/wiki/EPIC_2014 Pensé que EPIC 2014 podría ser el único video en Flash con artículo en Wikipedia, pero al buscar vi que había cinco más.

Demanda por copyright de The New York Times exige a OpenAI eliminar todas las instancias de GPT

Demandados y exigencias principales

Cómo el Times describe el daño

Cuestiones sobre el uso de datos de entrenamiento

El problema de reproducción visible en la etapa de salida

Refutación del uso justo y daño reputacional

Wirecutter y el problema de ingresos por afiliados

Reclamos legales

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News