1 puntos por GN⁺ 2023-07-10 | 1 comentarios | Compartir por WhatsApp
  • La comediante y escritora Sarah Silverman presentó demandas por separado contra OpenAI y Meta en un tribunal federal de EE. UU., junto con Christopher Golden y Richard Kadrey
  • El punto en disputa es si ChatGPT y LLaMA fueron entrenados con datasets que incluían libros sin autorización de sus autores
  • Los demandantes sostienen que libros obtenidos ilegalmente de shadow libraries como Bibliotik, Library Genesis y Z-Library fueron distribuidos masivamente por torrent
  • En la demanda contra OpenAI, se presenta como indicio del uso de datos de entrenamiento el hecho de que ChatGPT resumió Bedwetter, Ararat y Sandman Slim
  • La demanda contra Meta cuestiona la posible inclusión de los libros de los demandantes en los datasets usados para entrenar LLaMA, vinculando ThePile y EleutherAI con el origen de esos datos

Demandados y punto central del litigio

  • Sarah Silverman, Christopher Golden y Richard Kadrey presentaron demandas por separado contra OpenAI y Meta en tribunales federales de EE. UU.
  • El eje de ambos casos es si hubo infracción de derechos de autor
  • Los demandantes afirman que ChatGPT de OpenAI y LLaMA de Meta fueron entrenados con datasets que incluían sus obras
  • La cuestión clave es si esos datasets se obtuvieron sin el permiso de los autores

Polémica por el origen de los datos de entrenamiento

  • Las demandas sostienen que los datasets usados para entrenar a ChatGPT y LLaMA fueron obtenidos de forma ilegal
  • Los sitios de shadow library señalados por los demandantes son los siguientes
    • Bibliotik
    • Library Genesis
    • Z-Library
    • otros sitios similares
  • También se cuestiona que esos libros se ofrecieran masivamente mediante el sistema torrent

Ejemplos presentados en la demanda contra OpenAI

  • Los demandantes presentan como prueba casos en los que ChatGPT resumió sus libros a partir de prompts
  • Los libros incluidos como evidencia son los siguientes
    • Bedwetter de Sarah Silverman
    • Ararat de Christopher Golden
    • Sandman Slim de Richard Kadrey
  • La demanda afirma que ChatGPT no reprodujo la información de gestión de derechos de autor incluida en las obras publicadas de los demandantes

Enfoque de la demanda contra Meta

  • La demanda separada contra Meta sostiene que los libros de los demandantes pudieron estar accesibles en el dataset de entrenamiento de LLaMA
  • LLaMA es presentado como una serie de 4 modelos de IA de código abierto publicada por Meta en febrero
  • La querella cuestiona ThePile, una de las fuentes del dataset de entrenamiento mencionadas en el artículo técnico de LLaMA de Meta
  • Se menciona que ThePile es un dataset compilado por EleutherAI

Reacciones de las partes

  • Christopher Golden y Richard Kadrey se negaron a comentar sobre la demanda
  • El equipo de Sarah Silverman no respondió hasta el momento de la publicación

1 comentarios

 
GN⁺ 2023-07-10
Comentarios de Hacker News
  • Esto equivale a decir explícitamente que los creadores de IA realmente usaron obras con copyright obtenidas de sitios pirata de libros
    Si descargas aunque sea un solo libro de ese sitio, podrían demandarte y podrías perder por infracción; si descargaste todo, podrías quedar expuesto a indemnizaciones de decenas de miles de millones de dólares
    Pero parece que empresas como Google o Facebook juegan con reglas distintas. Es parecido a la idea de que si matas a una persona eres un asesino, pero si matas a un millón, preguntar por eso se vuelve una “pregunta capciosa” y puedes responder con indignación

    • Vale la pena detenerse un momento a pensar que, por el copyright, casi ningún niño ha podido acceder a casi todos los libros escritos hasta ahora
      Eliminar el copyright de un día para otro quizá sería un cambio demasiado brusco, pero mientras más reduzcamos su impacto, mucho mejor será el mundo y más rápido avanzará
      En 2023, más de la mitad de la población mundial tiene un smartphone. Vale la pena imaginar un mundo en el que esa mitad pueda acceder a todos los libros digitalizados y criar a sus hijos con esos libros
    • Los modelos de aprendizaje automático llevan mucho tiempo entrenándose con datos con copyright
      ImageNet está lleno de imágenes con copyright, Clearview literalmente raspó rostros de internet, y seguramente hay ejemplos aún más antiguos
      No sé si alguna corte de EE. UU. ya determinó que eso es uso justo, pero si todavía no lo ha hecho, creo que tarde o temprano probablemente lo hará
    • En sentido estricto, lo que suele generar una demanda no es la descarga sino la subida
      Mientras no lo vuelvas a compartir, puedes descargar cuanto quieras de Z-Library o BitTorrent
      Indexar material protegido por copyright para fines de búsqueda también parece relativamente seguro, o al menos es una zona gris
    • Me pregunto con qué frecuencia pasa realmente eso de que “si descargas un libro de ese sitio te demandarán y te declararán culpable de infracción”
      Puedes recibir avisos de infracción y, si te pasas mucho, tu proveedor de internet podría cortarte el servicio, pero nunca he oído de alguien a quien realmente hayan demandado solo por descargar algo
    • Me agrada bastante que la gente de IA en la práctica trate el copyright como si no existiera
      De verdad espero que los tribunales acepten los pesos de los LLM y los datasets como “uso justo” o bajo cualquier otra justificación legal ridícula
      Aaron Swartz era un adulto de verdad
  • Es totalmente posible que el libro de Silverman estuviera en el dataset Books2, pero esta frase de la demanda parece claramente incorrecta
    Primero, aunque el modelo no hubiera visto ni una sola palabra del texto del libro durante el entrenamiento, podría haber aprendido a resumirlo leyendo otros resúmenes públicos, por ejemplo una página de Wikipedia
    Segundo, tampoco está claro que un modelo que solo hubiera visto el texto del libro, sin ver descripciones ni resúmenes sobre él, realmente fuera bueno resumiéndolo
    Para comprobarlo, se podría elegir un libro que esté en Project Gutenberg y que, según la demanda, habría estado en los datos de entrenamiento de ChatGPT por estar en Books1, pero del que casi no haya discusión en línea. Si la capacidad de resumir viene de haber aprendido del propio libro, debería poder resumir libros raros tan bien como el de Silverman
    Elegí al azar The Ruby of Kishmoor, un libro añadido a Project Gutenberg en 2003. ChatGPT basado en GPT-3.5 alucinó un resumen incorrecto incluso sobre los personajes principales, y GPT-4 ni siquiera lo intentó, diciendo que no conocía la historia
    Si ChatGPT puede resumir el libro de Silverman porque ese libro mismo estaba en los datos de entrenamiento, entonces queda la duda de por qué no puede hacer lo mismo con otros libros

    • El playground de GPT-4 resumió The Ruby of Kishmoor así
      Prompt: por favor resume el siguiente libro que está en Project Gutenberg — The Ruby of Kishmoor
      La respuesta dice que es una breve historia de aventuras de Howard Pyle en la que Jonathan Rugg es guiado por un misterioso desconocido al Caribe para intentar obtener un valioso artefacto, la Ruby of Kishmoor
      Tras llegar al Caribe, descubre que el rubí tiene una grave maldición, pero por curiosidad y por la posibilidad de una gran fortuna, decide correr el riesgo y perseguir la joya
      Después de varios desafíos, encuentra el rubí no por una búsqueda metódica sino por pura suerte
      A lo largo del viaje, explora la codicia humana y hasta dónde llega la gente por ganancias materiales, mezclando aventura, elementos sobrenaturales, valentía y reflexión moral para hacer reconsiderar el verdadero valor de la búsqueda material
      Al final, Jonathan logra escapar con el rubí, pero pagando un gran costo personal, dejando preguntas sobre el verdadero valor de la vida y de las aspiraciones materiales
    • Al iniciar una demanda, normalmente los hechos se plantean así para definir el alcance del descubrimiento de pruebas
      Lo que se afirma es que hay motivos razonables para creer que es cierto, y ahora el litigio permitirá verificarlo directamente
    • Dijiste que “esta frase de la demanda es claramente falsa”, pero el argumento que sigue solo muestra que quizá no sea cierta
      Yo también vi otro comentario y le pedí a GPT-4 un resumen de The Ruby of Kishmoor; tras preguntar dos veces, sí me dio un resumen. No conozco el libro, así que no puedo juzgar si era correcto, pero al menos esa prueba ya no se sostiene
      Suponer que ChatGPT seguramente respetó el copyright y no escaneó material protegido sin permiso parece bastante ingenuo. El descubrimiento de pruebas podría resolverlo. Deberían existir registros de qué fue lo que escaneó
      Me parece que el mejor argumento es que esto constituye uso justo
    • Podría ser una diferencia de accesibilidad. He oído hablar de Silverman, pero nunca de Ruby of Kishmoor
      Seguramente mucha más gente ha hablado de ella, y también habrán subido más resúmenes a sitios personales y a otros lugares
    • La plausibilidad es precisamente el criterio para superar una moción de desestimación
      Si es plausible, puede pasar a descubrimiento de pruebas, y el descubrimiento de pruebas ayuda a acercarse a los hechos reales
  • Este caso es bastante interesante, porque distingue entre materiales de entrenamiento a los que cualquiera puede acceder con solo tener un navegador web, como blogs personales, y materiales de entrenamiento “obtenidos ilegalmente y distribuidos masivamente a través de un sistema torrent”
    No me queda claro por qué esa distinción debería ser legalmente importante en relación con la distribución de LLM. Después de todo, los autores de blogs tampoco dieron su consentimiento
    Aun así, sí me pregunto si hay un problema legal en usar torrents pirateados para entrenar. La distribución de un LLM entrenado con material con copyright podría permitirse como uso justo, pero ¿existe alguna base legal para decir que, para hacerlo de forma legítima, primero hay que comprar el contenido comercializado? Por ejemplo, que las entradas de blog están bien porque son de acceso gratuito, pero el libro de Sarah Silverman no, porque nunca se publicó gratis y además no se pagó por él
    ¿O acaso al tribunal no le importa en absoluto cómo se hizo algo? Si citas un pasaje de un libro en un artículo freelance, no te preguntan si compraste el libro, si puedes demostrar que lo sacaste de la biblioteca o te lo prestó un amigo, o si descargaste ilegalmente una copia digital

    • Al final, parece que va a surgir un nuevo concepto de licencia, parecido a los derechos de sincronización en la música. Tal vez podría llamarse “derecho de entrenamiento”
      No importará si compraste el texto o si lo pirateaste. Sería parecido a que hoy, al mezclar una pista de audio en la banda sonora de una película, no lo central no es si compraste esa pista o la pirateaste
      Las agencias de talento negociarán en bloque las tarifas por derechos de entrenamiento de creadores populares, y los creadores recibirán un pequeño flujo de ingresos que los proveedores de LLM pagarán como parte de sus cargos de API
      Los derechos de entrenamiento de creadores independientes seguirán siendo vulnerados indiscriminadamente, como ahora, y los grandes LLM comerciales sospechosos o demostrablemente infractores quedarán en ridículo o enfrentarán demandas. Los LLM independientes probablemente seguirán por debajo del radar
    • Uno de los factores para determinar el uso justo, y hasta hace poco el que de forma constante se consideraba el más importante, es el impacto en el mercado comercial de la obra original
      Por lo tanto, si la obra original en la práctica no tiene mercado comercial, es más probable que el tribunal reconozca uso justo. Pero que algo no se venda activamente no basta por sí solo para resolverlo
      Las licencias open source también se ofrecen gratis, pero sobrevivieron en tribunales de apelación
    • La copia privada de una obra con copyright está permitida, pero su redistribución no
      No está claro hasta qué punto esto cuenta como redistribución. También es ambiguo si hay una gran diferencia entre este modelo y una máquina tipo VCR que puede regenerar la obra original con solo presionar un botón
    • La postura sobre la IA parece aprovechar una moda exagerada
      Si descargar material con copyright “pirateado” es ilegal, entonces ese sería el delito, y casi todo lo demás es irrelevante. Ver una película pirateada no hace ilegal contarle la trama a otra persona
    • Según entiendo, para alegar uso justo hay que poseer legalmente la obra. No soy abogado
      Si una obra legalmente solo puede conseguirse mediante compra, entonces tendría que ser una copia que compraste legalmente tú mismo o que recibiste de alguien que sí la compró de forma legal. Por ejemplo, si te la regalaron
  • No sé si de verdad estamos leyendo la misma demanda
    El paper de Meta https://arxiv.org/pdf/2302.13971.pdf dice que incluyó dos corpus de libros en el dataset de entrenamiento. Uno es Project Gutenberg, con libros de dominio público, y el otro es la sección Books3 de The Pile
    El paper de The Pile https://arxiv.org/abs/2101.00027 describe Books3 como un dataset de libros derivado de una copia del contenido del tracker privado Bibliotik
    El enlace de Shawn Presser es https://twitter.com/theshawwn/status/1320282149329784833, y él describe Books3 como “all of bibliotik”, es decir, 196,640 libros convertidos a .txt plano
    No tengo tiempo ni espacio para descargar un archivo de 37 GB, pero si el libro de Silverman está ahí, me parece que este es un caso claramente ganado
    LLaMA de Meta, según parece por lo que ellos mismos reconocen, fue entrenado con libros pirateados

    • El libro de Silverman está ahí
      El resultado de $ grep -i "Sarah Silverman" books3.list.txt es 325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt
      También hay un enlace para quienes solo quieran ver la lista de archivos. La lista en sí también es un archivo grande: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
    • Sí y no
      Si el entrenamiento inicial requirió hacer una copia del corpus definido por el tracker, entonces parece un caso casi evidente de infracción de copyright en ese proceso
      Pero qué reparación puede obtener Silverman más allá del valor de compra del libro, quizá incluso daños triplicados, al final sigue dependiendo de la misma cuestión: la relación entre el entrenamiento del modelo y el copyright
      A eso se suma la cuestión adicional de si el carácter ilegal del material previo al entrenamiento cambia esa evaluación
    • No parece que estemos leyendo lo mismo. En algún punto de la nada metiste a Google en esto
  • Parece que este problema va a ser más grande de lo que algunos creen
    Podría surgir un mercado de datos de entrenamiento limpios sin posibles reclamaciones de copyright. Algo así como usar solo obras de dominio público
    Entonces, ¿nos daríamos cuenta de que es IA porque habla como un autor de finales del siglo XVIII o principios del XIX?

    • No es un problema completamente nuevo; en los motores de búsqueda ya hubo algo parecido, y también podría verse como uso transformativo
      Aun así, podrían surgir problemas con modelos dispuestos a reproducir textos completos con copyright, y también hay cuestiones nuevas, como modelos que alucinan contenido difamatorio
      De todos modos, parece difícil volver a meter a este genio en la botella. Probablemente veremos muchas demandas, trabajo de alineación y nuevos tipos de abuso
    • Ojalá surja ese mercado. Estaría bien que existiera un mercado para vender licencias de entrenamiento sobre propiedad intelectual
      Podría convertirse en una fuente de ingresos pasivos pequeña pero real para artistas, escritores y poetas a quienes no les moleste que su propiedad intelectual se use en conjuntos de entrenamiento
      Negociar con cada creador individualmente es poco realista, pero sí parece posible con grupos más grandes como editoriales, galerías, gremios o sindicatos que puedan garantizar la calidad de sus miembros. Podrían ofrecer licencias y repartir los ingresos entre todos sus integrantes
      Que los LLM absorban todos estos datos sin consentimiento ni contrato, incluso desde sitios de torrents, es claramente antiético. Este tipo de modelos podría beneficiar a todos
    • Hasta que se resuelva este tema, los datos de entrenamiento limpios tendrán valor como medida de mitigación de riesgos
      Después de que se resuelva, o dejará de ser un problema por completo, o se convertirá en una cuestión mucho más clara de costo-beneficio
      Podría ser una mezcla de obras de dominio público y publicaciones del gobierno de Estados Unidos. Las publicaciones del gobierno de EE. UU. están categóricamente fuera de copyright
    • También existe un mercado de jurisdicciones limpias. Es decir, jurisdicciones que no consideran que entrenar redes neuronales sea una infracción de copyright
      Japón ya se ha declarado como una de esas jurisdicciones
    • Creo que querían decir siglos XIX y XX, no XVIII y XIX, pero aun así sería bastante gracioso
  • No soy abogado, pero esto no parece un buen ejemplo para probar infracción
    Un resumen detallado de un libro suena como un caso típico de uso transformativo. Especialmente en el caso de Silverman, cuanto más se eliminen los elementos artísticos de la prosa y más se reduzca el libro a “hechos”, más difícil será que se convierta en un sustituto directo de la obra original

    • La demanda tiene una lógica bastante decente. Si sigues el origen de los datos de entrenamiento, llegas a una obtención ilegal
      Que material obtenido ilegalmente se haya usado en un negocio comercial, y que ese negocio haya sido un modelo de IA, quizá sea algo secundario. No puedes usar material obtenido ilegalmente mientras haces negocio
    • Cuanto más lo pienso, más me parece que el resultado depende, y va a depender, de si la “ley” considera a la IA como una entidad más cercana a una persona o más cercana a una “máquina”
      Una persona puede leer, estudiar y luego producir otra obra
      Pero “meterle datos a una máquina” parece claramente una infracción, aunque al otro lado no salga exactamente lo mismo
    • Puede que no, pero una de las alegaciones es interesante. Afirma que parte del dataset fue obtenida ilegalmente
      ¿De cuánto serían esos daños? ¿Del precio de venta al público de la edición en tapa dura?
    • ¿Con el prompt adecuado un LLM podría repetir el libro completo palabra por palabra?
    • No he leído la demanda, pero podría haber un argumento de que el uso justo no aplica porque OpenAI entrenó sus datos con obras robadas
  • Dejando de lado si un LLM es o no una obra derivada de todo aquello con lo que fue entrenado, esta alegación parece muy débil
    Incluso si la obra en sí nunca hubiera estado en el conjunto de entrenamiento, un LLM entrenado con varios resúmenes de esa obra podría generar por sí mismo un resumen así
    En general, el hecho de tener conocimiento sobre algo no es prueba de que se haya entrenado con ello

    • No es evidencia concluyente, pero los tribunales no exigen evidencia concluyente para iniciar un caso y descubrir nuevos hechos
      Podrían preguntar a expertos en LLM y a OpenAI si es muy probable que esa salida se haya derivado de la obra con copyright en cuestión
      En cualquier caso, si la lógica es “no, no vino del libro sino del resumen con copyright de otra persona”, ¿no significaría eso que quien escribió ese resumen debería demandar por infracción de copyright? A menos que OpenAI diga “en realidad no era un resumen, era el libro completo”
    • Si pones a una persona en lugar del LLM, aparece un matiz interesante
      Hemos leído miles de obras; entonces, ¿eso significa que todo lo que escribimos es una obra derivada?
  • Una prueba más convincente habría sido lograr que ChatGPT escupiera texto literal del libro, no un resumen
    Cuando lo intenté directamente, respondió algo como que no podía acceder a bases de datos externas específicas ni a libros posteriores a su fecha límite de conocimiento de septiembre de 2021, y que no podía proporcionar citas literales de The Bedwetter de Sarah Silverman ni de otros textos específicos
    Aun así, dijo que podía generar texto basándose en su entrenamiento y conocimiento hasta ese momento, y que le preguntara sobre Sarah Silverman o temas relacionados

    • Puede que me haya perdido esta discusión: https://news.ycombinator.com/item?id=36400053
      Parece que OpenAI sabe que su software puede sacar material con copyright, así que le pusieron un filtro rápido
      Por eso, el hecho de que ahora no saque el libro cuando se lo pides no prueba que la IA no haya memorizado ese bloque grande. Puede simplemente haber un filtro de seguridad, y quizá solo haga falta una evasión sencilla
    • Hace tiempo intenté hacer que ChatGPT sacara el primer párrafo de El Señor de los Anillos, y se detuvo después de las primeras palabras
      Parece que los desarrolladores lo están filtrando
    • GPT es un JPEG con compresión con pérdida de todo internet. Por cómo funcionan las redes neuronales, sacar de ahí texto literal es imposible
      ¿Cómo crees que metes datos de texto a escala de exabytes en una red neuronal de tamaño de gigabytes? Exacto: con compresión con pérdida
  • ¿No es mucho más probable que lo hayan sintetizado por su cuenta a partir de que el conjunto de entrenamiento incluía muchas reseñas y resúmenes?

    • Hay rastros documentados de que se usaron repositorios ilegales de libros para el entrenamiento
    • En realidad, parece mucho más probable que simplemente hayan metido montones de PDF de libros en la carpeta de entrenamiento y lo hayan ejecutado tal cual
      Cuesta mucho creer que estas empresas de IA estén teniendo aunque sea un poco de cuidado con los datos que absorben para entrenar
    • ¿Y de dónde habrán salido esos resúmenes? Me parece mucho más probable que los hayan sacado de bibliotecas sombra. Claro, eso también parece casi imposible de demostrar
      Tal vez se podría probar hasta cierto punto pidiéndole resúmenes de libros o textos que solo se consiguen en bibliotecas sombra
    • Si había reseñas y resúmenes en el conjunto de entrenamiento, ¿no se parece más el LLM de OpenAI a un motor de búsqueda, en el sentido de que genera texto de entrada según el prompt?
  • También da un poco de risa que Getty Images haya demandado a Stability AI por IA. ¿Será karma?
    ¿Getty sí puede robarles a otros, pero otros no pueden robarle a Getty? No tengo ningún interés en esta pelea, pero la hipocresía de estas empresas es tremenda

    • ¿A quién le roba Getty?