- La comediante y escritora Sarah Silverman presentó demandas por separado contra OpenAI y Meta en un tribunal federal de EE. UU., junto con Christopher Golden y Richard Kadrey
- El punto en disputa es si ChatGPT y LLaMA fueron entrenados con datasets que incluían libros sin autorización de sus autores
- Los demandantes sostienen que libros obtenidos ilegalmente de shadow libraries como Bibliotik, Library Genesis y Z-Library fueron distribuidos masivamente por torrent
- En la demanda contra OpenAI, se presenta como indicio del uso de datos de entrenamiento el hecho de que ChatGPT resumió Bedwetter, Ararat y Sandman Slim
- La demanda contra Meta cuestiona la posible inclusión de los libros de los demandantes en los datasets usados para entrenar LLaMA, vinculando ThePile y EleutherAI con el origen de esos datos
Demandados y punto central del litigio
- Sarah Silverman, Christopher Golden y Richard Kadrey presentaron demandas por separado contra OpenAI y Meta en tribunales federales de EE. UU.
- El eje de ambos casos es si hubo infracción de derechos de autor
- Los demandantes afirman que ChatGPT de OpenAI y LLaMA de Meta fueron entrenados con datasets que incluían sus obras
- La cuestión clave es si esos datasets se obtuvieron sin el permiso de los autores
Polémica por el origen de los datos de entrenamiento
- Las demandas sostienen que los datasets usados para entrenar a ChatGPT y LLaMA fueron obtenidos de forma ilegal
- Los sitios de shadow library señalados por los demandantes son los siguientes
- Bibliotik
- Library Genesis
- Z-Library
- otros sitios similares
- También se cuestiona que esos libros se ofrecieran masivamente mediante el sistema torrent
Ejemplos presentados en la demanda contra OpenAI
- Los demandantes presentan como prueba casos en los que ChatGPT resumió sus libros a partir de prompts
- Los libros incluidos como evidencia son los siguientes
- Bedwetter de Sarah Silverman
- Ararat de Christopher Golden
- Sandman Slim de Richard Kadrey
- La demanda afirma que ChatGPT no reprodujo la información de gestión de derechos de autor incluida en las obras publicadas de los demandantes
Enfoque de la demanda contra Meta
- La demanda separada contra Meta sostiene que los libros de los demandantes pudieron estar accesibles en el dataset de entrenamiento de LLaMA
- LLaMA es presentado como una serie de 4 modelos de IA de código abierto publicada por Meta en febrero
- La querella cuestiona ThePile, una de las fuentes del dataset de entrenamiento mencionadas en el artículo técnico de LLaMA de Meta
- Se menciona que ThePile es un dataset compilado por EleutherAI
Reacciones de las partes
- Christopher Golden y Richard Kadrey se negaron a comentar sobre la demanda
- El equipo de Sarah Silverman no respondió hasta el momento de la publicación
1 comentarios
Comentarios de Hacker News
Esto equivale a decir explícitamente que los creadores de IA realmente usaron obras con copyright obtenidas de sitios pirata de libros
Si descargas aunque sea un solo libro de ese sitio, podrían demandarte y podrías perder por infracción; si descargaste todo, podrías quedar expuesto a indemnizaciones de decenas de miles de millones de dólares
Pero parece que empresas como Google o Facebook juegan con reglas distintas. Es parecido a la idea de que si matas a una persona eres un asesino, pero si matas a un millón, preguntar por eso se vuelve una “pregunta capciosa” y puedes responder con indignación
Eliminar el copyright de un día para otro quizá sería un cambio demasiado brusco, pero mientras más reduzcamos su impacto, mucho mejor será el mundo y más rápido avanzará
En 2023, más de la mitad de la población mundial tiene un smartphone. Vale la pena imaginar un mundo en el que esa mitad pueda acceder a todos los libros digitalizados y criar a sus hijos con esos libros
ImageNet está lleno de imágenes con copyright, Clearview literalmente raspó rostros de internet, y seguramente hay ejemplos aún más antiguos
No sé si alguna corte de EE. UU. ya determinó que eso es uso justo, pero si todavía no lo ha hecho, creo que tarde o temprano probablemente lo hará
Mientras no lo vuelvas a compartir, puedes descargar cuanto quieras de Z-Library o BitTorrent
Indexar material protegido por copyright para fines de búsqueda también parece relativamente seguro, o al menos es una zona gris
Puedes recibir avisos de infracción y, si te pasas mucho, tu proveedor de internet podría cortarte el servicio, pero nunca he oído de alguien a quien realmente hayan demandado solo por descargar algo
De verdad espero que los tribunales acepten los pesos de los LLM y los datasets como “uso justo” o bajo cualquier otra justificación legal ridícula
Aaron Swartz era un adulto de verdad
Es totalmente posible que el libro de Silverman estuviera en el dataset Books2, pero esta frase de la demanda parece claramente incorrecta
Primero, aunque el modelo no hubiera visto ni una sola palabra del texto del libro durante el entrenamiento, podría haber aprendido a resumirlo leyendo otros resúmenes públicos, por ejemplo una página de Wikipedia
Segundo, tampoco está claro que un modelo que solo hubiera visto el texto del libro, sin ver descripciones ni resúmenes sobre él, realmente fuera bueno resumiéndolo
Para comprobarlo, se podría elegir un libro que esté en Project Gutenberg y que, según la demanda, habría estado en los datos de entrenamiento de ChatGPT por estar en Books1, pero del que casi no haya discusión en línea. Si la capacidad de resumir viene de haber aprendido del propio libro, debería poder resumir libros raros tan bien como el de Silverman
Elegí al azar The Ruby of Kishmoor, un libro añadido a Project Gutenberg en 2003. ChatGPT basado en GPT-3.5 alucinó un resumen incorrecto incluso sobre los personajes principales, y GPT-4 ni siquiera lo intentó, diciendo que no conocía la historia
Si ChatGPT puede resumir el libro de Silverman porque ese libro mismo estaba en los datos de entrenamiento, entonces queda la duda de por qué no puede hacer lo mismo con otros libros
Prompt: por favor resume el siguiente libro que está en Project Gutenberg — The Ruby of Kishmoor
La respuesta dice que es una breve historia de aventuras de Howard Pyle en la que Jonathan Rugg es guiado por un misterioso desconocido al Caribe para intentar obtener un valioso artefacto, la Ruby of Kishmoor
Tras llegar al Caribe, descubre que el rubí tiene una grave maldición, pero por curiosidad y por la posibilidad de una gran fortuna, decide correr el riesgo y perseguir la joya
Después de varios desafíos, encuentra el rubí no por una búsqueda metódica sino por pura suerte
A lo largo del viaje, explora la codicia humana y hasta dónde llega la gente por ganancias materiales, mezclando aventura, elementos sobrenaturales, valentía y reflexión moral para hacer reconsiderar el verdadero valor de la búsqueda material
Al final, Jonathan logra escapar con el rubí, pero pagando un gran costo personal, dejando preguntas sobre el verdadero valor de la vida y de las aspiraciones materiales
Lo que se afirma es que hay motivos razonables para creer que es cierto, y ahora el litigio permitirá verificarlo directamente
Yo también vi otro comentario y le pedí a GPT-4 un resumen de The Ruby of Kishmoor; tras preguntar dos veces, sí me dio un resumen. No conozco el libro, así que no puedo juzgar si era correcto, pero al menos esa prueba ya no se sostiene
Suponer que ChatGPT seguramente respetó el copyright y no escaneó material protegido sin permiso parece bastante ingenuo. El descubrimiento de pruebas podría resolverlo. Deberían existir registros de qué fue lo que escaneó
Me parece que el mejor argumento es que esto constituye uso justo
Seguramente mucha más gente ha hablado de ella, y también habrán subido más resúmenes a sitios personales y a otros lugares
Si es plausible, puede pasar a descubrimiento de pruebas, y el descubrimiento de pruebas ayuda a acercarse a los hechos reales
Este caso es bastante interesante, porque distingue entre materiales de entrenamiento a los que cualquiera puede acceder con solo tener un navegador web, como blogs personales, y materiales de entrenamiento “obtenidos ilegalmente y distribuidos masivamente a través de un sistema torrent”
No me queda claro por qué esa distinción debería ser legalmente importante en relación con la distribución de LLM. Después de todo, los autores de blogs tampoco dieron su consentimiento
Aun así, sí me pregunto si hay un problema legal en usar torrents pirateados para entrenar. La distribución de un LLM entrenado con material con copyright podría permitirse como uso justo, pero ¿existe alguna base legal para decir que, para hacerlo de forma legítima, primero hay que comprar el contenido comercializado? Por ejemplo, que las entradas de blog están bien porque son de acceso gratuito, pero el libro de Sarah Silverman no, porque nunca se publicó gratis y además no se pagó por él
¿O acaso al tribunal no le importa en absoluto cómo se hizo algo? Si citas un pasaje de un libro en un artículo freelance, no te preguntan si compraste el libro, si puedes demostrar que lo sacaste de la biblioteca o te lo prestó un amigo, o si descargaste ilegalmente una copia digital
No importará si compraste el texto o si lo pirateaste. Sería parecido a que hoy, al mezclar una pista de audio en la banda sonora de una película, no lo central no es si compraste esa pista o la pirateaste
Las agencias de talento negociarán en bloque las tarifas por derechos de entrenamiento de creadores populares, y los creadores recibirán un pequeño flujo de ingresos que los proveedores de LLM pagarán como parte de sus cargos de API
Los derechos de entrenamiento de creadores independientes seguirán siendo vulnerados indiscriminadamente, como ahora, y los grandes LLM comerciales sospechosos o demostrablemente infractores quedarán en ridículo o enfrentarán demandas. Los LLM independientes probablemente seguirán por debajo del radar
Por lo tanto, si la obra original en la práctica no tiene mercado comercial, es más probable que el tribunal reconozca uso justo. Pero que algo no se venda activamente no basta por sí solo para resolverlo
Las licencias open source también se ofrecen gratis, pero sobrevivieron en tribunales de apelación
No está claro hasta qué punto esto cuenta como redistribución. También es ambiguo si hay una gran diferencia entre este modelo y una máquina tipo VCR que puede regenerar la obra original con solo presionar un botón
Si descargar material con copyright “pirateado” es ilegal, entonces ese sería el delito, y casi todo lo demás es irrelevante. Ver una película pirateada no hace ilegal contarle la trama a otra persona
Si una obra legalmente solo puede conseguirse mediante compra, entonces tendría que ser una copia que compraste legalmente tú mismo o que recibiste de alguien que sí la compró de forma legal. Por ejemplo, si te la regalaron
No sé si de verdad estamos leyendo la misma demanda
El paper de Meta https://arxiv.org/pdf/2302.13971.pdf dice que incluyó dos corpus de libros en el dataset de entrenamiento. Uno es Project Gutenberg, con libros de dominio público, y el otro es la sección Books3 de The Pile
El paper de The Pile https://arxiv.org/abs/2101.00027 describe Books3 como un dataset de libros derivado de una copia del contenido del tracker privado Bibliotik
El enlace de Shawn Presser es https://twitter.com/theshawwn/status/1320282149329784833, y él describe Books3 como “all of bibliotik”, es decir, 196,640 libros convertidos a
.txtplanoNo tengo tiempo ni espacio para descargar un archivo de 37 GB, pero si el libro de Silverman está ahí, me parece que este es un caso claramente ganado
LLaMA de Meta, según parece por lo que ellos mismos reconocen, fue entrenado con libros pirateados
El resultado de
$ grep -i "Sarah Silverman" books3.list.txtes325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txtTambién hay un enlace para quienes solo quieran ver la lista de archivos. La lista en sí también es un archivo grande: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
Si el entrenamiento inicial requirió hacer una copia del corpus definido por el tracker, entonces parece un caso casi evidente de infracción de copyright en ese proceso
Pero qué reparación puede obtener Silverman más allá del valor de compra del libro, quizá incluso daños triplicados, al final sigue dependiendo de la misma cuestión: la relación entre el entrenamiento del modelo y el copyright
A eso se suma la cuestión adicional de si el carácter ilegal del material previo al entrenamiento cambia esa evaluación
Parece que este problema va a ser más grande de lo que algunos creen
Podría surgir un mercado de datos de entrenamiento limpios sin posibles reclamaciones de copyright. Algo así como usar solo obras de dominio público
Entonces, ¿nos daríamos cuenta de que es IA porque habla como un autor de finales del siglo XVIII o principios del XIX?
Aun así, podrían surgir problemas con modelos dispuestos a reproducir textos completos con copyright, y también hay cuestiones nuevas, como modelos que alucinan contenido difamatorio
De todos modos, parece difícil volver a meter a este genio en la botella. Probablemente veremos muchas demandas, trabajo de alineación y nuevos tipos de abuso
Podría convertirse en una fuente de ingresos pasivos pequeña pero real para artistas, escritores y poetas a quienes no les moleste que su propiedad intelectual se use en conjuntos de entrenamiento
Negociar con cada creador individualmente es poco realista, pero sí parece posible con grupos más grandes como editoriales, galerías, gremios o sindicatos que puedan garantizar la calidad de sus miembros. Podrían ofrecer licencias y repartir los ingresos entre todos sus integrantes
Que los LLM absorban todos estos datos sin consentimiento ni contrato, incluso desde sitios de torrents, es claramente antiético. Este tipo de modelos podría beneficiar a todos
Después de que se resuelva, o dejará de ser un problema por completo, o se convertirá en una cuestión mucho más clara de costo-beneficio
Podría ser una mezcla de obras de dominio público y publicaciones del gobierno de Estados Unidos. Las publicaciones del gobierno de EE. UU. están categóricamente fuera de copyright
Japón ya se ha declarado como una de esas jurisdicciones
No soy abogado, pero esto no parece un buen ejemplo para probar infracción
Un resumen detallado de un libro suena como un caso típico de uso transformativo. Especialmente en el caso de Silverman, cuanto más se eliminen los elementos artísticos de la prosa y más se reduzca el libro a “hechos”, más difícil será que se convierta en un sustituto directo de la obra original
Que material obtenido ilegalmente se haya usado en un negocio comercial, y que ese negocio haya sido un modelo de IA, quizá sea algo secundario. No puedes usar material obtenido ilegalmente mientras haces negocio
Una persona puede leer, estudiar y luego producir otra obra
Pero “meterle datos a una máquina” parece claramente una infracción, aunque al otro lado no salga exactamente lo mismo
¿De cuánto serían esos daños? ¿Del precio de venta al público de la edición en tapa dura?
Dejando de lado si un LLM es o no una obra derivada de todo aquello con lo que fue entrenado, esta alegación parece muy débil
Incluso si la obra en sí nunca hubiera estado en el conjunto de entrenamiento, un LLM entrenado con varios resúmenes de esa obra podría generar por sí mismo un resumen así
En general, el hecho de tener conocimiento sobre algo no es prueba de que se haya entrenado con ello
Podrían preguntar a expertos en LLM y a OpenAI si es muy probable que esa salida se haya derivado de la obra con copyright en cuestión
En cualquier caso, si la lógica es “no, no vino del libro sino del resumen con copyright de otra persona”, ¿no significaría eso que quien escribió ese resumen debería demandar por infracción de copyright? A menos que OpenAI diga “en realidad no era un resumen, era el libro completo”
Hemos leído miles de obras; entonces, ¿eso significa que todo lo que escribimos es una obra derivada?
Una prueba más convincente habría sido lograr que ChatGPT escupiera texto literal del libro, no un resumen
Cuando lo intenté directamente, respondió algo como que no podía acceder a bases de datos externas específicas ni a libros posteriores a su fecha límite de conocimiento de septiembre de 2021, y que no podía proporcionar citas literales de The Bedwetter de Sarah Silverman ni de otros textos específicos
Aun así, dijo que podía generar texto basándose en su entrenamiento y conocimiento hasta ese momento, y que le preguntara sobre Sarah Silverman o temas relacionados
Parece que OpenAI sabe que su software puede sacar material con copyright, así que le pusieron un filtro rápido
Por eso, el hecho de que ahora no saque el libro cuando se lo pides no prueba que la IA no haya memorizado ese bloque grande. Puede simplemente haber un filtro de seguridad, y quizá solo haga falta una evasión sencilla
Parece que los desarrolladores lo están filtrando
¿Cómo crees que metes datos de texto a escala de exabytes en una red neuronal de tamaño de gigabytes? Exacto: con compresión con pérdida
¿No es mucho más probable que lo hayan sintetizado por su cuenta a partir de que el conjunto de entrenamiento incluía muchas reseñas y resúmenes?
Cuesta mucho creer que estas empresas de IA estén teniendo aunque sea un poco de cuidado con los datos que absorben para entrenar
Tal vez se podría probar hasta cierto punto pidiéndole resúmenes de libros o textos que solo se consiguen en bibliotecas sombra
También da un poco de risa que Getty Images haya demandado a Stability AI por IA. ¿Será karma?
¿Getty sí puede robarles a otros, pero otros no pueden robarle a Getty? No tengo ningún interés en esta pelea, pero la hipocresía de estas empresas es tremenda