Anthropic cortó y escaneó millones de libros usados para entrenar a Claude y descargó 7 millones de copias piratas

(businessinsider.com)

6 puntos por GN⁺ 2025-07-08 | 1 comentarios | Compartir por WhatsApp

Un juez indicó que Anthropic cortó y escaneó cientos de miles de libros usados para entrenar a su chatbot de IA Claude
El fallo también menciona que, por separado, descargó más de 7 millones de libros pirateados
El juez determinó que digitalizar libros comprados y usarlos como datos de entrenamiento constituye uso justo
En cambio, subrayó que el uso de datos provenientes de copias piratas no califica como uso justo y sí constituye infracción de derechos de autor
Este fallo está siendo considerado un precedente importante sobre la aplicación del copyright al entrenamiento de modelos de IA

Resumen

El juez William Alsup, del Tribunal de Distrito del Norte de California en Estados Unidos, analizó que Anthropic utilizó como fuentes de datos libros, publicaciones en redes sociales, videos y otros materiales para entrenar al chatbot de IA Claude
Anthropic invirtió millones de dólares en comprar grandes cantidades de libros usados y luego separó la encuadernación y cortó las páginas para convertirlos en archivos digitales
Los archivos convertidos se almacenaron en una biblioteca de investigación interna, mientras que los libros originales fueron desechados
Además, Anthropic, respaldada por Amazon y Alphabet, descargó por separado más de 7 millones de libros pirateados y los utilizó para entrenar el modelo Claude

Cómo se usaron los libros y las copias piratas

El cofundador de Anthropic, Ben Mann, admitió haber descargado ilegalmente al menos 5 millones de libros desde Library Genesis en 2021
En 2022, descargó al menos 2 millones más desde Pirate Library Mirror
El cofundador y CEO Dario Amodei comentó que "prefería robar (steal) libros para evitar molestias legales, prácticas y comerciales"
En 2023, tres autores presentaron una demanda colectiva contra Anthropic por usar sin autorización copias pirateadas de sus libros

La decisión del juez: diferencia entre uso justo de libros y uso de ediciones piratas

Punto 1: se reconoce el uso justo
- El juez consideró que la digitalización masiva de libros por parte de Anthropic y su uso como datos de entrenamiento para IA fue "sumamente transformador (exceedingly transformative)"
- El fallo señala que "el LLM de Anthropic no aprende para simplemente replicar o sustituir documentos existentes, sino para crear algo completamente distinto"
- Digitalizar libros comprados por la propia empresa y conservarlos en su biblioteca sí entra en la categoría de uso justo
Punto 2: el uso de copias piratas no es uso justo
- El juez criticó con firmeza que Anthropic utilizara libros pirata como datos
- Especificó que "Anthropic no tenía derecho a usar libros pirateados en una biblioteca central, y la construcción de una biblioteca permanente y de uso general no justifica por sí sola el uso justo"

Impacto y tendencia del sector

Este fallo es uno de los primeros casos sobre si usar libros protegidos por copyright como datos de entrenamiento para modelos de IA puede entrar dentro del uso justo
Recientemente, creadores, artistas y medios también han presentado demandas similares contra OpenAI y varias empresas de IA generativa
La industria de la IA sostiene que entrenar modelos de IA entra dentro del uso justo, mientras que los creadores afirman que sus derechos han sido vulnerados
Recientemente, Disney demandó a la empresa de generación de imágenes por IA Midjourney por presunta infracción de copyright sobre sus personajes

Conclusión

La parte del caso relacionada con la digitalización de libros por parte de Anthropic y el uso justo está siendo vista como un punto de inflexión para la investigación en IA y la interpretación del copyright
En cambio, el uso de copias piratas fue definido claramente como infracción de derechos de autor, lo que lo convierte en una referencia importante para futuros criterios sobre el origen de datos de entrenamiento de IA

1 comentarios

GN⁺ 2025-07-08

Opiniones de Hacker News

Enlace al artículo original
Resumen del importante fallo del juez: determinó que el uso de libros con derechos de autor por parte de Anthropic para entrenar IA constituye uso justo porque es “altamente transformador”. Anthropic sostuvo que solo conservó digitalmente, en una biblioteca central, libros físicos que había comprado, sin crear nuevas copias ni redistribuirlas. “Piratear una biblioteca” es una infracción clara de copyright. Lo interesante es que reconoció que escanear y digitalizar una biblioteca para uso interno es posible, y también consideró uso justo su utilización para entrenamiento de IA.
- Por otro lado, también es importante lo que el juez señaló sobre otro punto en disputa. Trazó claramente la línea en que el uso por parte de Anthropic de libros pirateados como biblioteca central no era uso justo. Es decir, comprar directamente los libros, escanearlos físicamente y usarlos para entrenar IA sí sería uso justo, mientras que usar copias pirata no lo sería
- No creo que este fallo sea algo nuevo. Me parece que Google ya sentó el precedente hace más de 10 años de que está permitido convertir libros a formato digital
- Según entiendo, en el juicio relacionado con Meta, el juez Vince Chhabria llegó a poner en duda el argumento de uso justo enlace relacionado (no soy abogado)
- Me pregunto si aquí también aplica el principio de “fruit of the poisonous tree”
- Si uno piensa que antes intentaron darle cadena perpetua a Aaron Swartz por casi lo mismo, sí se siente que los tiempos han cambiado muchísimo
Casos reales de castigo a individuos involucrados en infracción masiva de copyright artículo de referencia
- Más bien esperaba que mencionaran el caso de Aaron Swartz
- Al abrir ese artículo, en realidad era la historia de un negocio que básicamente “vendía” software pirateado por millones de dólares. No era alguien usándolo por su cuenta, sino un caso claro de robo para revenderlo y sacar ganancia. Es un caso totalmente distinto al uso transformador o al uso personal
- Anthropic no está vendiendo ese material. Tampoco creo que metan a la cárcel a una persona por leer un libro, resumirlo o citar partes. Aun así, si resistirse a Autodesk te da una condena de 7 años, eso muestra bastante bien la realidad del sistema legal, donde hasta parece peor que el robo con violencia
- Creo que el simple caso de copiar y vender software pirateado y el caso de Anthropic usando libros son muy distintos. Anthropic nunca creó ni distribuyó una “copia” de ningún libro
- El chiste es que, si vas a romper la ley, primero formes una empresa para desviar la responsabilidad. Una sátira de la realidad en la que, con suficiente capital, hasta violar la ley se puede cubrir
También hay indicios de que empresas como Spotify hicieron crecer su negocio inicialmente sobre material ilegal. Desde hace tiempo circulaban rumores de que en las pruebas beta se usaban archivos mp3 “pirata”. Hay testimonios de gente que descargó canciones con etiquetas de la “Scene” artículo relacionado
- Crunchyroll también empezó como un sitio de streaming de anime pirata, pero se legalizó al conseguir licencias oficiales. Empezó en 2006, recibió inversión VC en 2008 y firmó licencias en 2009 artículo de Forbes, artículo de Venturebeat
- En realidad, no solo Spotify: la mayoría de los gigantes tecnológicos han ganado dinero moviéndose en zonas grises legales o ignorando regulaciones, es decir, “disrumpiendo” el mercado. Porque las ganancias ilícitas son mucho mayores que las sanciones legales. También creo que, desde Amazon, se volvió más común usar capital de inversión para ignorar la “competencia justa” y hacer dumping de precios. En ese sentido, las big tech de EE. UU. crecieron casi desactivando la ley
- “Audio no obtenido oficialmente” y “audio sin copyright” son conceptos distintos. Puede haber casos en que se aseguren licencias de streaming, pero no exista el archivo original
- También se menciona que la UI inicial de Spotify era prácticamente un calco 1:1 de Limewire
- Google Music también tuvo un sistema donde los usuarios subían directamente mp3 y otros archivos; en ese entonces se sostenía que la ilegalidad del archivo no era responsabilidad de Google. Amazon tuvo una experiencia de servicio parecida texto de referencia
Me cuesta entender que quienes dicen estar construyendo el futuro de la IA abandonen así la ética. Si China recibió sanciones durante décadas por el problema de las falsificaciones, también me parecería justificado restringir exportaciones si Anthropic estuvo involucrada en actividades ilegales
- Me pregunto qué hicimos realmente frente al problema de los productos falsificados de China. La mayoría de las sanciones se limitaron a bloquear importaciones de mercancía falsa detectada localmente; no hubo castigos reales. Más bien, durante mucho tiempo fueron empresas estadounidenses las que tercerizaron producción y ayudaron a crear un entorno de robo de PI
- Los verdaderamente poco éticos son las empresas que ni siquiera compran los libros. La realidad es que, si tienes poder económico y legal, es más fácil salirte con la tuya
- Señala el doble rasero y la impunidad del poder que permean la sociedad. Pone ejemplos como conducir ebrio, violencia y evasión fiscal para destacar que todo el sistema se inclina según poder, riqueza e influencia. Si una editorial copia mi libro, puedo demandarla; si una empresa de IA me lo roba, ni siquiera puedo demandarla fácilmente porque tendría enfrente a un gran bufete. La igualdad en el mundo real es una ilusión, y a los que ya van ganando siempre les toca la posición favorable
- Como en el eslogan de Facebook, esta es una época donde “muévete rápido y rompe cosas” se considera una virtud
- No entiendo por qué usar la información contenida en un libro sería antiético. Anthropic no revendió ese libro. La información en sí misma no está protegida por copyright. Citar siempre ha sido posible
Se alega que el cofundador de Anthropic, Ben Mann, descargó millones de libros pirata de Library Genesis en 2021. Robar es robar. Hay que dejar el doble rasero
- La mayoría de los piratas solo buscan “consumo personal”, pero lucrar a partir de material pirata está en otro nivel
- No es solo robo simple: hurtar de manera dirigida para buscar dominio del mercado y desplazar a empresas que actuaron éticamente causa un daño mucho mayor a muchísimos autores. Creo que esto se parece más al “crimen organizado”
- Decir “robar es robar” es demasiado simplista. Aunque alguien salga con un producto, el castigo puede variar enormemente según el contexto. Los detalles importan
- Primero habría que definir con precisión qué significa “robo”
- “Copiar no es lo mismo que robar”: si haces una copia, la otra persona sigue conservando su ejemplar. Si llamas “robo” a copiar, entonces también se podrían sostener otras afirmaciones igual de extremas
En la realidad del entrenamiento masivo de datos para IA, la piratería y las multas salen muchísimo más baratas que comprar y procesar individualmente millones de libros. Claro que eso no se puede justificar, pero si yo estuviera en esa posición, quizá tomaría la misma decisión por pura eficiencia, y ahí está la contradicción
- El problema de esa lógica es que, aunque durante años innumerables profesores y autores sufran infracciones de copyright por parte de grandes empresas, ni siquiera podrán demandar. Como resultado, los autores terminarán dejando de escribir, y se dice que eso ya está ocurriendo
- La infracción intencional puede implicar multas de hasta 150 mil dólares por obra. Si hubiera fallo sobre todo el material infringido, el monto podría superar incluso la valuación de Anthropic. En la práctica, este tipo de juicio “extralegal” no se aplica, y el rasero legal no es el mismo que se usó contra adolescentes que operaban Napster a principios de los 2000
- “¿La piratería no debería llevar a prisión?” Vista la advertencia del FBI en los DVD, en principio sería un delito grave
- De hecho, según el artículo, también hay muchos casos en los que Anthropic compró formalmente grandes cantidades de libros y luego los usó para entrenamiento. Todos los libros del litigio incluyen ejemplares comprados legalmente. Los libros usados son baratos para compras masivas
- Si de verdad se quiere ir por riesgo legal “cero”, lo correcto sería contactar directamente a las editoriales y negociar licencias para entrenamiento de IA. Es lo que hacen Netflix, Spotify y todas las empresas de medios. Me pregunto por qué a las empresas de IA se les aplica ese principio con otra vara
Si yo soy dueño de un libro, creo que debería ser legal escanearlo en mi computadora. También me da un poco de lástima la posición de las empresas de IA. Se siente que las normas de copyright se están endureciendo cada vez más específicamente contra la IA. Si yo saco ideas del contenido de un libro y luego creo algo, no creo que le deba nada al copyright de ese libro
- Hay que leer bien el artículo. El texto mismo dice claramente que puedes escanear tu propio libro y usarlo para entrenamiento de IA. Más bien, este fallo es una gran noticia para las empresas de IA. No entiendo interpretarlo al revés
- Lo que suele pasarse por alto en la discusión sobre uso justo es si ese uso causa un perjuicio real al mercado del titular de derechos. Es difícil demostrar el impacto si una persona aprende de un libro y luego compite con el autor. Pero la reducción de ingresos de los autores causada por un modelo de IA entrenado masivamente y lanzado al mercado puede probarse con bastante más claridad. Si la IA puede reemplazar a autores usando sus obras, eso no encaja con el espíritu del uso justo
- La ley de copyright da la impresión de no tener una estructura lógicamente coherente. Su propósito original de libertad de información e incentivo a la innovación también es ambiguo. La interpretación legal depende de la subjetividad del juez. Al final, la lógica real del derecho es el “dinero”, y el poder del copyright se mantiene porque así lo sostiene el gran capital. Si ahora ese mismo capital empieza a verlo como un obstáculo, nos tocará ver cómo cambian los argumentos sobre DRM y copyright
- Cuando la escala crece, todo funciona distinto. No se pueden aplicar tal cual los derechos y normas de una persona individual a megasistemas, y socialmente hace falta distinguir eso. Los que tienen dinero hicieron que este problema pudiera ignorarse, y la causa de fondo de esta confusión es la falta de regulación sobre la “escala”
- Resumen: el juez dijo que usar libros para entrenar a Claude fue uso justo, pero usar material “pirata” es ilegal
También creo que el reciente refuerzo de YouTube para bloquear descargas podría ser para impedir que empresas rivales de IA recopilen datasets
Es fácil criticar a otros, pero al final el comentario más votado de este hilo también enlaza contenido “robado” de Business Insider. La realidad es que nadie es totalmente justo
- Me pregunto cómo sería contenido “robado” de Business Insider. El mismo artículo se puede ver en el sitio oficial, y el caché del navegador o los archivos archivados no son esencialmente distintos
- Este es el mejor comentario del hilo de hoy. Me parece interesante ver las piruetas lógicas que están haciendo aquí

Anthropic cortó y escaneó millones de libros usados para entrenar a Claude y descargó 7 millones de copias piratas

Resumen

Cómo se usaron los libros y las copias piratas

La decisión del juez: diferencia entre uso justo de libros y uso de ediciones piratas

Impacto y tendencia del sector

Conclusión

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News