Anthropic acepta pagar 1.500 millones de dólares para llegar a un acuerdo en la demanda con autores de libros

(nytimes.com)

4 puntos por laeyoung 2025-09-06 | 1 comentarios | Compartir por WhatsApp

Anthropic aceptó llegar a un acuerdo en la demanda con los autores por 1.500 millones de dólares
Los 1.500 millones de dólares representan la mayor indemnización en la historia de las demandas por copyright en Estados Unidos
Anthropic tiene previsto pagar 3.000 dólares por obra a 500.000 autores

1 comentarios

GN⁺ 2025-09-07

Opiniones de Hacker News

Ver artículo en archive.ph
Quiero dejar claro que aquí el punto en disputa no es el entrenamiento del modelo en sí
El entrenamiento como tal entra en uso justo (fair use), pero el problema fue la piratería de libros sin autorización, y eso ocurrió por un error de Anthropic durante el proceso de recopilar datos
Comprar libros usados, escanearlos y usarlos para entrenamiento estaría bien
Rainbows End es una novela que se adelantó a su tiempo en muchos sentidos
- Sobre la idea de que estaría bien comprar libros usados, escanearlos y entrenar con ellos, no creo que haya empresas que realmente hagan eso
  Cuando hay decenas de miles de millones de dólares de capital de riesgo en juego, cuesta imaginar que alguien se tome con calma el trabajo de comprar y escanear libros uno por uno
  Todos van a preferir asumir las multas, y el nivel de esas multas está muy lejos de tener un efecto disuasorio real
  Es como Uber al principio, cuando operó sin licencias de taxi y luego usó el dinero de los inversionistas para salir del problema entre multas y lobby
  Para Anthropic también fue mucho más rápido y eficiente meter a la fuerza PDFs y ePUB sin DRM que ir firmando licencias con cada editorial una por una
- Como esto fue un acuerdo, no establece precedente ni implica reconocimiento de ilegalidad
  Aquí no quedó resuelto ni que el entrenamiento sea uso justo ni que escanear esté permitido
  Ese punto tendrá que seguir disputándose en otros casos
- Coincido en que la novela Rainbows End anticipó muy bien su época
  Es un gran libro para cualquiera que disfrute leer, y su autor Vernor Vinge también popularizó el término singularity
  Información de Rainbows End en Goodreads
- Me parece extraña la idea misma de que haya que comprar libros usados para leerlos
  Creo que todo el mundo debería tener derecho a leer libremente todos los libros que están en una biblioteca
  El conocimiento existe en este mundo para ser compartido, y la gente debería poder acceder a él de manera activa
- Me pregunto qué habría pensado Aaron Swartz si hubiera visto esta época en la que libgen se volvió algo normal
Comparto un resumen de las condiciones del acuerdo

Se creará un fondo de compensación de al menos 1,500 millones de dólares, con pagos de 3,000 dólares por obra tomando como base 500,000 obras incluidas en esa categoría
Si el número de obras supera las 500,000, el monto aumenta en 3,000 dólares por cada obra adicional
Anthropic destruirá todos los datasets obtenidos de LibGen y PiLiMi, independientemente de cualquier obligación de preservación legal
Solo las obras incluidas en la “Works List” oficial hasta el 25 de agosto de 2025 quedarán liberadas de responsabilidad por infracciones pasadas
Las infracciones futuras y las infracciones derivadas de resultados de IA generativa no quedan resueltas por este acuerdo

Un punto importante es que no quedó absolutamente ningún “precedente legal”
Si surgen demandas parecidas, habrá que volver a pelear todo desde cero
Muchas veces se opta por este tipo de acuerdos solo cuando se percibe que se puede perder
Se parece al caso en que Google prefirió llegar rápido a un acuerdo desfavorable con Epic antes de recibir una sentencia judicial
El acuerdo no trata solo de compensación, también incluye la destrucción del dataset
Según el artículo, Anthropic sostiene que “en realidad no usó ese material ilegal”
Si alguna empresa de IA generativa hubiera entrenado y comercializado usando ese tipo de datos pirateados, podría poner en riesgo a toda la industria
Me pregunto cuántos casos más de ese tipo van a aparecer
Viéndolo así, me pregunto si no habría sido mucho más barato simplemente comprar todos los libros
Me sorprende que solo haya 500,000 obras
Porque daba la impresión de que habían descargado millones de libros
Me pregunto si los autores pueden participar directamente
Si son “3,000 dólares por obra”, hasta parece una condición bastante buena para licenciar libros por contrato de copyright
Da la impresión de que al final levantaron todo ese capital para dárselo a las editoriales
Hace imaginar un pitch a inversionistas del tipo: “vamos a prepararnos para grandes gastos, como costos de litigio”
- Según el artículo, Anthropic recaudó recientemente otros 13,000 millones de dólares, y desde su fundación ha recibido más de 27,000 millones en total
  Incluso una compensación gigantesca parece pequeña comparada con el capital que ya aseguró
- Suena a broma, pero en realidad me parece un excelente pitch para inversionistas
  Resolver los riesgos potenciales derivados de problemas legales aumenta el valor de la empresa
  Sobre todo porque al despejarse la incertidumbre legal, sube el atractivo de inversión dentro del sector
- En realidad creo que así es como funciona el sistema
  Cada oportunidad individual y cada ventaja terminan dependiendo de si benefician al capital ya existente
  Mientras haya una excusa razonable sobre cómo se movió el dinero, desde la perspectiva del capital los detalles dejan de importar
  Una vez que el dinero ya se movió, solo queda construir un relato que le parezca aceptable a todos
  Este acuerdo también funciona así: crea una narrativa con la que ambas partes pueden quedar satisfechas, la de “entrenar está bien, el problema era la piratería”
  Parece que la motivación principal era evitar que quedara un precedente que dijera que el entrenamiento de IA en sí es ilegal
- Anthropic quería una estrategia de moverse rápido y evitar la regulación
  Nadie la obligó a hacerlo así
Si eres autor, aquí explican materiales y procedimientos para verificar si tu trabajo fue incluido
Cómo buscar por nombre de autor en el dataset de LibGen
Registrar tus datos de contacto en el sitio oficial del acuerdo
Desde la perspectiva de la IA de código abierto, esto deja bastante mal sabor
El uso de material pirateado para entrenamiento también debería considerarse uso justo
De lo contrario, solo las grandes empresas con mucho dinero, como Anthropic, podrán pagar sumas enormes a las editoriales para desarrollar IA, y no habrá ninguna forma viable de comprar decenas de millones de libros para usarlos en entrenamiento
- Esto no es más que un acuerdo; no es precedente ni reconocimiento de ilegalidad
  También es cierto que al final solo las grandes empresas pueden darse el lujo de invertir directamente en ingenieros caros y decenas de miles de GPU
  En la práctica, no creo que las comunidades de base de LLM sean tan sensibles a la legalidad de los datasets de entrenamiento
- El uso justo no se evalúa por cómo obtuviste el material, sino por lo que haces después de haber accedido a él “de manera legal”
  Si no accediste legalmente, ya ni siquiera se puede discutir el uso justo
- Esta discusión parece partir de la premisa de que entrenar modelos fuera en sí mismo una especie de derecho
- Me pregunto cuánto costaría realmente comprar todos los libros que uno quisiera y entrenar un modelo con ellos
Algo que se me ocurre es si habría una forma de permitir que el contenido publicado en la web sea gratis solo para humanos, y que el uso por parte de crawlers de IA se considere piratería y se castigue como en este caso
- Sobre la primera pregunta, quizá podría hacerse con un muro de inicio de sesión y un proceso de aceptación contractual, aunque un abogado tendría que revisar las cláusulas concretas, como los montos de daños y perjuicios
- En realidad no recomendaría ese enfoque
  El problema es que incluso herramientas de automatización como scripts de usuario podrían quedar expuestas a alegaciones de infracción
- También podría pensarse en poner un sistema de captcha que pueda considerarse una medida de seguridad bajo la DMCA
  Otra opción sería ofrecer el mismo contenido mediante una API de pago
- Creo que ni legal ni técnicamente es posible
- Tal vez se pueda intentar, pero el copyright tiene muchas excepciones y todo esto es muy complejo
  Por ejemplo, aunque se pusiera una cláusula como “todo uso está permitido, excepto para el ámbito académico”, eso no significa que las universidades necesariamente estén obligadas a obedecerla
  Si un tribunal ya determinó que el entrenamiento de LLM es uso transformativo (transformative use), incluir una cláusula de “prohibido entrenar LLM” no da una forma especialmente más fuerte de hacerla cumplir
  Es parecido a cuando un músico declara “mi música solo puede escucharse completa y no puede samplearse”, pero en la práctica eso no cambia nada
  El propósito del copyright es “promover el progreso de la ciencia y las artes útiles”, y por eso suele darse más peso al acceso académico que al control individual del autor
  Los libros de texto también tienen copyright, y si de verdad existe una excepción de uso justo académico, podría pensarse que copiarlos libremente sería posible, pero en la práctica eso no se cumple de forma consistente, lo cual vuelve todo aún más confuso
Desde una perspectiva internacional, me pregunto qué efectos pueden tener las sanciones legales o estos acuerdos en cada país, y si en otros lugares todavía podrían surgir nuevas demandas y sanciones adicionales
Para la industria china de IA esto parece una gran ventaja
Las empresas occidentales cada vez tienen más restricciones para recopilar datos y entrenar, mientras que las IA de China u otros países quedan en posición de aprovechar muchos más datos y datos de mejor calidad

Anthropic acepta pagar 1.500 millones de dólares para llegar a un acuerdo en la demanda con autores de libros

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News