Anthropic acepta pagar 1.500 millones de dólares para llegar a un acuerdo en la demanda con autores de libros
(nytimes.com)- Anthropic aceptó llegar a un acuerdo en la demanda con los autores por 1.500 millones de dólares
- Los 1.500 millones de dólares representan la mayor indemnización en la historia de las demandas por copyright en Estados Unidos
- Anthropic tiene previsto pagar 3.000 dólares por obra a 500.000 autores
1 comentarios
Opiniones de Hacker News
Ver artículo en archive.ph
Quiero dejar claro que aquí el punto en disputa no es el entrenamiento del modelo en sí
El entrenamiento como tal entra en uso justo (
fair use), pero el problema fue la piratería de libros sin autorización, y eso ocurrió por un error de Anthropic durante el proceso de recopilar datosComprar libros usados, escanearlos y usarlos para entrenamiento estaría bien
Rainbows End es una novela que se adelantó a su tiempo en muchos sentidos
Sobre la idea de que estaría bien comprar libros usados, escanearlos y entrenar con ellos, no creo que haya empresas que realmente hagan eso
Cuando hay decenas de miles de millones de dólares de capital de riesgo en juego, cuesta imaginar que alguien se tome con calma el trabajo de comprar y escanear libros uno por uno
Todos van a preferir asumir las multas, y el nivel de esas multas está muy lejos de tener un efecto disuasorio real
Es como Uber al principio, cuando operó sin licencias de taxi y luego usó el dinero de los inversionistas para salir del problema entre multas y lobby
Para Anthropic también fue mucho más rápido y eficiente meter a la fuerza PDFs y ePUB sin DRM que ir firmando licencias con cada editorial una por una
Como esto fue un acuerdo, no establece precedente ni implica reconocimiento de ilegalidad
Aquí no quedó resuelto ni que el entrenamiento sea uso justo ni que escanear esté permitido
Ese punto tendrá que seguir disputándose en otros casos
Coincido en que la novela Rainbows End anticipó muy bien su época
Es un gran libro para cualquiera que disfrute leer, y su autor Vernor Vinge también popularizó el término
singularityInformación de Rainbows End en Goodreads
Me parece extraña la idea misma de que haya que comprar libros usados para leerlos
Creo que todo el mundo debería tener derecho a leer libremente todos los libros que están en una biblioteca
El conocimiento existe en este mundo para ser compartido, y la gente debería poder acceder a él de manera activa
Me pregunto qué habría pensado Aaron Swartz si hubiera visto esta época en la que libgen se volvió algo normal
Comparto un resumen de las condiciones del acuerdo
Si el número de obras supera las 500,000, el monto aumenta en 3,000 dólares por cada obra adicional
Las infracciones futuras y las infracciones derivadas de resultados de IA generativa no quedan resueltas por este acuerdo
Un punto importante es que no quedó absolutamente ningún “precedente legal”
Si surgen demandas parecidas, habrá que volver a pelear todo desde cero
Muchas veces se opta por este tipo de acuerdos solo cuando se percibe que se puede perder
Se parece al caso en que Google prefirió llegar rápido a un acuerdo desfavorable con Epic antes de recibir una sentencia judicial
El acuerdo no trata solo de compensación, también incluye la destrucción del dataset
Según el artículo, Anthropic sostiene que “en realidad no usó ese material ilegal”
Si alguna empresa de IA generativa hubiera entrenado y comercializado usando ese tipo de datos pirateados, podría poner en riesgo a toda la industria
Me pregunto cuántos casos más de ese tipo van a aparecer
Viéndolo así, me pregunto si no habría sido mucho más barato simplemente comprar todos los libros
Me sorprende que solo haya 500,000 obras
Porque daba la impresión de que habían descargado millones de libros
Me pregunto si los autores pueden participar directamente
Si son “3,000 dólares por obra”, hasta parece una condición bastante buena para licenciar libros por contrato de copyright
Da la impresión de que al final levantaron todo ese capital para dárselo a las editoriales
Hace imaginar un pitch a inversionistas del tipo: “vamos a prepararnos para grandes gastos, como costos de litigio”
Según el artículo, Anthropic recaudó recientemente otros 13,000 millones de dólares, y desde su fundación ha recibido más de 27,000 millones en total
Incluso una compensación gigantesca parece pequeña comparada con el capital que ya aseguró
Suena a broma, pero en realidad me parece un excelente pitch para inversionistas
Resolver los riesgos potenciales derivados de problemas legales aumenta el valor de la empresa
Sobre todo porque al despejarse la incertidumbre legal, sube el atractivo de inversión dentro del sector
En realidad creo que así es como funciona el sistema
Cada oportunidad individual y cada ventaja terminan dependiendo de si benefician al capital ya existente
Mientras haya una excusa razonable sobre cómo se movió el dinero, desde la perspectiva del capital los detalles dejan de importar
Una vez que el dinero ya se movió, solo queda construir un relato que le parezca aceptable a todos
Este acuerdo también funciona así: crea una narrativa con la que ambas partes pueden quedar satisfechas, la de “entrenar está bien, el problema era la piratería”
Parece que la motivación principal era evitar que quedara un precedente que dijera que el entrenamiento de IA en sí es ilegal
Anthropic quería una estrategia de moverse rápido y evitar la regulación
Nadie la obligó a hacerlo así
Si eres autor, aquí explican materiales y procedimientos para verificar si tu trabajo fue incluido
Cómo buscar por nombre de autor en el dataset de LibGen
Registrar tus datos de contacto en el sitio oficial del acuerdo
Desde la perspectiva de la IA de código abierto, esto deja bastante mal sabor
El uso de material pirateado para entrenamiento también debería considerarse uso justo
De lo contrario, solo las grandes empresas con mucho dinero, como Anthropic, podrán pagar sumas enormes a las editoriales para desarrollar IA, y no habrá ninguna forma viable de comprar decenas de millones de libros para usarlos en entrenamiento
Esto no es más que un acuerdo; no es precedente ni reconocimiento de ilegalidad
También es cierto que al final solo las grandes empresas pueden darse el lujo de invertir directamente en ingenieros caros y decenas de miles de GPU
En la práctica, no creo que las comunidades de base de LLM sean tan sensibles a la legalidad de los datasets de entrenamiento
El uso justo no se evalúa por cómo obtuviste el material, sino por lo que haces después de haber accedido a él “de manera legal”
Si no accediste legalmente, ya ni siquiera se puede discutir el uso justo
Esta discusión parece partir de la premisa de que entrenar modelos fuera en sí mismo una especie de derecho
Me pregunto cuánto costaría realmente comprar todos los libros que uno quisiera y entrenar un modelo con ellos
Algo que se me ocurre es si habría una forma de permitir que el contenido publicado en la web sea gratis solo para humanos, y que el uso por parte de crawlers de IA se considere piratería y se castigue como en este caso
Sobre la primera pregunta, quizá podría hacerse con un muro de inicio de sesión y un proceso de aceptación contractual, aunque un abogado tendría que revisar las cláusulas concretas, como los montos de daños y perjuicios
En realidad no recomendaría ese enfoque
El problema es que incluso herramientas de automatización como scripts de usuario podrían quedar expuestas a alegaciones de infracción
También podría pensarse en poner un sistema de captcha que pueda considerarse una medida de seguridad bajo la DMCA
Otra opción sería ofrecer el mismo contenido mediante una API de pago
Creo que ni legal ni técnicamente es posible
Tal vez se pueda intentar, pero el copyright tiene muchas excepciones y todo esto es muy complejo
Por ejemplo, aunque se pusiera una cláusula como “todo uso está permitido, excepto para el ámbito académico”, eso no significa que las universidades necesariamente estén obligadas a obedecerla
Si un tribunal ya determinó que el entrenamiento de LLM es uso transformativo (
transformative use), incluir una cláusula de “prohibido entrenar LLM” no da una forma especialmente más fuerte de hacerla cumplirEs parecido a cuando un músico declara “mi música solo puede escucharse completa y no puede samplearse”, pero en la práctica eso no cambia nada
El propósito del copyright es “promover el progreso de la ciencia y las artes útiles”, y por eso suele darse más peso al acceso académico que al control individual del autor
Los libros de texto también tienen copyright, y si de verdad existe una excepción de uso justo académico, podría pensarse que copiarlos libremente sería posible, pero en la práctica eso no se cumple de forma consistente, lo cual vuelve todo aún más confuso
Desde una perspectiva internacional, me pregunto qué efectos pueden tener las sanciones legales o estos acuerdos en cada país, y si en otros lugares todavía podrían surgir nuevas demandas y sanciones adicionales
Para la industria china de IA esto parece una gran ventaja
Las empresas occidentales cada vez tienen más restricciones para recopilar datos y entrenar, mientras que las IA de China u otros países quedan en posición de aprovechar muchos más datos y datos de mejor calidad