4 puntos por laeyoung 2025-09-06 | 1 comentarios | Compartir por WhatsApp
  • Anthropic aceptó llegar a un acuerdo en la demanda con los autores por 1.500 millones de dólares
  • Los 1.500 millones de dólares representan la mayor indemnización en la historia de las demandas por copyright en Estados Unidos
  • Anthropic tiene previsto pagar 3.000 dólares por obra a 500.000 autores

1 comentarios

 
GN⁺ 2025-09-07
Opiniones de Hacker News
  • Ver artículo en archive.ph

  • Quiero dejar claro que aquí el punto en disputa no es el entrenamiento del modelo en sí
    El entrenamiento como tal entra en uso justo (fair use), pero el problema fue la piratería de libros sin autorización, y eso ocurrió por un error de Anthropic durante el proceso de recopilar datos
    Comprar libros usados, escanearlos y usarlos para entrenamiento estaría bien
    Rainbows End es una novela que se adelantó a su tiempo en muchos sentidos

    • Sobre la idea de que estaría bien comprar libros usados, escanearlos y entrenar con ellos, no creo que haya empresas que realmente hagan eso
      Cuando hay decenas de miles de millones de dólares de capital de riesgo en juego, cuesta imaginar que alguien se tome con calma el trabajo de comprar y escanear libros uno por uno
      Todos van a preferir asumir las multas, y el nivel de esas multas está muy lejos de tener un efecto disuasorio real
      Es como Uber al principio, cuando operó sin licencias de taxi y luego usó el dinero de los inversionistas para salir del problema entre multas y lobby
      Para Anthropic también fue mucho más rápido y eficiente meter a la fuerza PDFs y ePUB sin DRM que ir firmando licencias con cada editorial una por una

    • Como esto fue un acuerdo, no establece precedente ni implica reconocimiento de ilegalidad
      Aquí no quedó resuelto ni que el entrenamiento sea uso justo ni que escanear esté permitido
      Ese punto tendrá que seguir disputándose en otros casos

    • Coincido en que la novela Rainbows End anticipó muy bien su época
      Es un gran libro para cualquiera que disfrute leer, y su autor Vernor Vinge también popularizó el término singularity
      Información de Rainbows End en Goodreads

    • Me parece extraña la idea misma de que haya que comprar libros usados para leerlos
      Creo que todo el mundo debería tener derecho a leer libremente todos los libros que están en una biblioteca
      El conocimiento existe en este mundo para ser compartido, y la gente debería poder acceder a él de manera activa

    • Me pregunto qué habría pensado Aaron Swartz si hubiera visto esta época en la que libgen se volvió algo normal

  • Comparto un resumen de las condiciones del acuerdo

  1. Se creará un fondo de compensación de al menos 1,500 millones de dólares, con pagos de 3,000 dólares por obra tomando como base 500,000 obras incluidas en esa categoría
    Si el número de obras supera las 500,000, el monto aumenta en 3,000 dólares por cada obra adicional
  2. Anthropic destruirá todos los datasets obtenidos de LibGen y PiLiMi, independientemente de cualquier obligación de preservación legal
  3. Solo las obras incluidas en la “Works List” oficial hasta el 25 de agosto de 2025 quedarán liberadas de responsabilidad por infracciones pasadas
    Las infracciones futuras y las infracciones derivadas de resultados de IA generativa no quedan resueltas por este acuerdo
  • Un punto importante es que no quedó absolutamente ningún “precedente legal”
    Si surgen demandas parecidas, habrá que volver a pelear todo desde cero
    Muchas veces se opta por este tipo de acuerdos solo cuando se percibe que se puede perder
    Se parece al caso en que Google prefirió llegar rápido a un acuerdo desfavorable con Epic antes de recibir una sentencia judicial

  • El acuerdo no trata solo de compensación, también incluye la destrucción del dataset
    Según el artículo, Anthropic sostiene que “en realidad no usó ese material ilegal”
    Si alguna empresa de IA generativa hubiera entrenado y comercializado usando ese tipo de datos pirateados, podría poner en riesgo a toda la industria
    Me pregunto cuántos casos más de ese tipo van a aparecer

  • Viéndolo así, me pregunto si no habría sido mucho más barato simplemente comprar todos los libros

  • Me sorprende que solo haya 500,000 obras
    Porque daba la impresión de que habían descargado millones de libros

  • Me pregunto si los autores pueden participar directamente

  • Si son “3,000 dólares por obra”, hasta parece una condición bastante buena para licenciar libros por contrato de copyright

  • Da la impresión de que al final levantaron todo ese capital para dárselo a las editoriales
    Hace imaginar un pitch a inversionistas del tipo: “vamos a prepararnos para grandes gastos, como costos de litigio”

    • Según el artículo, Anthropic recaudó recientemente otros 13,000 millones de dólares, y desde su fundación ha recibido más de 27,000 millones en total
      Incluso una compensación gigantesca parece pequeña comparada con el capital que ya aseguró

    • Suena a broma, pero en realidad me parece un excelente pitch para inversionistas
      Resolver los riesgos potenciales derivados de problemas legales aumenta el valor de la empresa
      Sobre todo porque al despejarse la incertidumbre legal, sube el atractivo de inversión dentro del sector

    • En realidad creo que así es como funciona el sistema
      Cada oportunidad individual y cada ventaja terminan dependiendo de si benefician al capital ya existente
      Mientras haya una excusa razonable sobre cómo se movió el dinero, desde la perspectiva del capital los detalles dejan de importar
      Una vez que el dinero ya se movió, solo queda construir un relato que le parezca aceptable a todos
      Este acuerdo también funciona así: crea una narrativa con la que ambas partes pueden quedar satisfechas, la de “entrenar está bien, el problema era la piratería”
      Parece que la motivación principal era evitar que quedara un precedente que dijera que el entrenamiento de IA en sí es ilegal

    • Anthropic quería una estrategia de moverse rápido y evitar la regulación
      Nadie la obligó a hacerlo así

  • Si eres autor, aquí explican materiales y procedimientos para verificar si tu trabajo fue incluido
    Cómo buscar por nombre de autor en el dataset de LibGen
    Registrar tus datos de contacto en el sitio oficial del acuerdo

  • Desde la perspectiva de la IA de código abierto, esto deja bastante mal sabor
    El uso de material pirateado para entrenamiento también debería considerarse uso justo
    De lo contrario, solo las grandes empresas con mucho dinero, como Anthropic, podrán pagar sumas enormes a las editoriales para desarrollar IA, y no habrá ninguna forma viable de comprar decenas de millones de libros para usarlos en entrenamiento

    • Esto no es más que un acuerdo; no es precedente ni reconocimiento de ilegalidad
      También es cierto que al final solo las grandes empresas pueden darse el lujo de invertir directamente en ingenieros caros y decenas de miles de GPU
      En la práctica, no creo que las comunidades de base de LLM sean tan sensibles a la legalidad de los datasets de entrenamiento

    • El uso justo no se evalúa por cómo obtuviste el material, sino por lo que haces después de haber accedido a él “de manera legal”
      Si no accediste legalmente, ya ni siquiera se puede discutir el uso justo

    • Esta discusión parece partir de la premisa de que entrenar modelos fuera en sí mismo una especie de derecho

    • Me pregunto cuánto costaría realmente comprar todos los libros que uno quisiera y entrenar un modelo con ellos

  • Algo que se me ocurre es si habría una forma de permitir que el contenido publicado en la web sea gratis solo para humanos, y que el uso por parte de crawlers de IA se considere piratería y se castigue como en este caso

    • Sobre la primera pregunta, quizá podría hacerse con un muro de inicio de sesión y un proceso de aceptación contractual, aunque un abogado tendría que revisar las cláusulas concretas, como los montos de daños y perjuicios

    • En realidad no recomendaría ese enfoque
      El problema es que incluso herramientas de automatización como scripts de usuario podrían quedar expuestas a alegaciones de infracción

    • También podría pensarse en poner un sistema de captcha que pueda considerarse una medida de seguridad bajo la DMCA
      Otra opción sería ofrecer el mismo contenido mediante una API de pago

    • Creo que ni legal ni técnicamente es posible

    • Tal vez se pueda intentar, pero el copyright tiene muchas excepciones y todo esto es muy complejo
      Por ejemplo, aunque se pusiera una cláusula como “todo uso está permitido, excepto para el ámbito académico”, eso no significa que las universidades necesariamente estén obligadas a obedecerla
      Si un tribunal ya determinó que el entrenamiento de LLM es uso transformativo (transformative use), incluir una cláusula de “prohibido entrenar LLM” no da una forma especialmente más fuerte de hacerla cumplir
      Es parecido a cuando un músico declara “mi música solo puede escucharse completa y no puede samplearse”, pero en la práctica eso no cambia nada
      El propósito del copyright es “promover el progreso de la ciencia y las artes útiles”, y por eso suele darse más peso al acceso académico que al control individual del autor
      Los libros de texto también tienen copyright, y si de verdad existe una excepción de uso justo académico, podría pensarse que copiarlos libremente sería posible, pero en la práctica eso no se cumple de forma consistente, lo cual vuelve todo aún más confuso

  • Desde una perspectiva internacional, me pregunto qué efectos pueden tener las sanciones legales o estos acuerdos en cada país, y si en otros lugares todavía podrían surgir nuevas demandas y sanciones adicionales

  • Para la industria china de IA esto parece una gran ventaja
    Las empresas occidentales cada vez tienen más restricciones para recopilar datos y entrenar, mientras que las IA de China u otros países quedan en posición de aprovechar muchos más datos y datos de mejor calidad