1 puntos por GN⁺ 2 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Meta y su CEO Mark Zuckerberg fueron demandados por 5 editoriales y Scott Turow por presuntamente copiar ilegalmente millones de libros, artículos académicos y artículos periodísticos para entrenar sistemas de IA
  • Meta está acusada de descargar por torrent millones de materiales protegidos por derechos de autor desde sitios pirata notorios y de copiar repetidamente datos obtenidos mediante web scraping no autorizado para usarlos en el entrenamiento de Llama
  • La demanda fue presentada el 5 de mayo de 2026 en el Tribunal de Distrito de Estados Unidos para el Distrito Sur de Nueva York, y Hachette, Macmillan, McGraw Hill, Elsevier, Cengage y Scott Turow reclaman una indemnización monetaria no especificada
  • Meta dijo que existieron fallos judiciales que sostienen que usar material con derechos de autor para entrenar IA podría constituir uso legítimo, y afirmó que se defenderá enérgicamente; en junio de 2025 también se desestimaron reclamaciones de autores relacionadas con el entrenamiento de Llama
  • Esta demanda se diferencia porque sostiene que Meta revisó una estrategia de licenciamiento pero la detuvo por instrucción personal de Zuckerberg, y que aprobó descargar más de 267 TB de materiales pirata aun conociendo los riesgos de usar LibGen

Puntos clave de la demanda

  • Meta y su CEO Mark Zuckerberg fueron demandados por 5 editoriales y el escritor Scott Turow por presuntamente copiar ilegalmente millones de libros, artículos académicos y artículos periodísticos para entrenar sistemas de IA
  • Meta y Zuckerberg son acusados de haber seguido el conocido lema de Meta, “move fast and break things”, para crear modelos de IA generativa, descargando por torrent millones de libros y artículos de revistas académicas con derechos de autor desde sitios pirata notorios
  • Meta también está acusada de descargar materiales obtenidos mediante web scraping no autorizado equivalentes a casi todo internet, copiarlos varias veces y usarlos para entrenar Llama, el sistema de IA generativa multimillonario de Meta
  • Estos actos son descritos como “una de las mayores infracciones de materiales protegidos por derechos de autor en la historia”

Demandantes y reclamos

  • La demanda fue presentada el martes 5 de mayo de 2026 en el Tribunal de Distrito de Estados Unidos para el Distrito Sur de Nueva York
  • Los demandantes son las 5 editoriales Hachette, Macmillan, McGraw Hill, Elsevier y Cengage, además de Scott Turow a título personal
  • La demanda colectiva propuesta reclama una indemnización monetaria no especificada por presunta infracción de derechos de autor
  • Una copia de la demanda está disponible en este enlace

Respuesta de Meta y precedentes previos

  • Un portavoz de Meta afirmó: “La IA está haciendo posible la innovación, la productividad y la creatividad para personas y empresas, y los tribunales han determinado correctamente que el uso de material protegido por derechos de autor para entrenar IA puede constituir uso legítimo”
  • Meta sostiene que enfrentará esta demanda de manera enérgica
  • Existen casos en los que autores demandaron a empresas de IA por infracción de derechos de autor y perdieron
  • En junio de 2025, un juez federal desestimó las reclamaciones presentadas por 13 autores, incluidos Sarah Silverman y Junot Díaz, quienes alegaban que el entrenamiento de los modelos de IA de Meta infringía sus derechos de autor
  • En ese momento, el juez Vincent Chhabria dictaminó que el uso por parte de Meta de un conjunto de datos de alrededor de 200 mil libros para entrenar el modelo de lenguaje Llama constituía uso legítimo

Qué diferencia a esta demanda

  • Esta demanda pone énfasis en que Meta y Zuckerberg habrían eludido deliberadamente las protecciones de derechos de autor
  • Se acusa a Meta de haber evaluado la posibilidad de licenciar obras, pero de abandonar esa estrategia por “instrucción personal de Zuckerberg”
  • La demanda sostiene que la conducta en cuestión queda fuera del alcance de protección de la doctrina de uso legítimo bajo la ley de derechos de autor de Estados Unidos
  • La querella afirma que, siguiendo instrucciones de Zuckerberg, Meta copió sin autorización millones de libros, artículos de revistas académicas y otras obras, incluidas obras propiedad o bajo control de los demandantes y de los miembros de la clase, y creó copias adicionales para entrenar Llama
  • Se acusa a Zuckerberg de haber “aprobado personalmente y fomentado activamente” la infracción
  • Meta también es acusada de eliminar información de gestión de derechos de autor de las obras robadas para ocultar el origen del material de entrenamiento y facilitar su uso no autorizado

Revisión y abandono del licenciamiento

  • Según la demanda, Meta consideró brevemente firmar acuerdos de licencia con grandes editoriales después del lanzamiento de Llama 1
  • Entre enero y abril de 2023, Meta discutió aumentar el presupuesto de la empresa para licencias de datasets hasta 200 millones de dólares
  • A inicios de abril de 2023, Meta habría detenido repentinamente su estrategia de licenciamiento
  • La demanda afirma que la decisión sobre si seguir licenciando materiales protegidos por derechos de autor o usar materiales pirata fue “escalada” a Zuckerberg
  • Después de esa escalada, el equipo de desarrollo de negocios de Meta habría recibido instrucciones verbales para detener sus esfuerzos de licenciamiento, según los demandantes
  • La demanda incluye que un empleado de Meta explicó el motivo diciendo, en esencia, que si licenciaban aunque fuera un solo libro, sería más difícil apoyarse en una estrategia de uso legítimo

La experiencia previa de Meta con licencias

  • Se argumenta que Meta y Zuckerberg conocían bien el mercado de licencias de materiales para entrenamiento de IA
  • Según la demanda, en 2022 Meta firmó 4 acuerdos de licencia con editoriales de libros en lenguas africanas para un conjunto limitado de entrenamiento
  • Más adelante, Meta también firmó acuerdos de licencia con importantes editores de noticias, incluidos Fox News, CNN y USA Today

Uso de LibGen y revisión interna de riesgos

  • Según la demanda, el 13 de diciembre de 2023 empleados de Meta circularon un memorando interno sobre los riesgos legales de usar LibGen
  • Ese memorando de Meta describía a LibGen como “un dataset que sabemos que es pirateado”
  • La demanda también afirma que el mismo memorando decía que “no revelaremos el uso del dataset LibGen utilizado para el entrenamiento”
  • Se plantea que estas preocupaciones finalmente no fueron atendidas
  • Según la demanda, Zuckerberg y otros ejecutivos de Meta aprobaron y ordenaron descargas por torrent de más de 267 TB de materiales pirata
  • Se afirma que ese volumen equivale a cientos de millones de publicaciones y a varias veces el tamaño de toda la colección impresa de la Biblioteca del Congreso de Estados Unidos

Alegatos sobre las salidas de Llama

  • Como resultado de la presunta infracción, se acusa al sistema de IA de Meta de generar rápida y masivamente resultados que pueden sustituir las obras de los demandantes y de los miembros de la clase utilizadas en el entrenamiento
  • Según la demanda, esos sustitutos incluyen copias casi idénticas a los textos originales, capítulos sustitutos de libros de texto académicos y resúmenes y versiones alternativas de novelas famosas y artículos de revistas académicas
  • También se acusa a Llama de generar imitaciones de baja calidad que reproducen elementos creativos de las obras originales, así como obras derivadas que solo los titulares de derechos tienen autorización exclusiva para permitir
  • Según la demanda, Llama también personaliza salidas para imitar los elementos expresivos y las decisiones creativas de autores específicos

1 comentarios

 
GN⁺ 2 시간 전
Comentarios en Hacker News
  • Parece que habría mucha gente feliz si por esto Zuckerberg terminara pagando aunque sea los daños mínimos legales de 750 dólares por cada infracción
    En el caso previo de infracción de Anthropic, se consideró que el entrenamiento de IA en sí es un uso transformativo y no una infracción por sí mismo, pero que copiar ilegalmente obras con ese fin sí es claramente una infracción
    El acuerdo fue de 1,500 millones de dólares, y salía a casi 3,000 dólares por cada una de las 500 mil copias ilegales, así que si Zuckerberg pirateó “millones” de obras, un acuerdo de 6 mil millones de dólares suena bastante plausible

    • Me frustra pensar en los chicos[1] que antes recibieron cargos penales por operar sitios de MP3
      Mientras tanto, este tipo parece que va a salirse con la suya después de robar y usar prácticamente todos los medios existentes, solo porque es demasiado rico como para ser procesado
      [1] Ej.: https://en.wikipedia.org/wiki/Oink%27s_Pink_Palace#Legal_pro...
    • Mientras DJT sea presidente, no creo que le pase nada a Zuckerberg ni a Meta
      Básicamente compró la mejor protección posible para poder violar la ley
    • Esto no me impresiona en absoluto. No entiendo cómo después de hacer algo así todavía puede seguir siendo un monopolista/hegemón de IA
      Es básicamente adquirirlo todo por la fuerza sin siquiera preguntar, y luego negociar el precio después. ¿Dónde quedaron los cargos penales, o si no la cárcel, al menos la confiscación de sus participaciones?
    • Nunca pensé que terminaría apoyando a los abogados de propiedad intelectual
    • En contexto, el patrimonio neto de Zuckerberg es de aproximadamente 220 mil millones de dólares
  • Antes demandaban de todas las formas posibles a estudiantes que solo descargaban MP3 y ni siquiera los redistribuían
    Como no había transformación alguna que pudiera considerarse uso justo y solo era descarga de archivos, la lección que se aprendió fue que esos estudiantes más bien debieron haber robado millones de obras

    • Eso pudo haber sido una campaña de manipulación de la opinión pública
      Si hasta el usuario final puede ser procesado, el discurso cambia de positivo a negativo y a quienes tienen poder les resulta más fácil desalentar ese comportamiento
    • El verdadero criterio diferenciador es si eres asquerosamente rico o no
  • Hace unas semanas tuve que bloquear el ASN de Meta en mi servidor personal de cgit. Estaban ignorando el robots.txt y saturando el servidor
    Parecía clarísimo que se distribuían entre distintos bloques de red para evitar límites basados en IP, y solo por ellos se acumularon cientos de MB de logs de acceso. Increíble

    • El año pasado me pasó lo mismo. Estaban rastreando sin parar URLs aleatorias que ni existían
      Parecía que intentaban hacer proxy de consultas de usuarios a un endpoint de búsqueda, y el ASN coincidía, así que no era alguien haciéndose pasar por Meta
    • Creo que el bloqueo por ASN debería ser mucho más común. Lástima que muchas herramientas comunes no lo soporten como opción de configuración de primer nivel
    • Me da curiosidad cómo identifican a estas empresas. ¿Existe algún servicio para averiguar qué empresa raspó mi sitio?
  • Me da risa que de repente la gente esté poniéndose del lado de Elsevier. Bajo la ley actual, parece bastante claro que el entrenamiento de IA es uso justo transformativo
    Quizá este caso termine convirtiéndose en el precedente que lo demuestre

    • Me molesta que los partidarios de la IA intenten presentar a quienes llevan 20 años oponiéndose a la industria del copyright como si de pronto hubieran cambiado de postura solo porque ahora se oponen a la industria de la IA
      Yo apoyo la despenalización o legalización de pequeñas cantidades de marihuana para uso personal, pero eso no significa que apoye una producción industrial gigantesca de drogas que distorsione la economía ni a empresas que quieran meter metanfetamina en todos los productos
    • A mí también me da risa. Ya lo dije en otros hilos y publicaciones[0]
      Dicen “volvieron a copiar los frutos robados”, pero ¿qué es exactamente lo “robado”? ¿Acaso el dueño original no sigue teniendo lo que supuestamente le robaron?
      En Dowling v. United States, 473 U.S. 207 (1985), la Corte Suprema dictaminó que vender sin autorización copias fonográficas de obras musicales con copyright no constituía bienes “robados, apropiados indebidamente u obtenidos por fraude” bajo la National Stolen Property Act
      Incluso si concedemos por argumentación que sí fue robo, el propósito del copyright es “promover el progreso de la ciencia y las artes útiles, asegurando por tiempo limitado a autores e inventores el derecho exclusivo sobre sus respectivos escritos y descubrimientos”
      Sería muy difícil demostrar que los LLM no han promovido el arte y la ciencia, así que como mínimo esto me parece uso transformativo, es decir, uso justo
      [0] https://news.ycombinator.com/item?id=48026207#48029072
    • Ni siquiera creo que haga falta llegar hasta decir que “el entrenamiento de IA es uso justo transformativo bajo la ley actual”. Esto es un producto nuevo por completo
      Es como si quien vendió un teclado quisiera cobrar regalías por el software creado con ese teclado
      No importa que quien escribió un libro no haya previsto un nuevo caso de uso como el entrenamiento de LLM. Ese libro no está dentro del LLM, ni se vende junto con el LLM. Solo es una de miles de millones de herramientas usadas para construirlo
      Es de locos intentar vender esto como si las empresas de IA estuvieran extrayendo valor de pobres titulares de propiedad intelectual como Disney. Ese contenido es nuestro patrimonio cultural y ya es nuestro. Lo único que pasa es que a algún idiota le dieron derechos de explotación monopólica de por vida
      Los LLM se entrenan con datos que ya poseemos. Disney y similares solo quieren sacar más dinero aprovechando nuevas tecnologías sobre cosas creadas hace décadas
      En el peor de los casos, esto sería ingeniería inversa, que en Estados Unidos debería haber estado protegida como uso justo, aunque parece que esa protección se ha erosionado un poco
    • Normalmente el punto en disputa no es si es transformativo, sino que obtuvieron material con copyright de forma ilegal
    • Creo que tanto Elsevier como quienes toman propiedad intelectual sin consentimiento del autor para entrenamiento comercial de IA distribuida comercialmente deberían ser legales
  • Tengo curiosidad por ver qué pasa con la responsabilidad personal
    En las empresas, la responsabilidad desaparece demasiado seguido, y me he preguntado cuál es la justificación legal para eso. Hasta ahora, la razón parece ser algo como “encogimiento de hombros” y “parece que la disposición relevante no aplica”, y ninguna de las dos es una buena razón
    Iba a hacer el chiste de que si le pegaras un imán al cadáver de Aaron Swartz, para estas alturas estaría girando tan rápido que sería una fuente de energía muy potente
    Pero, siendo honestos, viendo cómo se manejó su caso y lo poco que ha mejorado la situación desde entonces, probablemente él habría esperado algo así

    • La forma en que se manejó el caso de Aaron Swartz fue una tragedia, pero no fue procesado por cargos de piratería
      Los cargos fueron fraude, acceso no autorizado a una computadora protegida y daño informático
      Con el tiempo se olvidó la base del caso y fue reemplazada por la suposición de que era un caso de piratería, pero en realidad era un caso de acceso no autorizado
    • En otra realidad, Aaron Swartz no fue santificado y quizá hoy estaría dirigiendo una startup de IA/cripto que le paga a la gente por subir datos de entrenamiento junto con sus amigos exalumnos de YC
  • Si Zuckerberg no recibe un castigo fuerte por esto, al menos espero que se establezca el precedente legal de que todos los demás también pueden hacer exactamente lo mismo con inmunidad
    Todos los Aaron Swartz del futuro deberían poder compartir libremente artículos científicos con el mundo entero

    • Lo más probable es que usen lobby para crear captura regulatoria y luego les levanten la escalera a los participantes pequeños
  • Conozco personalmente a un ingeniero a quien le ordenaron hacer algo sabiendo que tenía muchos problemas legales, bajo la lógica de que para eso la empresa tenía abogados

    • Ojalá algo así saliera a la luz durante el descubrimiento de pruebas cuando llegue una demanda, pero probablemente nunca aparecerá
      Ser denunciante no es una gran opción en la economía actual, pero aun así ojalá más gente lo hiciera
  • Entonces, ¿la idea es “muévete rápido y roba cosas”?

    • Básicamente eso pensé cuando los recolectores de IA recién empezaban. Parecía un plan de raspar todo lo posible antes de que la gente se diera cuenta de lo que estaba pasando y empezara a bloquearlos
      La velocidad con la que recorrían y raspaban sitios era muchísimo más agresiva que la de los rastreadores que suelen considerarse legítimos, y esa parecía la explicación más lógica
    • Muévete rápido y rompe la ley
    • Así fue desde el principio, y desde arriba
    • Es el mayor robo de la historia contra la clase trabajadora
    • ¿Que robaron cosas? ¿Otra vez estamos con la lógica de “no te copiarías un auto”, o qué? Pensé que eso ya lo habíamos superado hace mucho
  • Ya sea que lo aprobara el CEO u otro alto directivo, no creo que eso cambie la responsabilidad de la empresa
    La pregunta que hay que responder es si eso ocurrió y, de ser así, si constituye una infracción de copyright no protegida por uso justo, no qué ejecutivo de la empresa lo aprobó

  • Aaron Swartz enfrentó años de prisión por intentar descargar artículos de revistas científicas para compartirlos gratis con el mundo, sin obtener ganancias de ello, y al final terminó quitándose la vida
    Pero una empresa multibillonaria que descarga millones de obras creativas con copyright para entrenar con ese dataset un nuevo tipo de modelo de inteligencia artificial y reconfigurar todo el mercado laboral, eso supuestamente es innovación al estilo Silicon Valley y casi merece una medalla

    • Si una persona descarga ilegalmente material con copyright, es un crimen. Si una multinacional descarga ilegalmente material con copyright, resulta ser la única área de crecimiento que le queda a la economía estadounidense y algo esencial para la seguridad nacional
    • Aaron eliminó sus copias locales y Jstor retiró la demanda. El DOJ no la retiró
      No parece que Meta haya eliminado sus copias locales
    • Aaron Swartz fue tratado injustamente, y la razón es que la ley de copyright es pésima
      Hay que oponerse a esa ley y a ese trato, no usarlo como herramienta para castigar al bando contrario
      Está mal argumentar que todos deberían ser tratados igual de injustamente. Es mejor abogar por deshacernos de las malas leyes y estructuras
    • Meta sí compartió sus modelos de IA gratis con el mundo
    • De verdad se adelantó a su tiempo