Microsoft asumirá la responsabilidad por demandas de derechos de autor de Copilot en lugar de sus clientes

(blogs.microsoft.com)

1 puntos por GN⁺ 2023-09-08 | 1 comentarios | Compartir por WhatsApp

Si un cliente comercial enfrenta una demanda por infracción de derechos de autor por usar Copilot o sus resultados, Microsoft lo defenderá y cubrirá los montos de cualquier fallo adverso o acuerdo
Esta promesa amplía la protección de indemnización por propiedad intelectual existente a los servicios comerciales de Copilot, e incluye Microsoft 365 Copilot, GitHub Copilot y Bing Chat Enterprise
Los clientes deben usar los filtros de contenido y guardrails integrados en el producto, y no deben intentar crear material infractor con entradas sobre las que no tengan derechos
Según la actualización del 5 de enero de 2024, el nombre del compromiso cambió a Customer Copyright Commitment y se amplió a los clientes comerciales de Azure OpenAI Service
Microsoft no reclama derechos de propiedad intelectual sobre los resultados de Copilot y considera que deben abordarse en conjunto los temas de derechos de autor, compensación a creadores y competencia en la IA generativa

Compromiso sobre responsabilidad de derechos de autor de Copilot

Microsoft presentó el Copilot Copyright Commitment en respuesta a las preocupaciones de los clientes de que el uso de resultados de IA generativa pudiera derivar en reclamos por infracción de derechos de autor
Si un cliente comercial es demandado por un tercero por infracción de derechos de autor debido a los servicios Microsoft Copilot o a sus resultados, Microsoft defenderá al cliente y pagará los montos de cualquier fallo adverso o acuerdo
Para estar cubiertos, los clientes deben usar los guardrails y filtros de contenido integrados en los productos de Microsoft
La postura de Microsoft es que, dado que cobra a sus clientes comerciales por Copilot, también debe asumir los problemas legales derivados de su uso, y no trasladarlos al cliente

Alcance y condiciones para clientes

El Copilot Copyright Commitment amplía la protección de indemnización de IP existente de Microsoft a los reclamos de derechos de autor relacionados con el uso y los resultados de Copilot basado en IA
Cubre los servicios comerciales pagos de Microsoft Copilot y Bing Chat Enterprise
- Microsoft 365 Copilot: ofrece IA generativa en Word, Excel, PowerPoint y otros productos, y permite a los usuarios razonar sobre sus propios datos o convertir documentos en presentaciones
- GitHub Copilot: servicio que ayuda a los desarrolladores a reducir el tiempo dedicado a codificación repetitiva y a dedicar más tiempo a resultados nuevos y transformadores
Los clientes deben usar los filtros de contenido y otros sistemas de seguridad integrados en el producto
No deben intentar generar material infractor ni proporcionar a los servicios Copilot entradas para las que no tengan derechos de uso adecuados
Este beneficio no cambia la postura existente de Microsoft de que no reclama derechos de propiedad intelectual sobre los resultados de los servicios Copilot

Preocupaciones sobre derechos de autor y equilibrio de políticas

La IA generativa aumenta la eficiencia y creatividad de los clientes, pero también genera preguntas sobre si el uso de sus resultados puede derivar en reclamos por infracción de IP
Escritores y artistas han cuestionado públicamente cómo se usan sus obras en modelos y servicios de IA, y Microsoft considera comprensibles estas preocupaciones de los clientes
Aunque hay áreas en las que la legislación actual sobre derechos de autor es clara, la IA generativa crea nuevos asuntos de política pública
Microsoft plantea tres objetivos en conjunto
- La IA debe contribuir a la difusión del conocimiento y a la solución de desafíos sociales
- Los creadores deben controlar sus derechos bajo la ley de derechos de autor y obtener ingresos saludables de sus creaciones
- El contenido necesario para entrenar modelos de IA y proporcionar fundamentos no debe quedar encerrado en unas pocas empresas, bloqueando la competencia y la innovación

Protecciones integradas en Copilot

Microsoft integra filtros y otras tecnologías para reducir la posibilidad de que Copilot devuelva contenido infractor
Estas protecciones se combinan con el trabajo existente en seguridad digital, protección y privacidad
Los guardrails utilizados incluyen clasificadores, metaprompts, filtrado de contenido, monitoreo operativo y detección de abuso
La detección de abuso también incluye usos que podrían infringir contenido de terceros
El Copilot Copyright Commitment crea un incentivo para que los clientes usen estas tecnologías, con el fin de respetar mejor las preocupaciones sobre derechos de autor

Ampliación a Azure OpenAI Service

Según la actualización del 5 de enero de 2024, Microsoft amplió el Copilot Copyright Commitment el 15 de noviembre de 2023 al Customer Copyright Commitment
La ampliación incluye a clientes comerciales que usan Azure OpenAI Service
Si son demandados por infracción de derechos de autor debido al uso de resultados de Azure OpenAI Service, Microsoft también defenderá a los clientes y pagará los montos de cualquier fallo adverso
Esta ampliación busca abordar mejor las preocupaciones de los clientes sobre la posible responsabilidad por infracción de IP derivada del uso de resultados de Microsoft Copilot y Azure OpenAI Service
Para recibir los beneficios del Customer Copyright Commitment, los clientes deben implementar los guardrails y medidas de mitigación obligatorios proporcionados por Microsoft
Microsoft ofrece documentación y herramientas para Azure OpenAI Service que apoyan el uso responsable de la IA y reducen el riesgo de infringir contenido protegido por derechos de autor

Expansión de la IA y protección de las creaciones

Microsoft considera esta medida como un primer paso, y cree que las preguntas legales que plantea la IA deben ser resueltas por la industria junto con múltiples partes interesadas
Para los clientes, funciona como una promesa de que Microsoft asumirá la responsabilidad por derechos de autor de sus productos
Microsoft ve positivamente los beneficios de la IA, pero también reconoce sus desafíos y riesgos, incluida la protección de las creaciones
Su postura es que se debe colaborar con la industria tecnológica, escritores y artistas y sus representantes, funcionarios de gobierno, la academia y la sociedad civil para gestionar los riesgos
En el futuro, busca continuar con nuevas iniciativas para que la IA avance en la difusión del conocimiento mientras protege los derechos y necesidades de los creadores

1 comentarios

GN⁺ 2023-09-08

Opiniones en Hacker News

Microsoft debería publicar primero un modelo de Copilot entrenado con las bases de código internas de Azure, Windows y Office
Solo así se podría creer que Microsoft realmente considera que Copilot es una tecnología que no infringe derechos de autor
- Es muy probable que a Microsoft le convenga hacerlo porque podría ganar más dinero
  Sus ingenieros internos ya estarían familiarizados con las estructuras de datos, el estilo de código, etc. de Copilot, por lo que aumentaría la productividad y también mejoraría mucho la precisión
  Además, el código de terceros de todo el mundo se iría acercando cada vez más al estilo Microsoft, lo que podría facilitar la contratación y la capacitación
  La desventaja de que personas externas puedan obtener pequeñas pistas sobre el código fuente de Microsoft no parece muy relevante, considerando que ya se puede obtener mucha más información descompilando los binarios
- Microsoft no está afirmando que Copilot no pueda escupir código tal cual
  Lo que dice es que asumirá la responsabilidad si se cumplen todas estas condiciones: que efectivamente se haya producido una salida así, que el usuario no haya desactivado los filtros para impedirlo, que no la haya generado intencionalmente y que ese uso sea declarado ilegal
  Hay una diferencia entre el código que debe mantenerse privado frente a actores maliciosos y el código que está publicado, pero tiene restricciones de uso que quien lo recibe debe conocer
  Es parecido al argumento de: “si crees que un acuerdo de licencia es legalmente válido, publica tus contraseñas de usuario con una licencia que diga que nadie debe usarlas”
- La filtración de datos sensibles y la infracción de derechos de autor son temas distintos, aunque son preocupaciones relacionadas
  Incluso si no hubiera ningún riesgo de infracción, Microsoft podría no querer hacer una publicación así
- Lo último que el mundo necesita es más código escrito al estilo de la API Win32
- Parece que aquí se refieren a GitHub Copilot, que es un producto separado dentro del portafolio de Microsoft
  GitHub Copilot estaba basado en GPT-3, ajustado con repositorios de código público, y ese punto es el núcleo de la polémica
  Esta publicación del blog trata sobre el ecosistema más amplio de Microsoft Copilot
  La mayoría de las herramientas usan en el backend el servicio de API de Azure OpenAI y no están especializadas en generación de código
La IA generativa, en general, tiene un carácter transformador, por lo que es muy probable que se considere uso justo.
Si uno realmente la induce, puede obtener resultados parecidos a código o imágenes existentes, pero los tribunales podrían considerar que, en términos generales, crea contenido nuevo que antes no existía; esto podría ser especialmente cierto en el caso de las imágenes.
Google Books copió libros literalmente y los puso en una base de datos en línea, y aun así se consideró uso justo; por lo tanto, es muy probable que la IA generativa, que es mucho más transformadora, entre en un ámbito más amplio de consideración como uso justo.
Aunque Google Books no era comercial, los tribunales suelen considerar que, cuanto mayor es la transformación, menos estrictamente pueden aplicarse los criterios para determinar el uso justo.
https://ogc.harvard.edu/pages/copyright-and-fair-use
- Mucha gente dice que “es muy probable que la IA generativa en general sea reconocida como uso justo”, pero creo que en realidad la probabilidad de que eso ocurra ni siquiera llega al 50%.
  Google Books fue uso justo porque tenía utilidad pública, no perjudicaba a las editoriales ni a los autores y, de hecho, ayudaba a que la gente encontrara obras protegidas.
  En cambio, la IA generativa extrae lo esencial de las obras de las personas para crear resultados con estilos similares, y puede dejar completamente fuera al autor original, apropiándose del fruto de su trabajo.
  En particular, es un proceso puramente mecánico y no incorpora creatividad humana más allá de lo extraído de otros autores. Un simple prompt difícilmente puede considerarse creatividad.
  Al final, la lógica se parece a “estamos usando obras con copyright, pero como las mezclamos a gran escala, está bien”.
- Si vieron el fallo reciente de la Corte Suprema en Warhol v. Goldsmith, sabrán que el significado de transformación dentro del uso justo se redefinió de forma bastante importante.
  Esto va en una dirección desfavorable para el argumento de que la IA generativa es uso justo.
  En particular, como vinculó la transformación con el impacto en el mercado, será mucho más difícil que un tribunal considere transformadora a una IA generativa que produce resultados que compiten directamente con los insumos.
  En el caso de la generación de imágenes, esto es aún más cierto porque compite claramente con las imágenes de stock.
- El uso justo no funciona así.
  No puede haber una garantía general del tipo “la IA generativa en su conjunto es uso justo”, y que el resultado sea transformador es solo uno de varios factores.
  Basta ver los casos de sampling de audio o de remixes.
- Google Books puede ser transformador en cuanto a su propósito y carácter, pero eso no significa que tomar los resultados de búsqueda de Google Books y pegarlos en tu propio libro sea uso justo.
  Habrá excepciones, como cuando se cita un libro en un artículo académico, pero usar esos casos especiales solo sirve para buscarle la vuelta en debates de internet.
  El hecho de que Copilot en sí pueda ser una obra transformadora cuya existencia esté permitida no lleva a la conclusión de que, cuando un desarrollador incorpora sus resultados en su propia obra, no tenga responsabilidad por infracción de copyright.
  Es lo mismo que no se pueda considerar que todos los resultados creados por otra persona estén libres de problemas de copyright. No se afirma que una persona en sí sea una infracción por haber visto otra obra, pero el resultado es otra cuestión.
- Hay muchas objeciones, pero la UE parece estar bastante de acuerdo con esta postura: https://creativecommons.org/wp-content/uploads/2021/12/CC-St...
  https://www.notion.so/DSM-Directive-Implementation-Tracker-3...
  https://eur-lex.europa.eu/eli/dir/2019/790/oj
  La excepción de copyright TDM4 permite crear datasets compuestos por obras con copyright, siempre que exista un mecanismo para que los titulares de derechos puedan excluirse.
  Los datasets se vuelven transparentes, los titulares de derechos pueden ejercer sus derechos y ciertas empresas de IA pueden entrenar con material protegido por copyright, así que parece el mejor punto medio.
  Por supuesto, no otorga derechos comerciales sobre el modelo entrenado, sino solo derechos de investigación científica y académica. Por ejemplo, significa que Meta podría entrenar y publicar un modelo LLaMA entrenado con libros, siempre que no obtenga beneficios comerciales y exista un mecanismo para que los autores puedan excluirse.
  Estoy conversando con Jordan, de https://spawning.ai, sobre si se puede crear un sistema de exclusión adecuado para libros, y se puede imaginar un enfoque similar para la música.
  Aunque es legislación europea, a diferencia de otras regulaciones excesivas de la UE, parece un compromiso muy razonable.
  Edición: Jordan me envió un correo de corrección y dijo que mi interpretación es correcta: el derecho de exclusión solo se aplica a la investigación comercial. Es decir, crear datasets para lugares como Eleuther quizá no requiera un procedimiento de exclusión, y sí sería necesario cuando OpenAI los use para GPT-5 y cobre por ello.
  Entonces esta ley, en la práctica, se aplica al uso comercial del machine learning, y usos no comerciales como LLaMA ni siquiera necesitarían derecho de exclusión.
  Es excelente porque da protección legal a los investigadores y exige transparencia de los datasets para el uso comercial.
Me pregunto si hay detalles reales sobre este anuncio
Entiendo que es una publicación de blog, pero todos los enlaces de la página llevan a otras publicaciones de blog, así que quedan muchas preguntas
¿Esta publicación de blog es un contrato legalmente exigible? ¿Microsoft está indemnizando específicamente a todos los usuarios por reclamaciones de infracción de derechos de autor derivadas del uso de Copilot?
La publicación de blog dice que “este programa tiene condiciones importantes” y enumera algunas, pero no queda claro si esas son todas las condiciones o si hay condiciones adicionales que no aparecen en el texto
Por ejemplo, no sé si aplica solo a ciertos países o a todos los sistemas jurídicos del mundo
¿Qué garantía hay de que Microsoft no descontinuará este programa? Si los tribunales fallan repetidamente en su contra y se dan cuenta de que no pueden pagar indemnizaciones cada vez que Copilot lave licencias de grandes fragmentos de código con derechos de autor, ¿hay alguna forma de obligar a Microsoft a cumplir su promesa?
- Así que, por ahora, esto parece más relaciones públicas que protección legal real
  Brad Smith, que es abogado, también debería entender esto
  Si no, ¿por qué expondría a Microsoft, una empresa de 2.5 billones de dólares, al riesgo de una garantía de responsabilidad ilimitada?
- Sobre “¿esta publicación de blog es un contrato legalmente exigible?”, podría serlo
  Existe el concepto de impedimento promisorio
  https://www.nolo.com/dictionary/promissory-estoppel-term.htm...
- Como abogado, busqué esta nueva redacción, pero ninguno de los documentos legales que revisé parece haberse actualizado para reflejarla
  La documentación de Microsoft es bastante variada y un poco confusa, pero los documentos relacionados con Copilot son relativamente claros y la cláusula de indemnización no ha cambiado desde la primavera
Una jugada muy inteligente de Microsoft
En esencia, se están pintando un enorme blanco en la espalda de cara a futuras demandas, y calculan que tienen los recursos para pelearlo. No es un mal cálculo
Viendo hacia dónde va la IA, pronto habrá jurisprudencia importante
Para Microsoft es muy importante hacer crecer este mercado lo más rápido posible y estar en el centro
Esta medida reduce un obstáculo clave que hace que las organizaciones pequeñas duden en adoptar código generado: la preocupación de “si este producto genera código con derechos de autor, ¿me van a demandar a mí?”
- Exacto. Ese es el punto
  Es como si Microsoft arrojara el guante y dijera: “la enorme maquinaria legal de Microsoft peleará”
  Básicamente es una demostración de fuerza del tipo “demándenme, a ver si se animan. Si no, váyanse a casa”
- Microsoft tiene dinero, así que es un demandado atractivo
- Puede que Microsoft simplemente lo vea como la opción menos mala
  Es una forma de pagar algo de dinero al sector de cuello blanco, como un impuesto manejable, para que no crezca demasiado rápido la presión para que el gobierno los limite severamente
- Si tuviera que predecir, podrían usar despliegues en la nube para bifurcar partes GPL importantes y limitar las actualizaciones de seguridad necesarias solo a su propia bifurcación e implementación
  Controlarán al público y sacarán comunicados de prensa durante años para ganar tiempo, y mientras tanto consolidarán su posición
Hay un gran asterisco: “los clientes no deben intentar generar material infractor”
Al final, todo depende de cómo defina Microsoft lo que significa intentar generar material infractor
Uno esperaría que originalmente signifique excluir solo usos en los que el usuario sabe que está infringiendo, como “reproduce todo el código fuente de Half-Life 2”, pero en la práctica no se sabe
- Sinceramente, en este punto confío en Microsoft
  No confío en que compitan limpiamente, ni confío en ellos como empleador
  Tampoco confío en que no hagan cosas corruptas alrededor de la política nacional, y no querría tenerlos como socios en un proyecto significativo
  Pero una cosa que Microsoft realmente hace bien son las transacciones entre empresas confiables y sostenibles a largo plazo
  Como cliente empresarial, confío en ellos. Si explotaran este tipo de resquicios, su reputación se vendría abajo
  No uso Google Cloud Platform porque suele perjudicar a sus clientes, pero confío en AWS y Azure porque no hacen eso
  Es muy probable que el costo de pagar por infracciones sea mucho menor que el costo de perder esa confianza
- Al final, el significado de “intentó generar material infractor” no depende de Microsoft, sino de cómo lo vea el tribunal que haga cumplir esa promesa
  Dicho eso, Microsoft ahora también tiene un incentivo mayor para hacer lobby a fin de que la ley se configure de manera que haya muy poca responsabilidad por el uso de estas herramientas
- Eso es solo lenguaje legal para decir “si hay infracción de derechos de autor, toda la responsabilidad es tuya”
  Pero sigue quedando la pregunta de si Microsoft está robando el código de la gente y revendiéndolo
- Ese es un resquicio tan grande que podría pasar un camión
- No me parece una condición tan sorprendente ni restrictiva
  Si usas un LLM para responder preguntas sobre documentos de la empresa, podría generar material con derechos de autor preentrenado sin que lo quieras
Puede que no sea tan simple
Aunque Microsoft asuma la responsabilidad, el infractor puede ser demandado por separado. Luego Microsoft podría hacerse cargo de los costos del litigio
Pero no puede impedir categóricamente que demanden a los usuarios del producto
La frase clave es: “si un tercero demanda a un cliente comercial por infracción de derechos de autor por usar Microsoft Copilot o la salida generada, Microsoft lo defenderá y pagará los montos de sentencias adversas o acuerdos, siempre que el cliente haya usado las protecciones integradas y los filtros de contenido del producto”
Lo importante aquí es “defenderá”, que probablemente significa que el usuario usará abogados de Microsoft y no sus propios abogados
Al estar internos, podrían ser más baratos que abogados externos que cobran por hora
Además, hay condiciones sobre cómo se debe usar el producto y, de forma crucial, el usuario debe documentar que lo usó de esa manera
Es un desarrollo interesante. Es probable que los clientes empresariales fueran cautelosos por miedo a infringir derechos de autor accidentalmente al usar estas herramientas, y que eso haya retrasado su adopción
- Incluso empresas como Microsoft casi siempre encargan los litigios a despachos externos
  Sobre todo en casos donde los daños potenciales pueden ser grandes
  El punto clave es reducir la resistencia a la adopción que genera el riesgo legal
Aplica solo si se tienen activadas las protecciones
Una de esas protecciones es impedir que Copilot genere código que exista en cualquier repositorio de GitHub
Probé Copilot con las protecciones activadas y, en la práctica, quedó inutilizado a un nivel casi decapitado
Por cierto, esto no es un cambio nuevo. Los Copilot Product Specific Terms ya incluían una cláusula que dice que “si te demandan, Microsoft asume la responsabilidad”: https://github.com/customer-terms/github-copilot-product-spe...
En otra comunidad me criticaron mucho por esta respuesta, pero si un modelo estadístico crea una obra puramente derivada como modelo matemático que, en esencia, se parece a un predictor del siguiente token óptimo, ¿eso es realmente “robo”?
¿Entender cuál es el siguiente token óptimo, o incluso saber cuáles son los tokens más frecuentes en GitHub, es “robo”?
Se podría argumentar que, como todas las ideas valiosas ya existen y todos los textos útiles ya fueron escritos, habría que ilegalizar toda la IA; pero entonces, ¿dónde quedamos?
Por ejemplo, una función que convierte una cadena de mayúsculas a minúsculas probablemente se parecerá a una función escrita por otra persona en algún lugar del mundo, y lo mismo pasa con el código de manejo de errores o con las técnicas modernas para centrar un div
- No soy abogado de copyright, pero incluso dejando de lado la IA, las obras derivadas y el uso justo ya son una zona gris
  Son temas que se discuten todo el tiempo en tribunales
  Si entrenaste y publicaste un modelo que, ante la entrada “When Mr. Bilbo Baggins”, imprime la trilogía completa de El Señor de los Anillos, probablemente habrías infringido el copyright
  En cambio, si genera un párrafo genérico sobre “montañas” y “dragones”, sin citas directas ni expresiones significativas, lo más probable es que eso en sí no sea una infracción. Esas palabras aparecen en la obra de Tolkien, pero las palabras en sí no están sujetas a copyright
  Sin embargo, si se demuestra que, para entrenar el modelo, se copiaron obras de Tolkien de una forma que la licencia de copyright no permitía, podría haber habido una infracción de copyright en una etapa intermedia, aunque la salida del modelo ya no parezca una copia del original
  Creo que aquí no hay respuestas en blanco y negro. ¿A partir de qué punto una obra protegida por copyright, fragmentada y convertida en estadísticas, deja de ser una obra protegida por copyright? ¿Se puede entrenar un modelo sin copiar primero algo de una forma que infrinja la ley de copyright?
  Es un concepto humano flexible que decidirán humanos en tribunales y órganos legislativos, y no creo que los detalles matemáticos cambien mucho el resultado final
- No soy abogado, pero esto no es robo
  Pero de lo que se trata aquí no es de hurto, sino de infracción de copyright, y son conceptos distintos
  Esa diferencia sutil pero fundamental probablemente sea parte de la razón por la que la reacción ha sido fría
- Sobre la parte de que “como todas las ideas valiosas ya existen, toda IA debería ser ilegal”, https://en.wikipedia.org/wiki/Copyright dice lo siguiente
  El copyright busca proteger la expresión original de una idea plasmada en forma de obra creativa, no la idea en sí
- El funcionamiento interno no importa
  Se podría construir una lógica parecida también para algoritmos de cifrado o compresión
Me pregunto qué tan vinculante es una promesa pública de este tipo
Es parecido a cuando Musk dijo públicamente hace poco que cubriría los costos de quien tuviera problemas laborales o legales por algo que dijo en la plataforma, pero ahora se niega a cumplir esa promesa
Si una base de código infringió la GPL, el remedio es publicar el código fuente en cuestión o dejar de distribuirlo
No creo que a Microsoft le preocupe demasiado ninguna de las dos opciones cuando se trata de código de terceros
No sé cómo son los precedentes sobre indemnizaciones en proyectos de código abierto, pero no parece algo que vaya a preocupar mucho a Microsoft
Dicho de otra forma, el riesgo a la baja para Microsoft es meter abogados, y el potencial al alza es mejorar su herramienta de generación de código
No soy abogado

Microsoft asumirá la responsabilidad por demandas de derechos de autor de Copilot en lugar de sus clientes

Compromiso sobre responsabilidad de derechos de autor de Copilot

Alcance y condiciones para clientes

Preocupaciones sobre derechos de autor y equilibrio de políticas

Protecciones integradas en Copilot

Ampliación a Azure OpenAI Service

Expansión de la IA y protección de las creaciones

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News