Microsoft asumirá la responsabilidad por demandas de derechos de autor de Copilot en lugar de sus clientes
(blogs.microsoft.com)- Si un cliente comercial enfrenta una demanda por infracción de derechos de autor por usar Copilot o sus resultados, Microsoft lo defenderá y cubrirá los montos de cualquier fallo adverso o acuerdo
- Esta promesa amplía la protección de indemnización por propiedad intelectual existente a los servicios comerciales de Copilot, e incluye Microsoft 365 Copilot, GitHub Copilot y Bing Chat Enterprise
- Los clientes deben usar los filtros de contenido y guardrails integrados en el producto, y no deben intentar crear material infractor con entradas sobre las que no tengan derechos
- Según la actualización del 5 de enero de 2024, el nombre del compromiso cambió a Customer Copyright Commitment y se amplió a los clientes comerciales de Azure OpenAI Service
- Microsoft no reclama derechos de propiedad intelectual sobre los resultados de Copilot y considera que deben abordarse en conjunto los temas de derechos de autor, compensación a creadores y competencia en la IA generativa
Compromiso sobre responsabilidad de derechos de autor de Copilot
- Microsoft presentó el Copilot Copyright Commitment en respuesta a las preocupaciones de los clientes de que el uso de resultados de IA generativa pudiera derivar en reclamos por infracción de derechos de autor
- Si un cliente comercial es demandado por un tercero por infracción de derechos de autor debido a los servicios Microsoft Copilot o a sus resultados, Microsoft defenderá al cliente y pagará los montos de cualquier fallo adverso o acuerdo
- Para estar cubiertos, los clientes deben usar los guardrails y filtros de contenido integrados en los productos de Microsoft
- La postura de Microsoft es que, dado que cobra a sus clientes comerciales por Copilot, también debe asumir los problemas legales derivados de su uso, y no trasladarlos al cliente
Alcance y condiciones para clientes
- El Copilot Copyright Commitment amplía la protección de indemnización de IP existente de Microsoft a los reclamos de derechos de autor relacionados con el uso y los resultados de Copilot basado en IA
- Cubre los servicios comerciales pagos de Microsoft Copilot y Bing Chat Enterprise
- Microsoft 365 Copilot: ofrece IA generativa en Word, Excel, PowerPoint y otros productos, y permite a los usuarios razonar sobre sus propios datos o convertir documentos en presentaciones
- GitHub Copilot: servicio que ayuda a los desarrolladores a reducir el tiempo dedicado a codificación repetitiva y a dedicar más tiempo a resultados nuevos y transformadores
- Los clientes deben usar los filtros de contenido y otros sistemas de seguridad integrados en el producto
- No deben intentar generar material infractor ni proporcionar a los servicios Copilot entradas para las que no tengan derechos de uso adecuados
- Este beneficio no cambia la postura existente de Microsoft de que no reclama derechos de propiedad intelectual sobre los resultados de los servicios Copilot
Preocupaciones sobre derechos de autor y equilibrio de políticas
- La IA generativa aumenta la eficiencia y creatividad de los clientes, pero también genera preguntas sobre si el uso de sus resultados puede derivar en reclamos por infracción de IP
- Escritores y artistas han cuestionado públicamente cómo se usan sus obras en modelos y servicios de IA, y Microsoft considera comprensibles estas preocupaciones de los clientes
- Aunque hay áreas en las que la legislación actual sobre derechos de autor es clara, la IA generativa crea nuevos asuntos de política pública
- Microsoft plantea tres objetivos en conjunto
- La IA debe contribuir a la difusión del conocimiento y a la solución de desafíos sociales
- Los creadores deben controlar sus derechos bajo la ley de derechos de autor y obtener ingresos saludables de sus creaciones
- El contenido necesario para entrenar modelos de IA y proporcionar fundamentos no debe quedar encerrado en unas pocas empresas, bloqueando la competencia y la innovación
Protecciones integradas en Copilot
- Microsoft integra filtros y otras tecnologías para reducir la posibilidad de que Copilot devuelva contenido infractor
- Estas protecciones se combinan con el trabajo existente en seguridad digital, protección y privacidad
- Los guardrails utilizados incluyen clasificadores, metaprompts, filtrado de contenido, monitoreo operativo y detección de abuso
- La detección de abuso también incluye usos que podrían infringir contenido de terceros
- El Copilot Copyright Commitment crea un incentivo para que los clientes usen estas tecnologías, con el fin de respetar mejor las preocupaciones sobre derechos de autor
Ampliación a Azure OpenAI Service
- Según la actualización del 5 de enero de 2024, Microsoft amplió el Copilot Copyright Commitment el 15 de noviembre de 2023 al Customer Copyright Commitment
- La ampliación incluye a clientes comerciales que usan Azure OpenAI Service
- Si son demandados por infracción de derechos de autor debido al uso de resultados de Azure OpenAI Service, Microsoft también defenderá a los clientes y pagará los montos de cualquier fallo adverso
- Esta ampliación busca abordar mejor las preocupaciones de los clientes sobre la posible responsabilidad por infracción de IP derivada del uso de resultados de Microsoft Copilot y Azure OpenAI Service
- Para recibir los beneficios del Customer Copyright Commitment, los clientes deben implementar los guardrails y medidas de mitigación obligatorios proporcionados por Microsoft
- Microsoft ofrece documentación y herramientas para Azure OpenAI Service que apoyan el uso responsable de la IA y reducen el riesgo de infringir contenido protegido por derechos de autor
Expansión de la IA y protección de las creaciones
- Microsoft considera esta medida como un primer paso, y cree que las preguntas legales que plantea la IA deben ser resueltas por la industria junto con múltiples partes interesadas
- Para los clientes, funciona como una promesa de que Microsoft asumirá la responsabilidad por derechos de autor de sus productos
- Microsoft ve positivamente los beneficios de la IA, pero también reconoce sus desafíos y riesgos, incluida la protección de las creaciones
- Su postura es que se debe colaborar con la industria tecnológica, escritores y artistas y sus representantes, funcionarios de gobierno, la academia y la sociedad civil para gestionar los riesgos
- En el futuro, busca continuar con nuevas iniciativas para que la IA avance en la difusión del conocimiento mientras protege los derechos y necesidades de los creadores
1 comentarios
Opiniones en Hacker News
Microsoft debería publicar primero un modelo de Copilot entrenado con las bases de código internas de Azure, Windows y Office
Solo así se podría creer que Microsoft realmente considera que Copilot es una tecnología que no infringe derechos de autor
Sus ingenieros internos ya estarían familiarizados con las estructuras de datos, el estilo de código, etc. de Copilot, por lo que aumentaría la productividad y también mejoraría mucho la precisión
Además, el código de terceros de todo el mundo se iría acercando cada vez más al estilo Microsoft, lo que podría facilitar la contratación y la capacitación
La desventaja de que personas externas puedan obtener pequeñas pistas sobre el código fuente de Microsoft no parece muy relevante, considerando que ya se puede obtener mucha más información descompilando los binarios
Lo que dice es que asumirá la responsabilidad si se cumplen todas estas condiciones: que efectivamente se haya producido una salida así, que el usuario no haya desactivado los filtros para impedirlo, que no la haya generado intencionalmente y que ese uso sea declarado ilegal
Hay una diferencia entre el código que debe mantenerse privado frente a actores maliciosos y el código que está publicado, pero tiene restricciones de uso que quien lo recibe debe conocer
Es parecido al argumento de: “si crees que un acuerdo de licencia es legalmente válido, publica tus contraseñas de usuario con una licencia que diga que nadie debe usarlas”
Incluso si no hubiera ningún riesgo de infracción, Microsoft podría no querer hacer una publicación así
GitHub Copilot estaba basado en GPT-3, ajustado con repositorios de código público, y ese punto es el núcleo de la polémica
Esta publicación del blog trata sobre el ecosistema más amplio de Microsoft Copilot
La mayoría de las herramientas usan en el backend el servicio de API de Azure OpenAI y no están especializadas en generación de código
La IA generativa, en general, tiene un carácter transformador, por lo que es muy probable que se considere uso justo.
Si uno realmente la induce, puede obtener resultados parecidos a código o imágenes existentes, pero los tribunales podrían considerar que, en términos generales, crea contenido nuevo que antes no existía; esto podría ser especialmente cierto en el caso de las imágenes.
Google Books copió libros literalmente y los puso en una base de datos en línea, y aun así se consideró uso justo; por lo tanto, es muy probable que la IA generativa, que es mucho más transformadora, entre en un ámbito más amplio de consideración como uso justo.
Aunque Google Books no era comercial, los tribunales suelen considerar que, cuanto mayor es la transformación, menos estrictamente pueden aplicarse los criterios para determinar el uso justo.
https://ogc.harvard.edu/pages/copyright-and-fair-use
Google Books fue uso justo porque tenía utilidad pública, no perjudicaba a las editoriales ni a los autores y, de hecho, ayudaba a que la gente encontrara obras protegidas.
En cambio, la IA generativa extrae lo esencial de las obras de las personas para crear resultados con estilos similares, y puede dejar completamente fuera al autor original, apropiándose del fruto de su trabajo.
En particular, es un proceso puramente mecánico y no incorpora creatividad humana más allá de lo extraído de otros autores. Un simple prompt difícilmente puede considerarse creatividad.
Al final, la lógica se parece a “estamos usando obras con copyright, pero como las mezclamos a gran escala, está bien”.
Esto va en una dirección desfavorable para el argumento de que la IA generativa es uso justo.
En particular, como vinculó la transformación con el impacto en el mercado, será mucho más difícil que un tribunal considere transformadora a una IA generativa que produce resultados que compiten directamente con los insumos.
En el caso de la generación de imágenes, esto es aún más cierto porque compite claramente con las imágenes de stock.
No puede haber una garantía general del tipo “la IA generativa en su conjunto es uso justo”, y que el resultado sea transformador es solo uno de varios factores.
Basta ver los casos de sampling de audio o de remixes.
Habrá excepciones, como cuando se cita un libro en un artículo académico, pero usar esos casos especiales solo sirve para buscarle la vuelta en debates de internet.
El hecho de que Copilot en sí pueda ser una obra transformadora cuya existencia esté permitida no lleva a la conclusión de que, cuando un desarrollador incorpora sus resultados en su propia obra, no tenga responsabilidad por infracción de copyright.
Es lo mismo que no se pueda considerar que todos los resultados creados por otra persona estén libres de problemas de copyright. No se afirma que una persona en sí sea una infracción por haber visto otra obra, pero el resultado es otra cuestión.
https://www.notion.so/DSM-Directive-Implementation-Tracker-3...
https://eur-lex.europa.eu/eli/dir/2019/790/oj
La excepción de copyright TDM4 permite crear datasets compuestos por obras con copyright, siempre que exista un mecanismo para que los titulares de derechos puedan excluirse.
Los datasets se vuelven transparentes, los titulares de derechos pueden ejercer sus derechos y ciertas empresas de IA pueden entrenar con material protegido por copyright, así que parece el mejor punto medio.
Por supuesto, no otorga derechos comerciales sobre el modelo entrenado, sino solo derechos de investigación científica y académica. Por ejemplo, significa que Meta podría entrenar y publicar un modelo LLaMA entrenado con libros, siempre que no obtenga beneficios comerciales y exista un mecanismo para que los autores puedan excluirse.
Estoy conversando con Jordan, de https://spawning.ai, sobre si se puede crear un sistema de exclusión adecuado para libros, y se puede imaginar un enfoque similar para la música.
Aunque es legislación europea, a diferencia de otras regulaciones excesivas de la UE, parece un compromiso muy razonable.
Edición: Jordan me envió un correo de corrección y dijo que mi interpretación es correcta: el derecho de exclusión solo se aplica a la investigación comercial. Es decir, crear datasets para lugares como Eleuther quizá no requiera un procedimiento de exclusión, y sí sería necesario cuando OpenAI los use para GPT-5 y cobre por ello.
Entonces esta ley, en la práctica, se aplica al uso comercial del machine learning, y usos no comerciales como LLaMA ni siquiera necesitarían derecho de exclusión.
Es excelente porque da protección legal a los investigadores y exige transparencia de los datasets para el uso comercial.
Me pregunto si hay detalles reales sobre este anuncio
Entiendo que es una publicación de blog, pero todos los enlaces de la página llevan a otras publicaciones de blog, así que quedan muchas preguntas
¿Esta publicación de blog es un contrato legalmente exigible? ¿Microsoft está indemnizando específicamente a todos los usuarios por reclamaciones de infracción de derechos de autor derivadas del uso de Copilot?
La publicación de blog dice que “este programa tiene condiciones importantes” y enumera algunas, pero no queda claro si esas son todas las condiciones o si hay condiciones adicionales que no aparecen en el texto
Por ejemplo, no sé si aplica solo a ciertos países o a todos los sistemas jurídicos del mundo
¿Qué garantía hay de que Microsoft no descontinuará este programa? Si los tribunales fallan repetidamente en su contra y se dan cuenta de que no pueden pagar indemnizaciones cada vez que Copilot lave licencias de grandes fragmentos de código con derechos de autor, ¿hay alguna forma de obligar a Microsoft a cumplir su promesa?
Brad Smith, que es abogado, también debería entender esto
Si no, ¿por qué expondría a Microsoft, una empresa de 2.5 billones de dólares, al riesgo de una garantía de responsabilidad ilimitada?
Existe el concepto de impedimento promisorio
https://www.nolo.com/dictionary/promissory-estoppel-term.htm...
La documentación de Microsoft es bastante variada y un poco confusa, pero los documentos relacionados con Copilot son relativamente claros y la cláusula de indemnización no ha cambiado desde la primavera
Una jugada muy inteligente de Microsoft
En esencia, se están pintando un enorme blanco en la espalda de cara a futuras demandas, y calculan que tienen los recursos para pelearlo. No es un mal cálculo
Viendo hacia dónde va la IA, pronto habrá jurisprudencia importante
Para Microsoft es muy importante hacer crecer este mercado lo más rápido posible y estar en el centro
Esta medida reduce un obstáculo clave que hace que las organizaciones pequeñas duden en adoptar código generado: la preocupación de “si este producto genera código con derechos de autor, ¿me van a demandar a mí?”
Es como si Microsoft arrojara el guante y dijera: “la enorme maquinaria legal de Microsoft peleará”
Básicamente es una demostración de fuerza del tipo “demándenme, a ver si se animan. Si no, váyanse a casa”
Es una forma de pagar algo de dinero al sector de cuello blanco, como un impuesto manejable, para que no crezca demasiado rápido la presión para que el gobierno los limite severamente
Controlarán al público y sacarán comunicados de prensa durante años para ganar tiempo, y mientras tanto consolidarán su posición
Hay un gran asterisco: “los clientes no deben intentar generar material infractor”
Al final, todo depende de cómo defina Microsoft lo que significa intentar generar material infractor
Uno esperaría que originalmente signifique excluir solo usos en los que el usuario sabe que está infringiendo, como “reproduce todo el código fuente de Half-Life 2”, pero en la práctica no se sabe
No confío en que compitan limpiamente, ni confío en ellos como empleador
Tampoco confío en que no hagan cosas corruptas alrededor de la política nacional, y no querría tenerlos como socios en un proyecto significativo
Pero una cosa que Microsoft realmente hace bien son las transacciones entre empresas confiables y sostenibles a largo plazo
Como cliente empresarial, confío en ellos. Si explotaran este tipo de resquicios, su reputación se vendría abajo
No uso Google Cloud Platform porque suele perjudicar a sus clientes, pero confío en AWS y Azure porque no hacen eso
Es muy probable que el costo de pagar por infracciones sea mucho menor que el costo de perder esa confianza
Dicho eso, Microsoft ahora también tiene un incentivo mayor para hacer lobby a fin de que la ley se configure de manera que haya muy poca responsabilidad por el uso de estas herramientas
Pero sigue quedando la pregunta de si Microsoft está robando el código de la gente y revendiéndolo
Si usas un LLM para responder preguntas sobre documentos de la empresa, podría generar material con derechos de autor preentrenado sin que lo quieras
Puede que no sea tan simple
Aunque Microsoft asuma la responsabilidad, el infractor puede ser demandado por separado. Luego Microsoft podría hacerse cargo de los costos del litigio
Pero no puede impedir categóricamente que demanden a los usuarios del producto
La frase clave es: “si un tercero demanda a un cliente comercial por infracción de derechos de autor por usar Microsoft Copilot o la salida generada, Microsoft lo defenderá y pagará los montos de sentencias adversas o acuerdos, siempre que el cliente haya usado las protecciones integradas y los filtros de contenido del producto”
Lo importante aquí es “defenderá”, que probablemente significa que el usuario usará abogados de Microsoft y no sus propios abogados
Al estar internos, podrían ser más baratos que abogados externos que cobran por hora
Además, hay condiciones sobre cómo se debe usar el producto y, de forma crucial, el usuario debe documentar que lo usó de esa manera
Es un desarrollo interesante. Es probable que los clientes empresariales fueran cautelosos por miedo a infringir derechos de autor accidentalmente al usar estas herramientas, y que eso haya retrasado su adopción
Sobre todo en casos donde los daños potenciales pueden ser grandes
El punto clave es reducir la resistencia a la adopción que genera el riesgo legal
Aplica solo si se tienen activadas las protecciones
Una de esas protecciones es impedir que Copilot genere código que exista en cualquier repositorio de GitHub
Probé Copilot con las protecciones activadas y, en la práctica, quedó inutilizado a un nivel casi decapitado
Por cierto, esto no es un cambio nuevo. Los Copilot Product Specific Terms ya incluían una cláusula que dice que “si te demandan, Microsoft asume la responsabilidad”: https://github.com/customer-terms/github-copilot-product-spe...
En otra comunidad me criticaron mucho por esta respuesta, pero si un modelo estadístico crea una obra puramente derivada como modelo matemático que, en esencia, se parece a un predictor del siguiente token óptimo, ¿eso es realmente “robo”?
¿Entender cuál es el siguiente token óptimo, o incluso saber cuáles son los tokens más frecuentes en GitHub, es “robo”?
Se podría argumentar que, como todas las ideas valiosas ya existen y todos los textos útiles ya fueron escritos, habría que ilegalizar toda la IA; pero entonces, ¿dónde quedamos?
Por ejemplo, una función que convierte una cadena de mayúsculas a minúsculas probablemente se parecerá a una función escrita por otra persona en algún lugar del mundo, y lo mismo pasa con el código de manejo de errores o con las técnicas modernas para centrar un div
Son temas que se discuten todo el tiempo en tribunales
Si entrenaste y publicaste un modelo que, ante la entrada “When Mr. Bilbo Baggins”, imprime la trilogía completa de El Señor de los Anillos, probablemente habrías infringido el copyright
En cambio, si genera un párrafo genérico sobre “montañas” y “dragones”, sin citas directas ni expresiones significativas, lo más probable es que eso en sí no sea una infracción. Esas palabras aparecen en la obra de Tolkien, pero las palabras en sí no están sujetas a copyright
Sin embargo, si se demuestra que, para entrenar el modelo, se copiaron obras de Tolkien de una forma que la licencia de copyright no permitía, podría haber habido una infracción de copyright en una etapa intermedia, aunque la salida del modelo ya no parezca una copia del original
Creo que aquí no hay respuestas en blanco y negro. ¿A partir de qué punto una obra protegida por copyright, fragmentada y convertida en estadísticas, deja de ser una obra protegida por copyright? ¿Se puede entrenar un modelo sin copiar primero algo de una forma que infrinja la ley de copyright?
Es un concepto humano flexible que decidirán humanos en tribunales y órganos legislativos, y no creo que los detalles matemáticos cambien mucho el resultado final
Pero de lo que se trata aquí no es de hurto, sino de infracción de copyright, y son conceptos distintos
Esa diferencia sutil pero fundamental probablemente sea parte de la razón por la que la reacción ha sido fría
El copyright busca proteger la expresión original de una idea plasmada en forma de obra creativa, no la idea en sí
Se podría construir una lógica parecida también para algoritmos de cifrado o compresión
Me pregunto qué tan vinculante es una promesa pública de este tipo
Es parecido a cuando Musk dijo públicamente hace poco que cubriría los costos de quien tuviera problemas laborales o legales por algo que dijo en la plataforma, pero ahora se niega a cumplir esa promesa
Si una base de código infringió la GPL, el remedio es publicar el código fuente en cuestión o dejar de distribuirlo
No creo que a Microsoft le preocupe demasiado ninguna de las dos opciones cuando se trata de código de terceros
No sé cómo son los precedentes sobre indemnizaciones en proyectos de código abierto, pero no parece algo que vaya a preocupar mucho a Microsoft
Dicho de otra forma, el riesgo a la baja para Microsoft es meter abogados, y el potencial al alza es mejorar su herramienta de generación de código
No soy abogado