Problema de relicenciamiento por reescritura asistida por IA

(tuananh.net)

3 puntos por GN⁺ 2026-03-07 | 1 comentarios | Compartir por WhatsApp

El proyecto de código abierto chardet v7.0.0 reescribió todo su código usando una herramienta de IA y cambió su licencia de LGPL a MIT
El autor original sostiene que este proceso podría constituir una infracción de la GPL y señala que el resultado generado por una IA entrenada con el código original no es una ‘implementación clean room’
En el enfoque clean room tradicional, dos equipos deben estar separados, pero la IA elude esa barrera, por lo que surge la duda de si se trata de una obra derivada
Al mismo tiempo, la Corte Suprema de EE. UU. no reconoce copyright sobre obras generadas por IA, lo que vuelve ambiguos la propiedad y la validez de la licencia del nuevo código
Si este tipo de caso se acepta, surge el riesgo de que el esquema Copyleft quede neutralizado

Reescritura basada en IA y cambio de licencia en el proyecto chardet

La biblioteca de Python para detección de codificación de caracteres chardet originalmente era un port del código C++ de Mozilla, por lo que estaba sujeta a la LGPL
- Esto provocaba incertidumbre legal para usuarios empresariales
Los mantenedores usaron Claude Code para reescribir todo el código y publicaron v7.0.0 bajo la licencia MIT
El autor original, a2mark, afirma que esta medida viola la LGPL
- Sostiene que el código modificado sigue estando sujeto a la LGPL, y que la afirmación de una “reescritura completa” no es válida porque el resultado fue generado tras exposición al código original
- También indica explícitamente que la generación de código por IA no otorga derechos adicionales

Implementación clean room y el atajo de la IA

Una reescritura clean room tradicional se compone de dos equipos
- El equipo A analiza el código original y redacta una especificación funcional
- El equipo B escribe el nuevo código basándose solo en esa especificación, sin ver el original
Pero si una IA genera código a partir de la entrada del código LGPL original, esa separación procedimental desaparece
Si la IA aprendió del código original para producir el resultado, ese producto podría considerarse una obra derivada de la LGPL

Fallo de la Corte Suprema de EE. UU. y paradoja legal

El 2 de marzo de 2026, la Corte Suprema de EE. UU. rechazó una apelación sobre el reconocimiento de copyright de obras generadas por IA
- Se mantuvo así el fallo de instancia inferior sobre el requisito de “autoría humana” (Human Authorship)
Como resultado, los mantenedores de chardet enfrentan tres contradicciones legales
- Vacío de copyright: si las obras generadas por IA no pueden recibir protección de copyright, no existe base legal para relicenciarlas como MIT
- Trampa de obra derivada: si la salida de la IA es una obra derivada del código LGPL original, entonces hay una infracción de licencia
- Vacío de propiedad: si la IA generó código completamente nuevo, entonces este pasaría de inmediato al dominio público, haciendo que la propia licencia MIT carezca de sentido

Posible impacto en el esquema Copyleft

Si se permite cambiar licencias mediante reescritura con IA, podría colapsar el fundamento mismo del Copyleft
Cualquiera podría introducir un proyecto GPL en un LLM, pedirle que “lo reescriba en otro estilo” y luego distribuirlo bajo licencia MIT
El caso de chardet v7.0.0 se considera el primer ejemplo real en el que se ponen a prueba estos límites legales y éticos

1 comentarios

GN⁺ 2026-03-07

Opiniones en Hacker News

Según la respuesta del mantenedor, le indicó explícitamente a Claude que no tomara como referencia código LGPL/GPL, pero es muy probable que el modelo ya haya sido entrenado con ese código
Actualmente se entiende que es imposible que un LLM “olvide” por completo la influencia de sus datos de entrenamiento
Hay investigación relacionada en este proyecto
Soy desarrollador y también abogado de propiedad intelectual, y este tipo de temas sigue evolucionando en los tribunales de EE. UU.
Como referencia, el plan enterprise de pago de Anthropic indemniza al usuario en caso de infracción de copyright, pero en los planes Free/Pro/Max ocurre lo contrario: el usuario debe indemnizar a Anthropic (sección 11 de los términos)
- El mantenedor afirma que “lo escribió de nuevo desde cero”, pero en realidad usó sin cambios los datos de prueba de chardet, y además es alguien que ha mantenido el código original durante más de 10 años
  Para que sea una verdadera implementación clean-room, debe separarse a quien conoce el original de quien hace la nueva implementación, y aquí no ocurrió así
- También hubo discusión sobre algo parecido en este hilo
- Hubo investigaciones sobre enmascarar aleatoriamente ciertos tokens durante el entrenamiento para evitar memorizar el texto original de forma literal
  La idea era mantener el significado mientras se eliminaban partes de palabras para evitar citas directas
- Me pareció útil enterarme por primera vez de que son importantes las diferencias en las cláusulas de indemnización entre planes de pago
Este post malinterpreta lo que significa una “implementación clean-room”
No se trata simplemente de “no mirar el código original”, sino de implementar de forma independiente a partir de la especificación de la API
El código generado por un LLM tiene alta probabilidad de parecerse al original, así que existe un gran riesgo de que legalmente se considere una copia
Lo que hizo el mantenedor de chardet parece una relicenciación irresponsable desde el punto de vista legal, y podría causar problemas en la cadena de suministro más adelante
- Refutan citando una explicación legal según la cual, si dos personas crean el mismo código de forma independiente, cada una puede tener su propio copyright
- La copia en copyright solo existe cuando hay flujo de información
  Si simplemente se llegó al mismo resultado, eso es un resultado funcional y no una infracción de copyright
- Casos como Google vs Oracle muestran que una implementación basada en API también implica riesgo legal
  Ver este artículo de Wikipedia
- También existe el precedente de que es legal reescribir sin mirar el original, como en el caso clean-room de Phoenix con la BIOS de IBM PC
- Si se sigue un procedimiento completo de CRRE (clean-room reverse engineering), incluso si el código termina siendo igual 1:1, legalmente no sería una copia
  Aun así, en un juicio real es difícil defenderse cuando la similitud es alta
  El caso de chardet podría terminar como la controversia japonesa sobre copyright de tipografías: aunque no haya una infracción sustancial, igual podría llevar a detener la distribución
“El código LGPL sigue siendo LGPL”
A menos que todos los autores originales den su consentimiento explícito, no es posible cambiar la licencia
El hecho de que una IA transforme el código no hace desaparecer el copyright
Si así fuera, se vendría abajo toda la industria del copyright en EE. UU.
- Legalmente no existe una propiedad especial llamada “código LGPL”; lo central es si se permite o no el acto de copiar
  Que alguien que creó una obra derivada sin permiso vuelva a dar permiso es un tema complicado
- Los fallos de la SCOTUS, más bien, fortalecen los derechos del autor original al considerar que a los resultados hechos por IA les falta originalidad creativa
- Si fuera una reescritura clean-room totalmente basada en IA, quizá en la práctica podría verse como dominio público, pero los casos reales así son raros
Con la IA generativa, el sistema de copyright quedó desfasado
Las leyes del pasado asumían modelos de propósito único, pero ahora aparecieron modelos que pueden competir con cualquier fuente
La estrategia de licencias de GNU también asumía la escasez del código, pero ahora generar código es tan fácil que eso pierde fuerza
- Si a la IA se le da el código original y se le pide “vuélvelo a escribir”, eso sería una obra derivada; pero si solo se le da una descripción funcional, sería una obra nueva
  En un litigio, los logs de Claude podrían usarse como prueba
- También hay críticas de que esto es “cambiar las reglas rompiendo la ley”
- La premisa tradicional de que las ideas no están protegidas, pero su expresión sí, se tambalea en la era de la IA
  Ahora vivimos en una época donde generar expresiones es más fácil que desarrollar ideas
- Otros opinan que este cambio es, al contrario, una señal positiva que debilita la estructura monopólica del copyright
- El objetivo de GNU no era la licencia en sí, sino la libertad del usuario
  Un mundo donde cualquiera puede crear código con IA estaría, de hecho, más cerca del ideal que GNU soñaba
Se cuestiona la idea de que, si el código hecho por IA fuera una verdadera obra nueva, entonces podría pasar a dominio público apenas se genera
Como no se sabe con qué datos fue entrenado el modelo, eso podría equivaler a ingeniería inversa
Por lo tanto, se debería aplicar la licencia más restrictiva, y se sostiene que las empresas de IA deberían redistribuir ingresos a los autores originales
- Si fuera así, aplicaría “All Rights Reserved” y no se podrían usar los resultados de IA
  De hecho, los modelos entrenados solo con datos permitidos tienen un rendimiento muy bajo
  Si todo lo generado por IA se considerara obra derivada, todos los proyectos open source quedarían contaminados
- Salvo que la IA copie el original casi tal cual, los tribunales de EE. UU. no suelen cuestionar el copyright de los datos de entrenamiento
  Al final, si nadie que no sea humano puede reclamar propiedad, en la práctica se trataría como dominio público
- Incluso hubo una propuesta en broma de considerar todo código generado por LLM como GPL v3
- También apareció la opinión cínica de que la ley solo cambiará cuando se vean afectados los intereses de Disney
- La responsabilidad legal cambiará según si la IA usó directamente el código original o si lo reescribió a través de una representación intermedia
Como discusión relacionada, existe otro hilo titulado “No right to relicense this project”
- Eso parece simplemente un proyecto plagiado, mientras que en este caso de chardet el punto central es la legitimidad de una reescritura con IA
Se rebate la afirmación de que, si el código hecho por IA fuera dominio público, entonces la licencia MIT perdería todo sentido
Los resultados generados por IA no son lo mismo que una simple copia, y siguen sujetos a las restricciones de licencia del original
- Como los resultados hechos por IA legalmente no se reconocen como obras protegidas, nadie podría otorgarles una licencia
  Por ejemplo, un generador de poemas entrenado con Project Gutenberg tampoco podría reclamar copyright
- Pero en el caso del código, todavía no hay un criterio legal claro
  Con macros, generadores de código e incluso funciones automáticas como Intellisense, el límite de qué cuenta como “generado por IA” es difuso
- También hubo una corrección de que el término correcto no es “copywrite”, sino “copyright”
- Otros opinan que incluso un resultado generado por IA puede recibir copyright si hubo intervención creativa humana
En el pasado hubo discusión sobre incluir chardet en la biblioteca estándar de Python, pero
se considera que esa posibilidad desapareció por esta controversia sobre el cambio de licencia
Ver la discusión relacionada en este issue y los comentarios del mantenedor aquí y aquí
Este tipo de relicenciación con IA podría significar el fin del open source, especialmente del copyleft
Si las licencias ya no pueden cumplir una función de protección, los desarrolladores volverán al desarrollo cerrado
- Yo por eso también dejé por completo de publicar open source
  Los modelos más recientes ya pueden incluso hacer ingeniería inversa de WebAssembly, y se siente casi como la teoría del bosque oscuro
- Esto no aplica solo al open source, sino a todos los proyectos con código público
- El objetivo de la GPL no es “bloquear usos no deseados”, sino exigir la divulgación del código fuente cuando se modifica
  Si una reescritura con IA es GPL, entonces también tendría que publicarse
- También hubo una respuesta de que cerrar el “software libre” contradice desde el inicio la filosofía de la libertad
Se coincide con la conclusión de que, si “se puede cambiar una licencia con una reescritura por IA, entonces se derrumba todo el copyright”
Porque podría aplicarse a películas, música, novelas y cualquier otra obra creativa
Al final, es poco probable que los tribunales reconozcan este tipo de intentos como una evasión válida del copyright,
y ojalá el proyecto chardet no termine siendo un sujeto de prueba ante una enorme ola legal

Problema de relicenciamiento por reescritura asistida por IA

Reescritura basada en IA y cambio de licencia en el proyecto chardet

Implementación clean room y el atajo de la IA

Fallo de la Corte Suprema de EE. UU. y paradoja legal

Posible impacto en el esquema Copyleft

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News