3 puntos por GN⁺ 2026-03-07 | 1 comentarios | Compartir por WhatsApp
  • El proyecto de código abierto chardet v7.0.0 reescribió todo su código usando una herramienta de IA y cambió su licencia de LGPL a MIT
  • El autor original sostiene que este proceso podría constituir una infracción de la GPL y señala que el resultado generado por una IA entrenada con el código original no es una ‘implementación clean room’
  • En el enfoque clean room tradicional, dos equipos deben estar separados, pero la IA elude esa barrera, por lo que surge la duda de si se trata de una obra derivada
  • Al mismo tiempo, la Corte Suprema de EE. UU. no reconoce copyright sobre obras generadas por IA, lo que vuelve ambiguos la propiedad y la validez de la licencia del nuevo código
  • Si este tipo de caso se acepta, surge el riesgo de que el esquema Copyleft quede neutralizado

Reescritura basada en IA y cambio de licencia en el proyecto chardet

  • La biblioteca de Python para detección de codificación de caracteres chardet originalmente era un port del código C++ de Mozilla, por lo que estaba sujeta a la LGPL
    • Esto provocaba incertidumbre legal para usuarios empresariales
  • Los mantenedores usaron Claude Code para reescribir todo el código y publicaron v7.0.0 bajo la licencia MIT
  • El autor original, a2mark, afirma que esta medida viola la LGPL
    • Sostiene que el código modificado sigue estando sujeto a la LGPL, y que la afirmación de una “reescritura completa” no es válida porque el resultado fue generado tras exposición al código original
    • También indica explícitamente que la generación de código por IA no otorga derechos adicionales

Implementación clean room y el atajo de la IA

  • Una reescritura clean room tradicional se compone de dos equipos
    • El equipo A analiza el código original y redacta una especificación funcional
    • El equipo B escribe el nuevo código basándose solo en esa especificación, sin ver el original
  • Pero si una IA genera código a partir de la entrada del código LGPL original, esa separación procedimental desaparece
  • Si la IA aprendió del código original para producir el resultado, ese producto podría considerarse una obra derivada de la LGPL

Fallo de la Corte Suprema de EE. UU. y paradoja legal

  • El 2 de marzo de 2026, la Corte Suprema de EE. UU. rechazó una apelación sobre el reconocimiento de copyright de obras generadas por IA
    • Se mantuvo así el fallo de instancia inferior sobre el requisito de “autoría humana” (Human Authorship)
  • Como resultado, los mantenedores de chardet enfrentan tres contradicciones legales
    • Vacío de copyright: si las obras generadas por IA no pueden recibir protección de copyright, no existe base legal para relicenciarlas como MIT
    • Trampa de obra derivada: si la salida de la IA es una obra derivada del código LGPL original, entonces hay una infracción de licencia
    • Vacío de propiedad: si la IA generó código completamente nuevo, entonces este pasaría de inmediato al dominio público, haciendo que la propia licencia MIT carezca de sentido

Posible impacto en el esquema Copyleft

  • Si se permite cambiar licencias mediante reescritura con IA, podría colapsar el fundamento mismo del Copyleft
  • Cualquiera podría introducir un proyecto GPL en un LLM, pedirle que “lo reescriba en otro estilo” y luego distribuirlo bajo licencia MIT
  • El caso de chardet v7.0.0 se considera el primer ejemplo real en el que se ponen a prueba estos límites legales y éticos

1 comentarios

 
GN⁺ 2026-03-07
Opiniones en Hacker News
  • Según la respuesta del mantenedor, le indicó explícitamente a Claude que no tomara como referencia código LGPL/GPL, pero es muy probable que el modelo ya haya sido entrenado con ese código
    Actualmente se entiende que es imposible que un LLM “olvide” por completo la influencia de sus datos de entrenamiento
    Hay investigación relacionada en este proyecto
    Soy desarrollador y también abogado de propiedad intelectual, y este tipo de temas sigue evolucionando en los tribunales de EE. UU.
    Como referencia, el plan enterprise de pago de Anthropic indemniza al usuario en caso de infracción de copyright, pero en los planes Free/Pro/Max ocurre lo contrario: el usuario debe indemnizar a Anthropic (sección 11 de los términos)

    • El mantenedor afirma que “lo escribió de nuevo desde cero”, pero en realidad usó sin cambios los datos de prueba de chardet, y además es alguien que ha mantenido el código original durante más de 10 años
      Para que sea una verdadera implementación clean-room, debe separarse a quien conoce el original de quien hace la nueva implementación, y aquí no ocurrió así
    • También hubo discusión sobre algo parecido en este hilo
    • Hubo investigaciones sobre enmascarar aleatoriamente ciertos tokens durante el entrenamiento para evitar memorizar el texto original de forma literal
      La idea era mantener el significado mientras se eliminaban partes de palabras para evitar citas directas
    • Me pareció útil enterarme por primera vez de que son importantes las diferencias en las cláusulas de indemnización entre planes de pago
  • Este post malinterpreta lo que significa una “implementación clean-room”
    No se trata simplemente de “no mirar el código original”, sino de implementar de forma independiente a partir de la especificación de la API
    El código generado por un LLM tiene alta probabilidad de parecerse al original, así que existe un gran riesgo de que legalmente se considere una copia
    Lo que hizo el mantenedor de chardet parece una relicenciación irresponsable desde el punto de vista legal, y podría causar problemas en la cadena de suministro más adelante

    • Refutan citando una explicación legal según la cual, si dos personas crean el mismo código de forma independiente, cada una puede tener su propio copyright
    • La copia en copyright solo existe cuando hay flujo de información
      Si simplemente se llegó al mismo resultado, eso es un resultado funcional y no una infracción de copyright
    • Casos como Google vs Oracle muestran que una implementación basada en API también implica riesgo legal
      Ver este artículo de Wikipedia
    • También existe el precedente de que es legal reescribir sin mirar el original, como en el caso clean-room de Phoenix con la BIOS de IBM PC
    • Si se sigue un procedimiento completo de CRRE (clean-room reverse engineering), incluso si el código termina siendo igual 1:1, legalmente no sería una copia
      Aun así, en un juicio real es difícil defenderse cuando la similitud es alta
      El caso de chardet podría terminar como la controversia japonesa sobre copyright de tipografías: aunque no haya una infracción sustancial, igual podría llevar a detener la distribución
  • “El código LGPL sigue siendo LGPL”
    A menos que todos los autores originales den su consentimiento explícito, no es posible cambiar la licencia
    El hecho de que una IA transforme el código no hace desaparecer el copyright
    Si así fuera, se vendría abajo toda la industria del copyright en EE. UU.

    • Legalmente no existe una propiedad especial llamada “código LGPL”; lo central es si se permite o no el acto de copiar
      Que alguien que creó una obra derivada sin permiso vuelva a dar permiso es un tema complicado
    • Los fallos de la SCOTUS, más bien, fortalecen los derechos del autor original al considerar que a los resultados hechos por IA les falta originalidad creativa
    • Si fuera una reescritura clean-room totalmente basada en IA, quizá en la práctica podría verse como dominio público, pero los casos reales así son raros
  • Con la IA generativa, el sistema de copyright quedó desfasado
    Las leyes del pasado asumían modelos de propósito único, pero ahora aparecieron modelos que pueden competir con cualquier fuente
    La estrategia de licencias de GNU también asumía la escasez del código, pero ahora generar código es tan fácil que eso pierde fuerza

    • Si a la IA se le da el código original y se le pide “vuélvelo a escribir”, eso sería una obra derivada; pero si solo se le da una descripción funcional, sería una obra nueva
      En un litigio, los logs de Claude podrían usarse como prueba
    • También hay críticas de que esto es “cambiar las reglas rompiendo la ley”
    • La premisa tradicional de que las ideas no están protegidas, pero su expresión sí, se tambalea en la era de la IA
      Ahora vivimos en una época donde generar expresiones es más fácil que desarrollar ideas
    • Otros opinan que este cambio es, al contrario, una señal positiva que debilita la estructura monopólica del copyright
    • El objetivo de GNU no era la licencia en sí, sino la libertad del usuario
      Un mundo donde cualquiera puede crear código con IA estaría, de hecho, más cerca del ideal que GNU soñaba
  • Se cuestiona la idea de que, si el código hecho por IA fuera una verdadera obra nueva, entonces podría pasar a dominio público apenas se genera
    Como no se sabe con qué datos fue entrenado el modelo, eso podría equivaler a ingeniería inversa
    Por lo tanto, se debería aplicar la licencia más restrictiva, y se sostiene que las empresas de IA deberían redistribuir ingresos a los autores originales

    • Si fuera así, aplicaría “All Rights Reserved” y no se podrían usar los resultados de IA
      De hecho, los modelos entrenados solo con datos permitidos tienen un rendimiento muy bajo
      Si todo lo generado por IA se considerara obra derivada, todos los proyectos open source quedarían contaminados
    • Salvo que la IA copie el original casi tal cual, los tribunales de EE. UU. no suelen cuestionar el copyright de los datos de entrenamiento
      Al final, si nadie que no sea humano puede reclamar propiedad, en la práctica se trataría como dominio público
    • Incluso hubo una propuesta en broma de considerar todo código generado por LLM como GPL v3
    • También apareció la opinión cínica de que la ley solo cambiará cuando se vean afectados los intereses de Disney
    • La responsabilidad legal cambiará según si la IA usó directamente el código original o si lo reescribió a través de una representación intermedia
  • Como discusión relacionada, existe otro hilo titulado “No right to relicense this project”

    • Eso parece simplemente un proyecto plagiado, mientras que en este caso de chardet el punto central es la legitimidad de una reescritura con IA
  • Se rebate la afirmación de que, si el código hecho por IA fuera dominio público, entonces la licencia MIT perdería todo sentido
    Los resultados generados por IA no son lo mismo que una simple copia, y siguen sujetos a las restricciones de licencia del original

    • Como los resultados hechos por IA legalmente no se reconocen como obras protegidas, nadie podría otorgarles una licencia
      Por ejemplo, un generador de poemas entrenado con Project Gutenberg tampoco podría reclamar copyright
    • Pero en el caso del código, todavía no hay un criterio legal claro
      Con macros, generadores de código e incluso funciones automáticas como Intellisense, el límite de qué cuenta como “generado por IA” es difuso
    • También hubo una corrección de que el término correcto no es “copywrite”, sino “copyright”
    • Otros opinan que incluso un resultado generado por IA puede recibir copyright si hubo intervención creativa humana
  • En el pasado hubo discusión sobre incluir chardet en la biblioteca estándar de Python, pero
    se considera que esa posibilidad desapareció por esta controversia sobre el cambio de licencia
    Ver la discusión relacionada en este issue y los comentarios del mantenedor aquí y aquí

  • Este tipo de relicenciación con IA podría significar el fin del open source, especialmente del copyleft
    Si las licencias ya no pueden cumplir una función de protección, los desarrolladores volverán al desarrollo cerrado

    • Yo por eso también dejé por completo de publicar open source
      Los modelos más recientes ya pueden incluso hacer ingeniería inversa de WebAssembly, y se siente casi como la teoría del bosque oscuro
    • Esto no aplica solo al open source, sino a todos los proyectos con código público
    • El objetivo de la GPL no es “bloquear usos no deseados”, sino exigir la divulgación del código fuente cuando se modifica
      Si una reescritura con IA es GPL, entonces también tendría que publicarse
    • También hubo una respuesta de que cerrar el “software libre” contradice desde el inicio la filosofía de la libertad
  • Se coincide con la conclusión de que, si “se puede cambiar una licencia con una reescritura por IA, entonces se derrumba todo el copyright
    Porque podría aplicarse a películas, música, novelas y cualquier otra obra creativa
    Al final, es poco probable que los tribunales reconozcan este tipo de intentos como una evasión válida del copyright,
    y ojalá el proyecto chardet no termine siendo un sujeto de prueba ante una enorme ola legal