F/OSS Histomat: no debemos rechazar los LLM, sino recuperarlos

(writings.hongminhee.org)

14 puntos por hongminhee 2026-01-17 | 1 comentarios | Compartir por WhatsApp

El argumento de que, en lugar de bloquear el uso de F/OSS para entrenar LLM, hay que liberar los modelos resultantes

El texto reciente 〈Sobre FLOSS y el entrenamiento de LLM〉 (On FLOSS and training LLMs) expresa bien la frustración de la comunidad F/OSS: la grosería de las empresas de IA, los límites de la ley, etc.
Pero las estrategias de retirada que propone el autor, como bloquear crawlers, salir de GitHub y excluir a quienes usan herramientas de IA, dejan pasar una oportunidad importante

El problema no es el entrenamiento, sino el cercamiento (`enclosure`)

El verdadero problema no es que los LLM se entrenen con nuestro código, sino que el resultado se privatiza como modelo propietario
No es un problema nuevo: es justamente el problema contra el que F/OSS ha venido luchando todo este tiempo
- La privatización de los bienes comunes
- El monopolio del conocimiento colectivo
- El flujo unidireccional de valor desde la mayoría hacia una minoría

El patrón histórico de la GPL: nueva tecnología → nueva explotación → nueva licencia

Las licencias F/OSS han seguido evolucionando para adaptarse a los cambios tecnológicos:

GPLv2 (1991) — impidió distribuir solo binarios → obligación de publicar el código fuente
GPLv3 (2007) — impidió la tivoización (tivoization, bloqueo por hardware) → exigió también la información de instalación
AGPL (2007) — cerró la laguna del SaaS → considerar la provisión por red como distribución

¿Y ahora? Apareció una laguna en el entrenamiento:

Las empresas usan código F/OSS como datos de entrenamiento para modelos propietarios
Pero no tienen obligación de publicar el modelo ni de revelar el origen del entrenamiento
Es una explotación de manual: extracción de valor sin reciprocidad

La solución: copyleft para entrenamiento, como GPLv4 o TGPL (Training GPL)

Condiciones propuestas:

El entrenamiento se permite explícitamente (en línea con los principios de libertad de F/OSS)
Pero el modelo resultante debe liberarse: publicar los pesos bajo una licencia copyleft compatible
Obligación de documentar los datos de entrenamiento
Los modelos afinados también heredan la obligación
El uso por red (ofrecer una API) también se considera distribución

→ Así como la GPLv3 exige el código fuente para los binarios, el copyleft de entrenamiento exigiría los pesos del modelo para los sistemas entrenados

Por qué esto importa más que retirarse

Problemas de la estrategia de retirada:

Cede el campo de batalla — OpenAI/Anthropic ya raspó todo lo que necesitaba. La retirada solo termina bloqueando a LLM de código abierto como Llama o Mistral
Diagnostica mal el problema — el problema no es la tecnología en sí, sino quién la usa y cómo la usa
Divide a la comunidad — ¿Excluir a quienes usan “herramientas poco éticas”? ¿Hasta dónde cuenta como uso? Las pruebas de pureza solo sirven para fracturar los movimientos
Abandona la estrategia central de F/OSS — la genialidad de la GPL fue no impedir el uso, sino exigir la transmisión de la libertad. La retirada es la filosofía opuesta

Diferencias en la lectura de la realidad

antirez (creador de Redis): los LLM son irreversibles → hay que adaptarse y confiar en la competencia del mercado
Autor del texto original: resistir todavía tiene sentido → retirarse y bloquear el acceso
Este texto: los LLM son irreversibles → pero la clave es quién los posee

La pregunta no es si vamos a usar LLM, sino:

¿Quién es dueño de los modelos?
¿Quién se beneficia de los bienes comunes con los que se entrenaron?
¿El resultado de las contribuciones de millones de desarrolladores F/OSS debe acabar en un monopolio?

→ La cuestión es si el fruto del trabajo colectivo permanece en lo colectivo o se convierte en propiedad privada

Este es un momento histórico de oportunidad

Hoy está en marcha la conversación sobre las normas que van a regir el entrenamiento de IA y la publicación de modelos
El debate comunitario está al rojo vivo
Ahora que aumentan los modelos de IA de código abierto, todavía no está decidido qué licencias se les aplicarán

Si los desarrolladores F/OSS se retiran: en 5 años, las empresas y los tribunales afines a ellas fijarán todas las normas → se consolidará la laguna del entrenamiento → la IA de código abierto quedará en desventaja permanente

Si participamos: impulsar el copyleft de entrenamiento → publicar código con licencias que exijan liberar modelos → construir nosotros el futuro

Conclusión en una frase

No hay que bloquear a los crawlers, sino cambiar las reglas del scraping. No hay que rechazar los LLM, sino recuperarlos.

→ Desde una perspectiva materialista de la historia: una nueva fuerza productiva (los LLM) exige nuevas relaciones de producción (copyleft de entrenamiento)
→ Igual que Linus publicó Linux bajo GPL no para decir “las empresas no pueden usarlo”, sino “cualquiera puede usarlo, pero si lo mejoras, compártelo”
→ Para un futuro en el que, así como el código es de todos, también lo sean los modelos de IA entrenados con él

1 comentarios

roxie 2026-01-23

Estoy de acuerdo con el contenido del artículo. Sin embargo, si me preguntan desde dónde, qué y cuánto debemos luchar, me siento perdido.