F/OSS Histomat: no debemos rechazar los LLM, sino recuperarlos
(writings.hongminhee.org)El argumento de que, en lugar de bloquear el uso de F/OSS para entrenar LLM, hay que liberar los modelos resultantes
- El texto reciente 〈Sobre FLOSS y el entrenamiento de LLM〉 (On FLOSS and training LLMs) expresa bien la frustración de la comunidad F/OSS: la grosería de las empresas de IA, los límites de la ley, etc.
- Pero las estrategias de retirada que propone el autor, como bloquear crawlers, salir de GitHub y excluir a quienes usan herramientas de IA, dejan pasar una oportunidad importante
El problema no es el entrenamiento, sino el cercamiento (enclosure)
- El verdadero problema no es que los LLM se entrenen con nuestro código, sino que el resultado se privatiza como modelo propietario
- No es un problema nuevo: es justamente el problema contra el que F/OSS ha venido luchando todo este tiempo
- La privatización de los bienes comunes
- El monopolio del conocimiento colectivo
- El flujo unidireccional de valor desde la mayoría hacia una minoría
El patrón histórico de la GPL: nueva tecnología → nueva explotación → nueva licencia
Las licencias F/OSS han seguido evolucionando para adaptarse a los cambios tecnológicos:
- GPLv2 (1991) — impidió distribuir solo binarios → obligación de publicar el código fuente
- GPLv3 (2007) — impidió la tivoización (
tivoization, bloqueo por hardware) → exigió también la información de instalación - AGPL (2007) — cerró la laguna del SaaS → considerar la provisión por red como distribución
¿Y ahora? Apareció una laguna en el entrenamiento:
- Las empresas usan código F/OSS como datos de entrenamiento para modelos propietarios
- Pero no tienen obligación de publicar el modelo ni de revelar el origen del entrenamiento
- Es una explotación de manual: extracción de valor sin reciprocidad
La solución: copyleft para entrenamiento, como GPLv4 o TGPL (Training GPL)
Condiciones propuestas:
- El entrenamiento se permite explícitamente (en línea con los principios de libertad de F/OSS)
- Pero el modelo resultante debe liberarse: publicar los pesos bajo una licencia copyleft compatible
- Obligación de documentar los datos de entrenamiento
- Los modelos afinados también heredan la obligación
- El uso por red (ofrecer una API) también se considera distribución
→ Así como la GPLv3 exige el código fuente para los binarios, el copyleft de entrenamiento exigiría los pesos del modelo para los sistemas entrenados
Por qué esto importa más que retirarse
Problemas de la estrategia de retirada:
- Cede el campo de batalla — OpenAI/Anthropic ya raspó todo lo que necesitaba. La retirada solo termina bloqueando a LLM de código abierto como Llama o Mistral
- Diagnostica mal el problema — el problema no es la tecnología en sí, sino quién la usa y cómo la usa
- Divide a la comunidad — ¿Excluir a quienes usan “herramientas poco éticas”? ¿Hasta dónde cuenta como uso? Las pruebas de pureza solo sirven para fracturar los movimientos
- Abandona la estrategia central de F/OSS — la genialidad de la GPL fue no impedir el uso, sino exigir la transmisión de la libertad. La retirada es la filosofía opuesta
Diferencias en la lectura de la realidad
- antirez (creador de Redis): los LLM son irreversibles → hay que adaptarse y confiar en la competencia del mercado
- Autor del texto original: resistir todavía tiene sentido → retirarse y bloquear el acceso
- Este texto: los LLM son irreversibles → pero la clave es quién los posee
La pregunta no es si vamos a usar LLM, sino:
- ¿Quién es dueño de los modelos?
- ¿Quién se beneficia de los bienes comunes con los que se entrenaron?
- ¿El resultado de las contribuciones de millones de desarrolladores F/OSS debe acabar en un monopolio?
→ La cuestión es si el fruto del trabajo colectivo permanece en lo colectivo o se convierte en propiedad privada
Este es un momento histórico de oportunidad
- Hoy está en marcha la conversación sobre las normas que van a regir el entrenamiento de IA y la publicación de modelos
- El debate comunitario está al rojo vivo
- Ahora que aumentan los modelos de IA de código abierto, todavía no está decidido qué licencias se les aplicarán
Si los desarrolladores F/OSS se retiran: en 5 años, las empresas y los tribunales afines a ellas fijarán todas las normas → se consolidará la laguna del entrenamiento → la IA de código abierto quedará en desventaja permanente
Si participamos: impulsar el copyleft de entrenamiento → publicar código con licencias que exijan liberar modelos → construir nosotros el futuro
Conclusión en una frase
No hay que bloquear a los crawlers, sino cambiar las reglas del scraping. No hay que rechazar los LLM, sino recuperarlos.
→ Desde una perspectiva materialista de la historia: una nueva fuerza productiva (los LLM) exige nuevas relaciones de producción (copyleft de entrenamiento)
→ Igual que Linus publicó Linux bajo GPL no para decir “las empresas no pueden usarlo”, sino “cualquiera puede usarlo, pero si lo mejoras, compártelo”
→ Para un futuro en el que, así como el código es de todos, también lo sean los modelos de IA entrenados con él
1 comentarios
Estoy de acuerdo con el contenido del artículo. Sin embargo, si me preguntan desde dónde, qué y cuánto debemos luchar, me siento perdido.