- Según el acuerdo entre Stack Overflow y OpenAI, todas las preguntas y respuestas de Stack Overflow se usarán para entrenar modelos de IA generativa
- Esto se hará sin la atribución de autor requerida bajo la licencia CC-BY-SA
- La licencia CC-BY-SA también exige que las obras derivadas se compartan bajo la misma licencia
- Por eso pedí la eliminación de mis datos de Stack Overflow y cerré mi cuenta
- Tomé la misma medida en Reddit
- Porque los datos a cuya creación contribuí quedarían atados a los LLM y luego me los venderían de vuelta
- Stack Overflow alienó de golpe a la comunidad, que era una fuente clave de su ventaja competitiva
- Antes, se cumplía un contrato psicológico: ayudábamos cuando podíamos y esperábamos que otros ayudaran en el futuro
- Ahora ya no es intercambio, sino
#enshittification
- Ahora los programadores, igual que los artistas y redactores publicitarios, vieron cómo su trabajo fue arrastrado a la creación de soluciones de IA generativa
- Si OpenAI crea un LLM que genere código, como GitHub Copilot, queda la duda de dónde se podrá obtener ayuda para los errores introducidos por el modelo de IA generado
- Según un informe reciente de GitClear, estas herramientas causan una "presión a la baja sobre la calidad del código"
- Este es otro caso de
#enshittification y una lección importante para quienes trabajan en DevRel
- Si la comunidad es la fuente de la ventaja competitiva, no debes hacerla enojar
14 comentarios
enshittificationparece ser un neologismo.<¿Deberíamos tratar de forma distinta a los humanos y a la IA?>
Imaginemos que una persona, Juan Pérez, navega por internet, incluyendo Stack Overflow. Lee varios textos y adquiere distintos conocimientos sobre un tema específico. Juan tiene la costumbre de volver a generalizar y organizar de forma fácil de entender lo que aprendió, y escribirlo en un blog externo. En ese caso, no tiene relación con la licencia CC. Tampoco existe obligación de atribución. Porque no es una cita, sino algo aprendido.
La IA aprende con redes neuronales, igual que una persona. No habla copiando literalmente múltiples fuentes. Como un humano, analiza el conocimiento a su manera, forma sus propias ideas y luego las reorganiza para expresarlas.
De hecho, es más difícil limitar la libertad de la IA y hacer que "cite" literalmente el lenguaje de otros. Usar RAG para esto es fácil, pero entrenarla para citar es más difícil.
Sin embargo, hay casos en los que, aunque no se le diga a la IA "no expreses tus propias ideas y cita textualmente los escritos (o código) de otros", termina reproduciendo palabras ajenas como si las copiara. Esto ocurre cuando la fuente en cuestión es extremadamente famosa. Por ejemplo, Shakespeare o frases célebres de películas son tan conocidos que los reproduce tal cual. Los humanos también memorizan literalmente este tipo de contenidos famosos y repetidamente expuestos, y con la IA pasa lo mismo. En estos casos, al igual que un humano, la IA normalmente también dice por sí sola la fuente.
En conclusión, es dudoso que realmente se pueda exigir una licencia CC y derechos de autor sobre contenidos expresados a partir del aprendizaje. Ya en el campo de la "inferencia" y no del "aprendizaje" (usar una IA cuyo entrenamiento ya terminó), por razones como las anteriores, se está volviendo una tendencia global casi no reconocer los derechos de autor de la fuente original.
Gracias por el buen comentario.
El desarrollador Hong Gildong quizá "aprenda" de una respuesta vista en SO y escriba una entrada en su blog, pero si el estudiante de posgrado Hong Gildong "citó" aunque sea un poco el artículo de otra persona, dejará la fuente. Si la conversación que estamos teniendo se sitúa en el contexto del mundo de la programación y no de la filosofía o de los inventos, entonces ¿qué es aprendizaje y qué es cita?
Por lo general, dejar la atribución tiene excepciones.
Esta parte también podría resolverse con el tiempo, pero la controversia comenzó cuando Copilot tomó tal cual el código de
fast invert sqrtde Quake (https://news.ycombinator.com/item?id=27710287); como ese código es muy conocido, se dieron cuenta, pero nadie sabe cuánto código supuestamente "generado" ha sido en realidad copiado y pegado de esa manera.Qué perspectiva tan interesante. Me sirvió mucho como referencia.
Es una perspectiva interesante.
Visto desde una perspectiva coreana, se siente como "un café comunitario entregado a operadores comerciales", y también como "de todos modos es una obra derivada, ¿qué importa?".
Pero en mi caso, no me agrada la sensación de que mis fotos publicadas en redes sociales se usen con fines comerciales.
> Analiza el conocimiento a su manera, establece sus propias ideas y las reorganiza para expresarlas, como lo haría un ser humano.
Parece que estás sosteniendo que los LLM tienen valores e ideas propias; ¿esa es realmente tu intención? No afecta la conclusión, pero no me parece que sea una base adecuada para afirmar que no debería aplicarse el copyright al razonamiento.
Creo que el proceso de tokenizar cada palabra y luego colocar y organizar correctamente esa información de embeddings en el espacio latente, visto de forma abstracta, puede compararse con los valores y el pensamiento.
Sobre la ciberización total del cerebro.
Esto me hace recordar la frase de alguien: "Solo se preservarán los cerebros valiosos."
¿De verdad del lado de SO lo borrarán de forma honesta? ¿O solo pondrán la marca de
Deletedy después anunciarán que "se usó para el entrenamiento debido a un error técnico"?> Además, desde el principio, como en EE. UU., a diferencia de Corea o Europa, la controversia sobre el "derecho al olvido" no puede resolverse...
No tengo mucho contexto sobre este tema, así que busqué un poco por encima. ¿Será quizá porque la libertad de expresión y el derecho al olvido entran en conflicto? Y como todavía no hay consenso, tampoco se ha legislado al respecto.
Vaya, de verdad esto sí podría pasar.
Stack Overflow y OpenAI cierran una alianza
Usuarios de Stack Overflow eliminan respuestas en cadena tras la alianza con OpenAI