Los modelos de lenguaje grandes reducen el intercambio de conocimiento público en plataformas de preguntas y respuestas en línea

(academic.oup.com)

2 puntos por GN⁺ 2024-10-14 | 1 comentarios | Compartir por WhatsApp

Resumen

Impacto de los modelos de lenguaje grandes (LLM)
Los modelos de lenguaje grandes (LLM) tienen el potencial de sustituir datos generados por humanos y recursos de conocimiento. Sin embargo, esa sustitución puede provocar una disminución de los datos de entrenamiento necesarios para desarrollar modelos futuros. Este estudio documenta que, con el lanzamiento de ChatGPT, la actividad en Stack Overflow disminuyó.
Impacto de ChatGPT
Dentro de los 6 meses posteriores al lanzamiento de ChatGPT, la actividad en Stack Overflow cayó un 25% en comparación con plataformas similares de Rusia y China y con foros de matemáticas. Esto se interpreta como un límite inferior del verdadero impacto de ChatGPT sobre Stack Overflow. La caída es mayor en publicaciones relacionadas con los lenguajes de programación más utilizados.
Efecto de sustitución de los LLM
Los LLM están sustituyendo no solo contenido redundante o de baja calidad, sino también contenido de alta calidad. Los usuarios de ChatGPT tienen menos probabilidades de publicar en Stack Overflow y no visitan la plataforma con regularidad. Esto sugiere que la rápida adopción de los LLM podría reducir la producción de datos públicos necesarios para su entrenamiento, con consecuencias importantes.
Impacto por lenguaje de programación
El impacto de ChatGPT es mayor en lenguajes ampliamente usados como Python y Javascript. En ciertos lenguajes, como CUDA, las publicaciones aumentaron después del lanzamiento de ChatGPT. Esto muestra un creciente interés por el software relacionado con la IA.

Resumen de GN⁺

Este estudio destaca el impacto negativo que la rápida adopción de la IA puede tener sobre la producción de datos públicos al analizar cómo modelos de lenguaje grandes como ChatGPT afectan a las plataformas de preguntas y respuestas en línea.
A medida que aumenta el uso de ChatGPT, disminuye la actividad en plataformas como Stack Overflow, y esto podría afectar la calidad de los datos de entrenamiento para futuros modelos de IA.
Estos cambios podrían tener implicaciones importantes para la economía digital y la forma de acceder a la información, lo que genera preocupación sobre la sostenibilidad del ecosistema de IA.
Otros proyectos con funciones similares incluyen los repositorios relacionados con lenguajes de programación de GitHub.

1 comentarios

GN⁺ 2024-10-14

Opiniones en Hacker News

Al final, el problema es en qué se va a basar un LLM. Como no crea información nueva, sino que repite y combina información existente, su rendimiento cae mucho en código para el que no hay suficientes muestras públicas o respuestas en Stack Overflow/Reddit.
- Como referencia, GPT o1 me ayudó a resolver un caso de uso bastante complejo de epub.js, una biblioteca open source con documentación poco clara y pocos ejemplos públicos.
  Hubo que intercambiar varios mensajes para llegar a una solución que funcionara, pero al final lo logró, y me dejó con la duda de si la IA encontró y digirió bien material oscuro de internet, o si simplemente entendió la documentación difícil mejor que yo. Si es lo segundo, quizá la necesidad de muestras públicas podría reducirse.
- Podría haber un efecto secundario interesante: que, como los LLM no las conocen, la gente deje de crear a ciegas nuevos lenguajes de programación y frameworks.
  Ya nos estamos inclinando hacia tecnologías que los LLM manejan bien, porque la ventaja de dejar que un LLM resuelva el 90% del problema supera los beneficios de un lenguaje o framework apenas mejor. Detesto bastante Python como lenguaje, pero es difícil negar que los LLM son mucho mejores con Python que con muchos otros lenguajes.
- A diferencia de la idea de que “no crea información nueva”, la mayor parte del intercambio de conocimiento en plataformas de preguntas y respuestas en línea no es una actividad creativa. Salvo los propios desarrolladores del sistema, casi todos preguntan una y otra vez por los mismos problemas que enfrentan, y en buena medida eso reemplaza a las plataformas de búsqueda.
- Lo que un LLM puede tomar como base es la documentación oficial.
  Me invento la cifra, pero se puede defender: el 90% de la información de Stack Overflow es algo repetido de algún manual. El problema es que suele ser difícil encontrar la información deseada dentro de la documentación relevante y, aun si se encuentra, muchas veces es difícil de leer; los LLM son muy buenos leyendo y entendiendo documentación.
- Los LLM van y vienen torpemente entre la forma antigua y la nueva, y a medida que crece el código espagueti de LLM, dejan de poder agregar funcionalidades con precisión sin romper la lógica existente.
  Las demos técnicas que crean una app completa al instante con uno o dos prompts son endebles. Si no sabes qué estás haciendo, mientras sigues agregando funciones terminará cambiando constantemente la forma de llamar APIs, la gestión de estado y la biblioteca CSS. Por ejemplo, en un archivo con 3 funciones nativas fetch, de pronto propone instalar y usar axios sin motivo.
  También puede borrar partes como {/* rest of your functions here*}.
  Después de un tiempo, solo se puede usar con seguridad para tareas tediosas como bucles o switch, así que los empleos de desarrollador parecen estar a salvo por ahora.
El paper dice que los LLM están reduciendo el intercambio de conocimiento público, y que el efecto no se limita simplemente a reemplazar contenido duplicado, de baja calidad o de nivel principiante, pero el argumento es débil y el efecto no es tan sensacionalista como el título.
Primero, para la prueba propuesta de que los LLM reemplazan publicaciones de baja calidad, solo muestran la Figura 3 y no presentan resultados de regresión. En cambio, sí reportan una prueba basada en una clasificación arbitraria de experiencia de usuario, como considerar “experimentado” a quien publicó 10 veces. Me pregunto por qué omitieron la prueba por calidad de publicación y muestran, en cambio, los resultados de esos buckets arbitrarios de “experiencia”.
Segundo, la propia Figura 3 muestra cambios de tendencia en preguntas buenas y neutrales. Las preguntas buenas venían con una tendencia a la baja y luego se aplanaron; las neutrales pasaron de una tendencia al alza a una plana. Las malas siguen disminuyendo sin un cambio de tendencia visible. Esto más bien sugiere la conclusión contraria: que los LLM están reemplazando contenido de baja calidad.
La conclusión necesitaba una formulación más fuerte, y la investigación no recompensa bien los resultados meticulosos pero poco sorprendentes. Por eso da la impresión de que terminaron con un título sensacionalista y algunos resultados que parecen omitidos.
- No es exactamente lo que trata este artículo, pero hace un tiempo alguien en HN describió bien un fenómeno parecido. Internet se está balcanizando. No es un concepto nuevo, pero encaja especialmente bien si nos enfocamos en las comunidades en línea.
  La gente ya no comparte información libremente en foros públicos como antes; se repliega a servicios como Discord, cava fosos y levanta puentes levadizos. Es difícil culparla. Muchos foros y redes sociales adoptan cada vez más diseños y monetización hostiles, y la IA/los LLM rastrean todo, absorben todo y luego lo ponen detrás de muros de pago, arruinando la posibilidad de que las fuentes originales se encuentren en buscadores. Los algoritmos que buscan generar participación alimentan la hostilidad y la polémica. Hoy HN es una rara excepción.
  Al final, personas con intereses o conocimientos específicos se reúnen en comunidades privadas y hablan solo entre ellas, lo que vuelve el entorno más difícil para quienes quieren entrar.
- Si los LLM ayudan lo bastante bien a los programadores como para que la gente pase menos tiempo en Stack Overflow y, en cambio, suba más código open source, quizá eso sea más valioso para todos.
Es natural que la gente contribuya menos gratis a Stack Overflow. Stack Overflow está vendiendo a sus contribuidores con el contrato de la API de OpenAI y un montón de posts de blog exagerados sobre “IA”.
- No creo que esa sea la razón principal. A la gente no le importa demasiado si alguien vende lo que creó en una plataforma. Las grandes redes sociales como Facebook lo han hecho durante años y aun así se siguen usando. La gente viene a Stack Overflow para obtener respuestas; ¿por qué le importaría que más adelante alguien entrene un LLM con esas respuestas?
- Esto parece más una disminución de preguntas que una disminución de respuestas.
- El período de análisis llega hasta mayo de 2023, así que es un año anterior al contrato con OpenAI. Ese contrato no tiene relación con los resultados del paper.
- Esto se suma a una tendencia de largo plazo que ya venía desde alrededor de 2014. Han crecido continuamente las quejas sobre la calidad y el carácter de las preguntas: preguntas que no siguen las guías del sitio y muestran poco esfuerzo por entender cómo debería funcionar el sitio.
Personalmente, muchas preguntas relacionadas con proyectos open source se han movido a GitHub y Discord, así que además de los LLM hay un cambio de plataforma.
Para problemas de programación más generales suelo empezar con Gemini. Muchas veces responde directamente en los términos de mi problema, sin que tenga que recorrer varias páginas y armar la solución, o aunque se equivoque, me da mejores pistas para empezar a buscar. Me ahorra hacer clic una y otra vez en publicaciones de Stack Overflow con títulos parecidos pero diferencias importantes en el contenido.
- 2022: Discord es malo porque no está indexado por los motores de búsqueda.
  2024: Discord es bueno porque no está indexado por los generadores de basura de IA.
- Que las preguntas de proyectos open source se hayan movido a GitHub y Discord coincide totalmente con mi experiencia. Además, fue bueno poder hablar directamente con los maintainers.
Estoy suscrito a varios subreddits técnicos y, en los últimos 2 años, he visto muchas veces la misma pregunta repartida en varios subreddits. Suelen ser respuestas genéricas de una sola línea, con cuentas recién creadas o donde todas las respuestas parecen generadas automáticamente.
Los considero cuentas bot para entrenamiento de IA, y antes de escribir una explicación técnica larga primero verifico si realmente pregunta una persona; solo entonces respondo.
- De todos modos, están ayudando al entrenamiento.
  Al final, el éxito de la “cultura del regalo” a través de la WWW, de “el conocimiento debe ser libre”, del F/OSS, etc., probablemente hará que toda la ética hacker al estilo Stallman quede mal parada.
  Todos trabajamos para IBM^H^H^HOpenAI, pero ahora no tenemos algo como la GPL que nos respalde.
Si sienten déjà vu, esto es algo que los críticos ya habían destacado mucho en julio de 2023 con “Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow”: https://arxiv.org/abs/2307.07367
También se trató en HN: https://news.ycombinator.com/item?id=36763718
- También vale la pena ver la discusión en el propio meta de Stack Overflow sobre esto: https://meta.stackoverflow.com/questions/425651
  Relacionado con eso, también están https://meta.stackoverflow.com/questions/425635 y https://meta.stackoverflow.com/questions/422392
Al final, los modelos de lenguaje a gran escala serán el fin del código abierto. Solo hay que aceptarlo.
Los modelos de lenguaje a gran escala se usan para agregar e interpolar propiedad intelectual. En ese proceso no hay reconocimiento de autoría ni de linaje, ni atribución de fuente ni citas. En la práctica, la propiedad intelectual usada para entrenar el modelo se convierte en un bien común anónimo.
Se debilitan las recompensas sociales que suelen motivar el trabajo de código abierto, como el crédito y el respeto. Así terminará.
- ¿Por qué no escribir más código abierto con LLM?
  El costo de contribuir baja drásticamente. Por ejemplo, con 100 dólares se obtienen 200 millones de tokens de GPT-3.5, lo que equivale a usar 10.000 tokens para desarrollar cada línea de un proyecto de 20.000 líneas.
  Es un proyecto mediano que se puede hacer con una sola donación y una tarde gestionando un framework de workflow.
- No entiendo este punto de vista.
  Si los LLM son el fin del código abierto, sería precisamente porque, como se dijo, agregan e interpolan propiedad intelectual y convierten la propiedad intelectual entrenada, sin autoría, linaje ni atribución de fuentes, en un bien común anónimo.
  Pero si eso es cierto y se sigue permitiendo, toda propiedad intelectual que dependa del copyright está amenazada de la misma manera. No es un problema exclusivo del código abierto. Si la idea es que las obras que no son de código abierto están protegidas manteniendo en secreto el “código fuente” o su equivalente, no veo cómo se podría ganar dinero con una película taquillera que no se le puede mostrar a nadie, o con una novela que nadie debería poder leer.
  El crédito y el respeto no son las únicas motivaciones para trabajar en código abierto, y dudo que sean las más comunes. Esas recompensas se parecen más a la imagen que quieren pintar quienes intentan convertir el código abierto en una red social o gamificarlo.
  Tampoco está claro por qué esas cosas tendrían que desaparecer. La invención de la cámara no eliminó el placer artístico de los retratistas. Las motivaciones puramente monetarias pueden verse afectadas, pero eso está lejos de ser una motivación especialmente propia del código abierto.
- No es así; solo hará que el código abierto que ya es bastante de nicho se vuelva todavía más de nicho.
Mantener como jardines cerrados los corpus de texto generados por humanos que se volvieron valiosos para el entrenamiento de LLM es una batalla perdida. Es muy probable que el caballo ya se haya escapado del establo
De todos modos, creo que es un problema temporal. Los LLM son una tecnología de transición. Algún día ya no hará falta entrenarlos con todo Reddit y todo lo que se haya escrito hasta ahora. Estos modelos estadísticos tienen límites claros, y los humanos no aprenden así. A lo largo de una vida quizá hayamos leído cientos, tal vez miles de libros, pero no un millón, y tampoco hace falta
Lo interesante es que, aunque este asunto claramente es robo, se lo trata como un robo a los sitios o empresas que “poseen” los datos, no como un robo a los usuarios que los crearon. Los sitios de contenido generado por usuarios están destinados a fracasar. Porque sus incentivos no están alineados con los de los usuarios, y la búsqueda interminable de ganancias inevitablemente termina expulsándolos
Otro problema es cuánto hay que consumir de una propiedad intelectual para que sea robo. Si un LLM vio todas las películas jamás hechas, probablemente sería robo. Pero ¿a partir de cuántas películas ya es demasiado? Apocalypse Now está basada libremente en Heart of Darkness, o inspirada en ella, pero no se puede decir que un humano “robó” por haber leído Heart of Darkness
Como se suele decir, todo arte es derivado
- Estoy de acuerdo, pero quizá estemos privilegiando demasiado la forma en que funciona la inteligencia humana. Un LLM es un erudito que escupe contenido a velocidad sobrehumana
  Puede crear poesía y literatura, y también generar respuestas de código, de física y de reparación de autos de forma similar. Hoy hay muy pocos humanos con esa capacidad
  Así que estoy de acuerdo en que los LLM son transitorios, pero en un sentido parecido a la transición del cerebro desde los ganglios basales hasta la neocorteza. Es muy probable que los LLM formen parte, junto con otros elementos, del cerebro de una IA general del futuro, pero no está claro que necesariamente vaya a evolucionar para funcionar como el cerebro humano
- A veces los foros en línea son el único lugar donde se pueden encontrar soluciones a situaciones de nicho y casos límite. Son trucos que habría sido muy difícil descubrir por cuenta propia
  Un LLM puede entrenarse con la documentación oficial de una herramienta o biblioteca, pero no puede experimentar por sí mismo con los problemas raros que son tan comunes en la industria tecnológica para encontrar una solución. Si la gente deja de compartir esas soluciones entre sí, puede convertirse en un gran problema
- Últimamente pienso mucho en eso de que “los humanos no aprenden así”
  Por ejemplo, me pregunto si se podría entrenar una IA usando aprendizaje por refuerzo y redes generativas adversarias para que realice tareas de TI a partir de un conjunto de documentos, y que mida la aptitud no solo por el éxito directo en la tarea, sino también por su capacidad de producir documentación nueva y mejor depurada que permita que una copia de sí misma, sin ningún contexto, también haga bien esa tarea
- Pensando en libros como “Finite and Infinite Games”, creo que solo con haber leído en otros campos uno puede “reconstruir” en cierta medida el conocimiento y el argumento central de ese libro
  Escuchar a distintos gurús espirituales expresar lo mismo con palabras diferentes se parece a ver cómo los mismos trozos de vidrio de colores en un caleidoscopio se reacomodan para formar un patrón nuevo
- Solo es verdad a medias. El razonamiento y la comprensión real quizá no sean el punto fuerte de los LLM, pero es interesante que puedan producir buena información a partir de todo lo que leyeron. Yo solo leí una fracción ínfima de eso. Podrán ser tontos, pero tienen buena memoria
  Por eso, si las IA del futuro también se usan como ChatGPT hoy, para que la gente promedio pida consejo sobre casi cualquier cosa, creo que al final tendrán que leerlo todo
La gente no publica en lugares que no visita
La razón por la que no se visita Stack Overflow para consultar recursos conocidos, especialmente sobre lenguajes populares, es que perplexity.ai, ChatGPT, Claude y otros no solo responden mejor las preguntas que leer páginas de Stack Overflow, sino que además permiten copiar y pegar más rápido una respuesta, sea correcta o incorrecta
Si no estás en Stack Overflow para preguntar, tampoco vas a responder ahí. No hace falta ninguna otra razón para explicar lo observado
Por supuesto, esto significa que, si Stack Overflow y otros foros de preguntas y respuestas quieren competir, deben llevar la usabilidad de las respuestas —es decir, la facilidad para integrarlas al flujo de trabajo— al primer lugar de sus prioridades
- Competir con la IA es explícitamente un no objetivo para la comunidad de Stack Overflow y para Codidact, el otro foro de preguntas y respuestas que uso
  La IA no “responde mejor las preguntas”. Solo elimina el paso intermedio de interpretar la pregunta y emparejarla con palabras que tienen forma de respuesta. Alucina con frecuencia y prácticamente no hace ninguna validación de si lo que uno intenta hacer tiene sentido
  La principal razón por la que supera a los foros de preguntas y respuestas en velocidad y comodidad es que no le importa en absoluto si la pregunta y la respuesta podrán ayudar a otras personas después. No considera requisitos como que sean encontrables por un motor de búsqueda, que otra persona pueda entender que es la misma pregunta y que estén enfocadas en un único problema
  Para empezar, no fue diseñada para eso, y tampoco le conviene. Si la siguiente persona pregunta, simplemente generará de nuevo el mismo contenido de respuesta de otra forma de baja calidad. A diferencia de los expertos humanos, la IA no se cansa de hacer ese trabajo

Los modelos de lenguaje grandes reducen el intercambio de conocimiento público en plataformas de preguntas y respuestas en línea

Resumen

Resumen de GN⁺

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News