Los modelos de lenguaje grandes reducen el intercambio de conocimiento público en plataformas de preguntas y respuestas en línea
(academic.oup.com)Resumen
-
Impacto de los modelos de lenguaje grandes (LLM)
Los modelos de lenguaje grandes (LLM) tienen el potencial de sustituir datos generados por humanos y recursos de conocimiento. Sin embargo, esa sustitución puede provocar una disminución de los datos de entrenamiento necesarios para desarrollar modelos futuros. Este estudio documenta que, con el lanzamiento de ChatGPT, la actividad en Stack Overflow disminuyó. -
Impacto de ChatGPT
Dentro de los 6 meses posteriores al lanzamiento de ChatGPT, la actividad en Stack Overflow cayó un 25% en comparación con plataformas similares de Rusia y China y con foros de matemáticas. Esto se interpreta como un límite inferior del verdadero impacto de ChatGPT sobre Stack Overflow. La caída es mayor en publicaciones relacionadas con los lenguajes de programación más utilizados. -
Efecto de sustitución de los LLM
Los LLM están sustituyendo no solo contenido redundante o de baja calidad, sino también contenido de alta calidad. Los usuarios de ChatGPT tienen menos probabilidades de publicar en Stack Overflow y no visitan la plataforma con regularidad. Esto sugiere que la rápida adopción de los LLM podría reducir la producción de datos públicos necesarios para su entrenamiento, con consecuencias importantes. -
Impacto por lenguaje de programación
El impacto de ChatGPT es mayor en lenguajes ampliamente usados como Python y Javascript. En ciertos lenguajes, como CUDA, las publicaciones aumentaron después del lanzamiento de ChatGPT. Esto muestra un creciente interés por el software relacionado con la IA.
Resumen de GN⁺
- Este estudio destaca el impacto negativo que la rápida adopción de la IA puede tener sobre la producción de datos públicos al analizar cómo modelos de lenguaje grandes como ChatGPT afectan a las plataformas de preguntas y respuestas en línea.
- A medida que aumenta el uso de ChatGPT, disminuye la actividad en plataformas como Stack Overflow, y esto podría afectar la calidad de los datos de entrenamiento para futuros modelos de IA.
- Estos cambios podrían tener implicaciones importantes para la economía digital y la forma de acceder a la información, lo que genera preocupación sobre la sostenibilidad del ecosistema de IA.
- Otros proyectos con funciones similares incluyen los repositorios relacionados con lenguajes de programación de GitHub.
1 comentarios
Opiniones en Hacker News
Los LLM tienen el problema de que no generan información nueva, sino que recombinan la existente. Su rendimiento es deficiente cuando faltan ejemplos de código
Se pone en duda la afirmación de que los LLM están reduciendo el intercambio de conocimiento público
Las preguntas sobre proyectos de código abierto se están trasladando a GitHub y Discord
La razón por la que disminuyen las contribuciones gratuitas a Stack Overflow son los contratos de la API de OpenAI y las publicaciones de blog relacionadas con IA
Cuando se alcance la AGI, los LLM dirán "este chat fue marcado como duplicado"
Los LLM pueden estrechar el alcance del conocimiento y del discurso
Si disminuyen las interacciones técnicas, eso también podría afectar las interacciones en el mundo real
Los LLM aprenden de las plataformas de preguntas y respuestas en línea, pero si la gente deja de preguntar y responder, la fuente de conocimiento podría contaminarse con datos inexactos generados por los propios LLM
Podrían hacer falta agentes que contribuyan automáticamente en Stack Overflow y den upvote automáticamente a las soluciones