- Stack Overflow fue durante mucho tiempo el espacio de referencia para preguntas y respuestas de desarrolladores, pero tras la expansión de asistentes de IA para programar como ChatGPT, Cursor y Claude, las preguntas y el tráfico cayeron con fuerza
- El mes pasado hubo 6,866 preguntas, un nivel que bajó hasta cifras similares a las de sus inicios en 2008, y Elon Musk lo llamó una “muerte causada por los LLM”
- Aunque la participación en el foro disminuyó, los ingresos anuales rondan los 115 millones de dólares, casi el doble, y las pérdidas bajaron de 84 millones de dólares en FY2023 a 22 millones de dólares
- Su estructura de ingresos pasó de estar centrada en publicidad a soluciones empresariales y licencias de datos, y Stack Internal ya se usa en 25,000 empresas en todo el mundo
- Las preguntas de desarrolladores se están moviendo a chats privados con IA, así que se genera menos conocimiento público nuevo, pero los LLM siguen necesitando los datos de Stack Overflow, creando una dinámica circular
Los asistentes de IA redujeron el tráfico de Stack Overflow
- Stack Overflow fue durante mucho tiempo el foro de preguntas y respuestas de referencia para que los desarrolladores buscaran ayuda técnica, y durante la pandemia su influencia estuvo cerca de su punto más alto gracias a quienes buscaban información útil a largo plazo
- Con la expansión de asistentes de IA para programar como ChatGPT, Cursor, Claude, Google Gemini y Microsoft Copilot, el tráfico del sitio se desplomó
- En julio de 2023, Elon Musk describió la situación de Stack Overflow como una “muerte causada por los LLM”
- El mes pasado se publicaron 6,866 preguntas en Stack Overflow, una cifra muy parecida al volumen típico de sus primeros días tras su lanzamiento en 2008
El foro se contrajo, pero los ingresos de la empresa aguantan
- El foro de preguntas y respuestas de Stack Overflow se debilitó, pero la empresa sigue resistiendo al monetizar su enorme archivo de contenido histórico
- Después de la llegada de ChatGPT en 2022, la participación cayó con fuerza, pero los ingresos anuales de Stack Overflow casi se duplicaron hasta unos 115 millones de dólares
- Las pérdidas se redujeron de 84 millones de dólares en FY2023 a 22 millones de dólares en el ejercicio fiscal más reciente
- Fuertes recortes de costos, incluidos despidos masivos, también contribuyeron a mejorar la rentabilidad
- A diferencia de hubs de conocimiento como Chegg, que fueron golpeados por la IA generativa, Stack Overflow logró convertir el valor de su contenido histórico en nuevas fuentes de ingresos
De la publicidad a las soluciones empresariales y las licencias de datos
- Antes, Stack Overflow dependía de la publicidad en su foro activo, pero ahora su principal fuente de ingresos son las soluciones empresariales
- “Stack Internal” ofrece funciones adicionales de IA generativa basadas en millones de preguntas y respuestas acumuladas durante años
- Stack Internal ya se usa en 25,000 empresas en todo el mundo
- Al igual que Reddit, Stack Overflow también vende licencias de datos a empresas de IA
- Se presenta a Reddit como una plataforma que obtuvo más de 200 millones de dólares en 2024 mediante licencias de contenido generado por usuarios
El valor de la confianza creada por una comunidad antigua
- El nuevo nicho de Stack Overflow está en la confianza creada por su comunidad histórica y su experiencia acumulada
- El CEO Prashanth Chandrasekar considera que, a inicios de 2023, la caída en las preguntas ocurrió principalmente en consultas muy simples, mientras que las preguntas complejas siguieron llegando a Stack Overflow
- Chandrasekar cree que, si los LLM son tan buenos como los datos seleccionados por humanos con los que se entrenan, entonces Stack Overflow puede ser uno de los mejores lugares del sector tecnológico, o incluso el mejor
- Los modelos de lenguaje a gran escala quieren datos sobre problemas de programación y sus soluciones, y Stack Overflow posee un gran almacén digital lleno de ese tipo de información
La IA y el conocimiento de los desarrolladores entran en una dinámica circular
- Los datos de Stack Overflow son importantes para los LLM, pero a medida que las preguntas de desarrolladores se trasladan a ventanas de chat privadas con LLM, disminuye la cantidad de nuevas preguntas y respuestas públicas que se acumulan
- Los LLM necesitan enormes volúmenes de datos para funcionar, y los datos de Stack Overflow son un activo capaz de cubrir esa demanda
- Al mismo tiempo, los datos de Stack Overflow se están convirtiendo cada vez más en un activo envejecido
- Stack Overflow muestra un cambio circular en la industria tecnológica: la IA debilita el intercambio público de conocimiento entre desarrolladores, pero al mismo tiempo vuelve a necesitar ese conocimiento público
1 comentarios
Opiniones de Hacker News
Hasta da la impresión de que estuvo bien que desapareciera
Yo también lo usé mucho, como muchos otros, y me ayudó varias veces, pero los problemas culturales se volvieron graves y nunca se fueron
La gamificación atrajo a personas rígidas y obsesionadas con las reglas, y parece que ni siquiera se daban cuenta cuando lastimaban a otros
Entiendo la intención de querer buenas preguntas y respuestas útiles, pero eso no justifica tratar mal a alguien por haber hecho una pregunta “incorrecta”. La arrogancia y el desprecio cínico que vi ahí eran desagradables de ver
Cerrado: duplicado de la pregunta #1234 de agosto de 2011, “¿Cómo se hace algo más o menos parecido en Django 1.3?”
Los moderadores de ese sitio le quitaron por completo la diversión a interactuar. Si administras un sitio con moderadores, asegúrate de controlarlos para que no conviertan tu sitio en Stack Overflow
Desde la perspectiva de alguien que respondía seguido en la cola de “New”, la cantidad de preguntas que violaban reglas, de bajo esfuerzo o claramente duplicadas era sorprendente
Al final, el 99% de las preguntas no valían la pena para interactuar con ellas, así que dejé de responder y solo pasaba a votar por cerrarlas
Al final, creo que SO murió porque se volvió demasiado famoso y la moderación se volvió inmanejable
Antes, CUDA era una tecnología emergente que abría posibilidades interesantes para la computación científica y paralela, y en Stack Overflow había muchas preguntas interesantes sobre cómo usar CUDA. Entonces empezaron a responder, contestaron casi 700 preguntas, se convirtieron en la persona con mayor reputación en la etiqueta CUDA y fue bastante divertido
Pero a medida que CUDA maduró, casi todas las buenas preguntas ya se habían hecho y respondido, y lo que llegaba a Stack Overflow era mayormente puro residuo, así que pasaban más tiempo editando, votando negativo y cerrando que respondiendo
Como resultado, la mayoría de las preguntas sobre CUDA recibían votos negativos y eran eliminadas. Curiosamente, eso seguía pasando aunque CUDA continuaba evolucionando
Si estás pasando por dificultades en la vida y buscas ayuda en línea, de verdad es una experiencia desmoralizante
Ahora ya no solo cierran preguntas, sino que las borran por completo aunque haya información útil dentro
Una vez volví a una pregunta vieja cerrada para buscar un enlace que alguien había dejado en los comentarios, y vi que algún moderador había borrado la pregunta sin motivo, aunque sí tenía contenido real
Ahí fue cuando me harté por completo y decidí enfocarme en mi dominio y mi propio sitio web; si vuelvo a publicar algo ahí, siempre será solo en forma de enlace a mi sitio. Para que su eliminacionismo no lo pueda tocar
Stack Overflow puede que sea lo mejor como repositorio del conocimiento humano sobre programación
Pero creo que su utilidad se limita al conocimiento acumulado. Como servicio o comunidad, desde hace mucho tiempo ya era bastante mala
Para usuarios nuevos que intentaban aprender a programar, quizá era uno de los recursos más tóxicos que existían. Casi no he publicado preguntas desde 2019
Lo que un usuario promedio podía esperar era una respuesta cortante de alguien que ni siquiera leyó bien el post, o que un moderador lo eliminara porque existía una pregunta parecida, hubiera o no una respuesta satisfactoria
Llega un punto en que todas las preguntas significativas ya se hicieron. El sitio dejó de existir para ayudar con variaciones de problemas existentes y pasó a existir para recolectar problemas nuevos
También se subestima el efecto de que la industria se homogeneizara alrededor de unos cuantos frameworks. Es sugerente que el pico de Stack Overflow coincida con la época en que React iba en ascenso
Después se optimizó para el orden, y eso arruinó el sitio; en el proceso, maltrató y ahuyentó sobre todo a los usuarios nuevos
Solía publicar preguntas sencillas de matemáticas y estadística en math SE y stats SE, y recibía respuestas correctas en unas horas, a veces en minutos
Y no había ningún mecanismo para mantener y recompensar la amabilidad
Jeff Atwood pensó mucho en esto después al crear Discourse, e intentó fomentar que los miembros de la comunidad se trataran bien entre sí
El autor marcó en la gráfica COVID y el lanzamiento de ChatGPT, pero no mencionó que Stack Overflow fue adquirido en junio de 2021 por Prosus, una firma neerlandesa de capital privado
A mí me parece que ese momento encaja bastante bien con la tendencia general de caída
La venta en sí es más un síntoma que una causa
No parece que ellos hayan sido “adquiridos”, sino más bien heredados
Durante ese período, StackOverflow en sí no cambió mucho, y el cambio en los usuarios probablemente se debió a factores externos
Stack Overflow tenía muchos defectos, pero en su mejor momento fue una maravilla de internet
Sobre todo al principio, la gente perseguía karma y podías preguntar cualquier cosa y recibir alguna respuesta. No siempre era correcta, pero había una respuesta
Puede que los LLM den respuestas mucho mejores en promedio, pero siento que hay que recordar y valorar bien la parte humana que se perdió ahí
Irónicamente, StackOverflow casi mató a esos foros y al final también terminó siendo víctima de la siguiente ola
No sé si esto no es motivo de preocupación
La gente usaba Stack Overflow y en ese proceso generaba nuevo conocimiento
Si no existe ese medio de discusión, ¿cómo se puede alimentar a los modelos con conocimiento reciente y de alta calidad?
Sería algo donde los LLM publiquen soluciones a problemas que descubrieron tras mucha investigación
Lamentablemente, como los LLM están concentrados en unos pocos proveedores como OpenAI, Anthropic y Google, es posible que cada uno termine creando su propio Stack Overflow privado y cerrado
Si aprovechan ese Stack Overflow privado, sus respectivos LLM podrían evitar parte del razonamiento complejo y ahorrar tokens, tiempo y dinero
Por ejemplo, si una librería tiene un bug que requiere un workaround común, se puede aprender ese workaround a partir del código open source que lo usa
Hay entornos de aprendizaje por refuerzo, datos sintéticos, datos anotados por personas, y también datos de uso de codex/claude code/cursor
En programación, la mayor parte de la capacidad de los modelos no viene del preentrenamiento sino del postentrenamiento
También podría decirse que los LLM se han beneficiado de “robar” contenido generado por usuarios de la época anterior a los LLM
En la era de los LLM, ya no va a surgir un nuevo Stack Overflow para entrenar a los LLM del futuro
Muchas cuentas de Twitter ya se están acercando bastante a la teoría del internet muerto, donde en la práctica son LLM. Reddit también parece un gran problema. Habrá muchas cuentas farmeando karma, participando en campañas de influencia o buscando ingresos por publicidad
Al final, llegaremos al punto en que el corpus mismo con el que se entrenan los LLM estará lleno de residuos de LLM. ¿Será ese el futuro, basura autorreforzada?
El problema no es solo que SO se haya asfixiado a sí mismo, sino que incluso los principales motores de búsqueda están girando hacia respuestas de IA en vez de mostrar blogs pequeños
Que los requisitos para redactar preguntas fueran estrictos ayudaba a definir bien el problema, y muchas veces, después de escribir bien la pregunta, terminabas encontrando la solución
Pero en los últimos años, publicar una pregunta ahí se volvió una experiencia casi traumática. Incluso si hacías una pregunta totalmente legítima, había muchas probabilidades de recibir votos negativos y que la cerraran, y si la pregunta tenía el más mínimo problema, era aún peor
Pasó por completo de “publiqué una pregunta y pude responderla por mí mismo, y alguien me lo comentó” a “si publicas cualquier pregunta, todo el sitio se te viene encima para hacerla desaparecer”
Aunque suene raro, a veces encuentro una solución mejor en Stack Overflow que la forma en que insiste Claude Code
No estoy seguro de que, a largo plazo, un mundo sin SO sea mejor
Los LLM son muy buenos para escupir la solución más conocida, más que la mejor solución para un problema
Por la forma en que se muestrean tokens de la distribución de probabilidad de un LLM, la cola larga de soluciones en general desaparece
Un método que me ha servido es pedir, por ejemplo, 10 soluciones distintas para un problema y elegir una de ellas. Cuando no hay ni siquiera 10 soluciones realmente diferentes, a veces casi salen soluciones creativas
A veces la solución “mejor” era un código difícil de leer, y ver a la gente resolverlo de muchas maneras y discutir como monos furiosos ayudaba a entender mejor el problema
Claro, a veces también era realmente malo
Pero la cultura del sitio ya venía fallando desde hace bastante tiempo
Invertí mucho esfuerzo en editar preguntas y respuestas en ServerFault, que es parte de SO, pero ahora siento que ese tiempo fue desperdiciado
Durante un tiempo parecían querer vender el sitio y daba la impresión de que ya no les importaba. Dejaron que algunos editores se comportaran de forma demasiado mezquina durante demasiado tiempo, y eso se les subió a la cabeza. Ojalá pudiera recuperar ese esfuerzo
Incluso podría hacerse la broma de que el resto de internet poco más hace que diluir el espacio latente final restringido por Jon Skeet
Sabía que Stack Overflow la iba a pasar mal por la IA, pero cuesta creer que la cantidad mensual de preguntas haya caído de 200 mil antes de los chatbots a más o menos mil
Claro, yo tampoco he ido para nada en los últimos 4 años
https://data.stackexchange.com/stackoverflow/revision/193252...
Ahora literalmente no hay razón para usar Stack Overflow. Los LLM, aunque tienen desventajas, son mucho mejores como forma de obtener respuestas a problemas de programación
Era algo como: “Gracias por esta publicación, pero aquí la elección de palabras es incorrecta, y aunque hay otras 13 respuestas que contienen algunas de las mismas palabras, como en realidad no responden a la pregunta, fueron eliminadas. Y además, si esta publicación se queda, mis visitas a mi respuesta desacertada bajan”
No hay una sola razón por la que ese foro murió
La moderación estricta, te guste o no, era parte de la plataforma, y si los LLM no hubieran eliminado en un 99.9% la necesidad de foros de preguntas y respuestas sobre programación, probablemente habría durado mucho más incluso de esa forma
Por eso necesitaban una respuesta “canónica”, y eso a la larga mató el sitio
A corto plazo funcionó muy bien, y los fundadores ganaron mucho dinero como correspondía
Pero hace como un año publiqué algunas preguntas y no recibí ninguna respuesta
No solo se fueron quienes preguntaban; también quienes respondían dejaron SO. Puede ser un problema de huevo y gallina, una inversión del efecto de red
Los LLM son mejores para depuración o tareas tipo mesa de ayuda que el soporte humano lento, y de entrada ese tipo de preguntas ni siquiera eran bienvenidas en SO
Stack Overflow sigue siendo excelente para preguntas canónicas, múltiples respuestas y discusiones públicas entre personas, optimizadas para búsqueda
Pero para una empresa propiedad de capital privado que quiere convertir una inversión de 1.8 mil millones de dólares en 100 veces más, eso probablemente no será suficiente
Ojalá que algún día el sitio clásico de preguntas y respuestas se separe, se asuma la pérdida, y quede en manos de una fundación tipo Wikimedia interesada en preservar el sitio original de preguntas y respuestas, sin buscar crecimiento ni transformación
Coincido en que una fundación tipo Wikimedia sería la mejor forma de preservar el objetivo original