Bots, demasiados bots

(wakatime.com)

1 puntos por GN⁺ 2024-10-02 | 1 comentarios | Compartir por WhatsApp

ProductHunt es una plataforma de lanzamientos de productos con más de 1 millón de usuarios registrados, pero un análisis de datos públicos clasificó a más del 60% de las cuentas registradas como bots automatizados
Al lanzar un producto con una inyección de prompt para LLM en la descripción, resultó que casi todos los comentarios eran automatizados, y muchos comentarios recientes también parecían hechos por ChatGPT
Como es difícil confirmar si una cuenta es bot solo con datos públicos, se usó una puntuación de riesgo combinando tiempo de actividad, patrones de upvotes, superposición con otros bots y contenido de comentarios
Desde 2018, los registros de bots superaron a los de usuarios reales, y en 2022 los upvotes de bots superaron a los reales, aumentando la posibilidad de que anillos de votación influyan en el ranking
Lanzar en ProductHunt todavía puede dar visibilidad, pero en vez de esperar interacción real en comentarios o beneficios de SEO, lo más realista es prepararlo rápido y no invertir demasiado tiempo

Actividad de bots expuesta en ProductHunt

Desde inicios de 2014, ProductHunt había sido útil para revisar lanzamientos de productos tecnológicos recientes, encontrar herramientas similares en los comentarios o reunir feedback para productos propios
Como la mayoría de los comentarios recientes de productos parecían comentarios generados por ChatGPT, se probó hacer un lanzamiento propio incluyendo una simple inyección de prompt para LLM en la descripción
Después del lanzamiento, casi todos los comentarios resultaron ser automatizados, lo que reforzó la duda de si responder comentarios en ProductHunt puede ser una pérdida de tiempo para quienes lanzan productos
Siguen llegando correos ofreciendo upvotes pagados, y en Reddit incluso hay casos de personas que dicen haber comprado upvotes de ProductHunt dos veces

Datos públicos usados en el análisis

Se analizaron listas públicamente accesibles de usuarios, lanzamientos, upvotes y comentarios de ProductHunt
La escala de los datos fue la siguiente
- Registros de usuarios: más de 1 millón
- Lanzamientos: más de 300 mil
- Comentarios: 2.5 millones
- Upvotes: 20 millones
Cada producto tiene un ranking diario definido como la puntuación 24 horas después de la medianoche PDT de su fecha de lanzamiento
- El puesto 1 tiene daily rank 1
- Algunos productos tienen rank null, posiblemente por eliminación, reporte o porque no llegaron a lanzarse

Cómo se identificaron las cuentas bot

Detectar bots solo con datos públicos es difícil, así que un único criterio no era suficiente
Al principio se intentó encontrar patrones analizando los horarios de comentarios de los usuarios
- Un usuario llevaba 677 días registrado, con 2,009 comentarios y 4,649 upvotes; parecía un power user que usaba automatización, pero no se clasificó como bot
- Otro usuario llevaba 140 días registrado, con 173 comentarios y 246 upvotes, y los intervalos entre comentarios eran regulares; el gráfico se veía menos fluido y más como bloques
Al final se asignó una puntuación de riesgo a cada usuario combinando varias señales
- Tiempo de actividad de la cuenta
- Patrones de upvotes a lo largo del tiempo
- Cantidad de upvotes compartidos con otros bots
- Contenido de los comentarios
En comentarios generados por ChatGPT aparecían con más frecuencia palabras como game-changer
En comentarios bot aparecían caracteres normalmente difíciles de teclear, como el em-dash, o casos donde se insertaban tal cual nombres de productos muy largos o con ™
Algunas cuentas bot copiaban directamente nombres y biografías reales de LinkedIn, pero esas personas respondieron que nunca habían creado una cuenta en ProductHunt
El clustering tuvo algo de efecto, pero muchas cuentas bot se desechan tras usarse y a menudo solo comparten uno de varios votos aleatorios con otros bots
- En cupy y cudf no estaban implementados en GPU los métodos necesarios, así que el clustering solo se ejecutó sobre datasets pequeños
- Con alguien de mayor experiencia, la detección de bots podría mejorar
El análisis detectó que más del 60% de los registros de usuarios correspondían a cuentas bot automatizadas
- No se detectaron todos los bots, así que es una cifra conservadora
- Con datos internos de ProductHunt sería más fácil identificar con mayor precisión la actividad bot

Cómo cambió la actividad bot con el tiempo

Registros de usuarios
- Desde 2018 se han creado más usuarios bot que usuarios reales
Comentarios
- Desde finales de 2022 aumentaron fuertemente los comentarios bot
- Esto coincide aproximadamente con el momento en que ChatGPT se volvió ampliamente accesible
- El salto de 2024 podría deberse a que las cuentas bot se van eliminando con el tiempo
- Es más probable que las cuentas recientes todavía no hayan sido eliminadas, por lo que sus comentarios siguen siendo más accesibles
Upvotes
- En 2022 los upvotes de bots superaron a los de usuarios reales
- Los bots forman anillos de votación para aumentar la probabilidad de entrar en el newsletter de ProductHunt
Ranking
- La mayoría de los lanzamientos recibe apenas unos pocos upvotes reales
- Como los bots votan al azar para mezclarse, la línea de tendencia de sus upvotes se ve más suave que la de los usuarios reales

Relación entre ranking diario y upvotes bot

El lanzamiento que queda #1 en ProductHunt aparece en los newsletters diarios y semanales
Para alcanzar el puesto #1, un nivel de 15% de votos bot parecía verse como relativamente seguro
Los lanzamientos con más de 60% de votos bot aparentemente no llegan al #1 por alguna razón
Si se observan solo los lanzamientos desde 2020, los posts recientes de mayor ranking tienen una proporción más alta de upvotes bot
Se plantea que los lanzamientos que compran upvotes suelen quedarse más en el top 5 que en el #1, porque es más probable que no sean productos de alta calidad

Qué tan efectivo sigue siendo lanzar en ProductHunt

Aunque la mayoría de los comentarios y upvotes sean bots, todavía podría haber algunos usuarios reales en ProductHunt
Si se paga a bots para aparecer en el newsletter, existe la posibilidad de que más personas reales vean el producto
Lanzar en ProductHunt no tiene efecto SEO por backlinks
- Para que Google lo cuente como backlink, el elemento de enlace a hacia el producto no debe tener nofollow
- Los links de productos en ProductHunt incluyen nofollow, así que los motores de búsqueda no los cuentan como backlinks
- Si solo se ingresa un link para el producto, el elemento real no es un enlace sino un button de JavaScript que abre la página del producto
- Otros sitios agregadores pueden recoger el lanzamiento y enlazarlo, pero ProductHunt en sí no cuenta como backlink
Entre algunos inversionistas, la insignia #1 de ProductHunt sigue teniendo peso, así que puede ayudar en conversaciones con inversionistas
En general, lanzar en ProductHunt puede valer la pena, pero conviene no dedicar más que unos minutos a prepararlo ni perder tiempo respondiendo comentarios

Análisis pendiente y proyectos relacionados

Se quería crear una lista de lanzamientos sin votos bot para ver si cambiaba cuál habría sido el #1 de ese día
Como no se quiere señalar lanzamientos con muchos upvotes bot si en realidad no pagaron por ellos, ni dar promoción extra a los que sí pagaron, ese análisis se dejó para una publicación futura
La discusión relacionada está en HN
También se presentan wonderful.dev y wonderful.dev/alan como intentos de mejorar los problemas de ProductHunt

1 comentarios

GN⁺ 2024-10-02

Comentarios de Hacker News

Me pregunto si ProductHunt usa alguna solución CAPTCHA
Los CAPTCHA suelen recibir muchas críticas, pero sigo creyendo que tienen mucho valor para bloquear la mayoría de este tipo de ataques de spam. Los problemas de usabilidad, accesibilidad y privacidad han mejorado en los últimos años con métodos que funcionan sin interacción del usuario y protegen la privacidad, y aunque se critique que los bots avanzados pueden evadirlos, incluso las técnicas tradicionales siguen siendo bastante útiles para frenar bots de bajo esfuerzo. Para ataques que usan humanos reales, los CAPTCHA no son adecuados desde el principio, así que el sitio tendría que tener otras defensas, pero no creo que esa sea la causa principal del spam que vemos hoy
- Últimamente he estado pensando si sería posible crear una especie de sistema con algo en juego para demostrar que probablemente eres humano
  Por ejemplo, si haces una donación única de 5 dólares a la organización benéfica que quieras en un sitio “verificador”, recibes un token de prueba de gasto, y sitios asociados como HN podrían quemar ese token para marcar una cuenta como probablemente humana, o al menos como un bot cuyo dueño pierde algo si lo bloquean. Sería mucho más amigable con la privacidad que varios sistemas de verificación con identificación estatal y, aunque pueda parecer “comprar el derecho a hablar”, en la práctica podría salir más barato que el tiempo, transporte y papeleo de los sistemas gratuitos. Los grandes problemas serían los pagos fraudulentos con tarjetas robadas para comprar tokens, sitios verificadores que solo cobren y desaparezcan, sitios de destino que recolecten tokens en secreto y el manejo descentralizado donde distintos sitios de donación y de cuentas confíen en tokens diferentes
- Ya existe una industria de servicios para resolver CAPTCHA, y la mayoría usa personas en regiones con mano de obra barata
  En uno de los servicios populares cuesta alrededor de $0.001~$0.002 por reCAPTCHA, así que tampoco hace falta gran nivel técnico para usarlo. Incluso si hiciera falta un CAPTCHA por comentario, con unos 50 dólares al año se podría spamear un sitio con 100 comentarios diarios; quizá filtre al típico script kiddie promedio, pero si se puede ganar dinero con el spam, sigue siendo fácilmente rentable. Cuesta ver estos servicios como un “caso extremo”
- Los operadores de sitios web quieren publicar sus datos, pero también quieren impedir que se copien
  Esa es una contradicción inherente, como un DRM que no funciona. Los desarrolladores web también hinchan muchísimo los sitios con JavaScript de varios MB y diseños excesivamente complejos, cuando usar simplemente un sitio estático y un CDN podría salir mucho más barato
- Una solución casi perfecta sería revisar manualmente todos los envíos
  Puedes usar sistemas automatizados como primera línea de defensa contra el spam, y luego contratar personas para revisar uno por uno los envíos que pasen. Incluso si el contenido fue publicado por un humano, este proceso también puede garantizar cierto estándar de calidad. Los envíos legítimos atrapados por el filtro inicial de spam podrían apelarse por correo electrónico o algo similar para entrar en una cola de revisión manual. No es fácil y puede tardar más en publicarse, pero el spam y el contenido de baja calidad podrían acercarse prácticamente a cero
- Como alguien a quien ya le salen CAPTCHA con frecuencia por usar VPN, ojalá no aumenten todavía más
  Hay que pensar cuánto tiempo humano se desperdicia en estas cosas
Cuando subí un producto a ProductHunt hace unos 5 años, también recibí decenas de ofertas promocionales garantizando el puesto #1
Literalmente, me empezaron a llover mensajes apenas una hora después de publicarlo, y ahora probablemente sea todavía peor
Es problemático partir de una clasificación arbitraria donde no hay forma de verificar si un usuario es bot o no, y hacer el análisis desde ahí
Si esa clasificación está mal, todo el análisis está mal. En particular, destaca la parte de “los comentarios de bots aumentaron bruscamente hacia fines de 2022, cuando ChatGPT empezó a usarse ampliamente”. Uno de los criterios de clasificación es que “los comentarios generados por ChatGPT usan con más frecuencia palabras como game-changer, incluyen caracteres difíciles de escribir como em dash o ™, y mantienen nombres de productos largos tal cual”. O sea, clasifican como bot a quien actúe como ChatGPT, y luego presentan como hallazgo interesante que después del lanzamiento de ChatGPT aumentaron esos usuarios. También es posible que antes hubiera muchos bots, pero usando otro software y comportándose distinto, por lo que no pudieron detectarlos
- Es cierto, pero si la clasificación de bots que usan ChatGPT es correcta, sigue siendo llamativo que realmente hayan aumentado mucho los comentarios generados con ChatGPT
  Y si esa clasificación es correcta, también importa que los comentarios generados por bots hayan superado por mucho a los comentarios de personas reales, aunque se esté subestimando el total de bots al no incluir los que no usan ChatGPT. Claro, como dices, aquí hay bastantes “si”, y si la premisa se cae, la conclusión también
- El texto empieza con una prueba de prompt injection, y sí hay evidencia adjunta a la premisa
  Si no, habría que proponer un método de clasificación alternativo; de lo contrario, parece malintencionado y no ayuda
- Este tipo de método estadístico puede ser preciso para juzgar si una sección de comentarios está llena de bots, pero es mucho menos preciso para determinar si un comentario individual fue escrito por un bot
La pregunta clave es quién está en ProductHunt
¿Clientes? Lo dudo. ¿Indie hackers? Eso sí podría ser. Hay que pensar a quién le estamos vendiendo y si en realidad tiene sentido lanzar en PH
- Muy buen punto
  Lanzamos en PH y quedamos #1 del día y #1 de la semana, pero casi no aumentaron los clientes nuevos; en cambio, sí recibimos muchas consultas entrantes de inversionistas. Si estás levantando capital, tiene valor, pero si no, tienes que ir donde están tus clientes. Nuestros clientes no eran usuarios de PH
El análisis es excelente, pero me sorprende aún más que ProductHunt sea un sitio web “real”
Hace mucho bloqueé PH con ublacklist, porque me parecía SEO promo/basura y demasiado parecido a esos sitios de “VS/comparaciones/las 5 mejores apps” casi sin contenido. Estos sitios aparecen más rápido de lo que puedes filtrarlos a mano. Incluso después de volver a revisarlo y darme cuenta de que no era contenido puramente generado, si me lo encontrara por casualidad en resultados de búsqueda, seguiría sin entender cuál es su propuesta de valor
- Conozco varias empresas que le dan bastante importancia a conseguir una buena posición en PH, pero la reacción fue la misma
  ¿De verdad es un lugar al que los usuarios finales o las empresas les prestan atención?
La tendencia entre bots y humanos da un poco de miedo
Parece que los humanos detectados votan y comentan cada vez menos con el tiempo, mientras que los bots hacen lo contrario y aumentan. ¿Será otra señal de que la teoría del internet muerto es correcta?
- DIT está mal nombrada
  Como todavía no ha pasado, pero implicaría que se hará realidad en el futuro, quizá profecía del internet muerto habría sido una mejor expresión
- Relacionado con eso, los humanos reales en HN están limitados a 5 comentarios cada 6 horas, pero un actor malicioso puede esquivar esa restricción simplemente creando cientos de cuentas
Antes había una web de confianza (WOT) para votar sobre sitios web
¿Una web de confianza para humanos podría ayudar a defenderse de los bots? Si tengo una docena de cuentas más o menos que puedan dar fe de que soy un humano real, y otras personas también pueden votarme, se puede formar una red de confianza. Claro que hace falta una semilla, pero podría establecerse con relativa facilidad mediante cuentas verificadas o conexiones e interacciones en redes sociales. X y Meta probablemente saben bastante bien qué cuentas son bots, pero no parece que les interese ofrecer ese conocimiento como servicio
- La IA va a seguir mejorando
  No falta mucho para que aparezca una IA cuyo objetivo sea construir una presencia en línea que haga creer que hay una persona real detrás. Incluso podría subir videos generados de un personaje falso realizando actividades normales. Al final se necesitarán una red de confianza, pruebas y puntajes de reputación para agentes; y parece que eso tendría que incluir elementos como interacciones presenciales en el mundo real, cierto apoyo del gobierno y cámaras capaces de autenticar grabaciones y metadatos. Quienes consuman contenido y quieran verificar su autenticidad tendrán que participar en este sistema o quedarse con los medios tradicionales, y algunos países podrían crear leyes para ayudar a los ciudadanos a consumir noticias verdaderas. Aun así, no creo que haya forma de construir una red de confianza bastante sólida sin conocer realmente la identidad de la otra persona. Por eso, esa red de confianza también serviría para que criminales y gobiernos encuentren objetivos. El costo social de permitir que la IA se haga pasar por humanos es demasiado alto, así que podría valer la pena legislar para prohibirlo
- Al final, hay que recordar que tú no eres el cliente; el cliente es algún anunciante
  La función principal de estos servicios es inflar la cantidad de usuarios para vender más anuncios
- Ese tipo de sistema será arrasado y distorsionado para ajustarse a la conveniencia del Estado
Hay algunos posts en Reddit con pocos comentarios, y más o menos cada semana llega un bot basado en GPT y deja una pregunta muy obvia del tipo: “¡Wow! De verdad da para pensar, me pregunto por qué es importante”
Me parece un intento de hacer que alimente al sistema con más datos. No me sorprendería que Reddit mismo operara estos bots para fomentar la participación
- Basta con ver la historia de Reddit
  Antes de que los bots fueran posibles, curaban el contenido con cuentas falsas administradas por personas; y ahora que los bots sí son posibles, estoy bastante convencido de que la mayoría de los comentarios y publicaciones en los subreddits populares son bots. Creo que una parte considerable de ellos es operada directamente por Reddit mismo

Bots, demasiados bots

Actividad de bots expuesta en ProductHunt

Datos públicos usados en el análisis

Cómo se identificaron las cuentas bot

Cómo cambió la actividad bot con el tiempo

Registros de usuarios

Comentarios

Upvotes

Ranking

Relación entre ranking diario y upvotes bot

Qué tan efectivo sigue siendo lanzar en ProductHunt

Análisis pendiente y proyectos relacionados

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News