- Un análisis reciente de los patrones de comentarios de las cuentas nuevas de Hacker News confirmó diferencias claras frente a los usuarios existentes
- Entre los comentarios de cuentas nuevas, 17.47% usó EM dash (—), flechas y otros símbolos especiales, unas 10 veces más que el 1.83% de las cuentas existentes
- Además, las cuentas nuevas mostraron una probabilidad de 18.67% de mencionar palabras relacionadas con AI y LLM, más alta que el 11.8% de las cuentas existentes
- El análisis comparó muestras de alrededor de 700 comentarios por grupo con base en datos de
/newcomments y /noobcomments
- Estas estadísticas sugieren la posible proliferación de cuentas automatizadas (bots) dentro de la comunidad de HN
Observación de señales inusuales en los comentarios de HN
- En los últimos meses se ha observado un fenómeno en el que parece haber aumentado drásticamente la cantidad de bots en HN
- Algunas cuentas publican solo cadenas sin sentido o números
- Entre los ejemplos aparecen textos crípticos como “13 60 well and t6ctctfuvuh7hguhuig8h88gd…”, o comentarios de un solo carácter como “1662476506” y “Аё”
- Además de esas cuentas, también hay muchos comentarios normales en apariencia, pero extraños o fuera de tema
Método de recolección y análisis de datos
- Se hizo un análisis comparativo mediante scraping de las páginas
/newcomments (comentarios recientes) y /noobcomments (comentarios de cuentas nuevas)
- Se recopilaron aproximadamente 700 muestras de comentarios de cada grupo y se calcularon estadísticas simples
Resultados estadísticos principales
- 17.47% de los comentarios de cuentas nuevas incluía EM dash, flechas u otros símbolos especiales, frente a 1.83% en las cuentas existentes, una diferencia de unas 10 veces
- Significancia estadística: p = 7e-20
- 18.67% de los comentarios de cuentas nuevas incluía menciones relacionadas con AI o LLM, por encima del 11.8% de las cuentas existentes
- Significancia estadística: p = 0.0018
Interpretación y dudas
- Los usuarios humanos también pueden usar EM dash, pero es difícil explicar una proporción de uso tan alta en cuentas nuevas
- Esta diferencia sugiere la posibilidad de que entre las cuentas nuevas de HN existan cuentas generadas automáticamente
Material de referencia
- El código fuente y los datos usados en el análisis están publicados en el repositorio de GitHub (vlofgren/hn-green-clankers)
- Marginalia.nu publicó este estudio como parte de la serie “Weird AI Crap”
1 comentarios
Opiniones de Hacker News
Antes se usaban mucho los em dash y en dash en HN
Simplemente me gustaba la tipografía, así que tenía la costumbre de usar guiones en lugar de punto y coma
Había configurado un atajo de teclado con AHK, pero ahora, por eso, mis textos dan la impresión equivocada de que fueron escritos por un LLM
Ya me han confundido varias veces con IA, así que me da pena que una preferencia tipográfica que antes disfrutaba ahora se vea de forma negativa
En realidad, solo hay gente que se preocupa por escribir con oraciones completas, ortografía, gramática y mayúsculas, pero ahora eso parece IA
Últimamente parece que escribir un poco desordenado a propósito se volvió una señal de humanidad. Supongo que los chatbots del futuro también aprenderán eso
Las oraciones quedan un poco raras, pero me gusta porque se sienten artesanales y auténticas
Eso sí, jamás voy a renunciar a los dos espacios al final de la oración. Mi maestra de mecanografía de 1993 decía que las oraciones también necesitan espacio para respirar
Desde siempre tengo la costumbre de escribirlos en Mac con option+8, pero ahora hasta eso parece estilo de LLM
Compararon estadísticamente las palabras más usadas en comentarios de usuarios nuevos de HN
Palabras como “ai”, “actually”, “code”, “real” y “built” aparecen mucho más seguido en cuentas nuevas
Está todo detallado en la tabla de datos
Académicamente no es correcto, pero aquí puede verse como una observación interesante
En cambio, si se calcula un tamaño del efecto como Cohen’s d, se puede entender la magnitud real de la diferencia
Casi siempre es una muletilla sin sentido que le quita claridad al texto
Se planteó la hipótesis de que algunos bots están inflando artificialmente temas relacionados con IA
Siempre me gustó usar em-dash, pero ahora me da pena no poder usarlo por miedo a que me confundan con IA
En Mac se escribe fácil con
alt+shift+-, y se siente como si una buena práctica tipográfica se hubiera contaminadoSi eso está presente, cualquier puntuación sigue sonando humana
Comparto esta guía de códigos Alt para Mac con la idea de recuperar la tipografía
Al final, la forma única de expresarse de una persona termina notándose
Los datos están publicados como una base SQLite en este repositorio de GitHub
También se pueden ejecutar consultas SQL directamente en el navegador con Datasette Lite
Al ver la lista de usuarios que más usan em-dash, la mayoría parecen cuentas normales
sourcea la consulta, destacan varias cuentas green con mucho uso de em-dashEsto ya no parece un problema solo de HN, sino una crisis del discurso anónimo en línea en general
Si la confianza se rompe, la plataforma misma se derrumba
La verificación de identidad parece la única solución, aunque tampoco sería perfecta
Presenté esa idea en mi post del blog
Parece que se acerca una era en la que habrá que demostrar que uno es humano
Si el valor de un comentario se demuestra por la cantidad de hash computado, se puede confiar sin necesidad de identidad
Si un bot no puede mantener karma positivo, no obtiene privilegios, así que se puede defender la plataforma sin verificación de identidad total
Últimamente se nota en HN un patrón de comentarios formales pero insípidos
Se repite una estructura tipo “this is [resumen] / not just x, it’s y / punchy ending”
Se ve claramente, por ejemplo, en la cuenta snowhale
Podría ser una estrategia para armar una red de votos y manipular la narrativa
En estos resultados de búsqueda, varias cuentas repiten la misma frase
Muchas respuestas no leen el contexto de la conversación y se sienten extrañamente desconectadas
Igual que los humanos, aparenta neutralidad, pero lleva dentro los sesgos de sus datos de entrenamiento
Tal vez la neutralidad total sea una ilusión
Si al prompt le agregas “habla como yo, no escribas como IA, sé conciso”, la mitad del problema se resuelve
Irónicamente, gracias a esta polémica mucha gente conoció por primera vez la existencia del em-dash
Ahora incluso aumentó bastante la cantidad de nuevos usuarios humanos que ponen em-dash en cada oración
La mayoría de las cuentas bot que detecté casi no usan em-dash
Por ejemplo, aplomb1026 publicó dos comentarios largos con 30 segundos de diferencia
Se nota claramente al ver el primer comentario y el segundo comentario
Si no hubiera cometido ese error de configuración, probablemente casi nadie se habría dado cuenta
Otros bots son dirtytoken7 y fdefitte
La gente que estudió literatura inglesa lleva mucho tiempo usando em-dash, pero ahora se están conteniendo por miedo a parecer IA
Si la IA empieza a usar hasta la diéresis al estilo New Yorker, creo que me voy a volver loco
Aun así, yo seguí usándola internamente
¿Y si, en vez de “no parecer IA”, uno decide “mezclarse con la rebelión robótica”?
Yo propongo ⸻ (guion U+2E3B)