Por qué wordfreq ya no se actualiza
La IA generativa contaminó los datos
- Desde 2021, ya no hay información confiable sobre el uso humano del lenguaje
- Una de las fuentes de datos de wordfreq, la web abierta (OSCAR), ahora está llena de texto sin sentido generado por modelos de lenguaje grandes
- Incluir ese texto en los datos distorsiona la frecuencia de las palabras
- Por ejemplo, ChatGPT está obsesionado con la palabra "delve", lo que aumenta su frecuencia de forma anormal
La información que era gratuita se volvió cara
- wordfreq recopilaba datos de uso conversacional del lenguaje de Twitter y Reddit
- Los datos de Twitter siempre fueron inestables, y ahora Twitter desapareció y fue reemplazado por X
- Reddit también dejó de ofrecer archivos de datos públicos y ahora vende sus datos a un precio que solo OpenAI puede pagar
Ya no quiero seguir participando en este campo
- wordfreq fue útil para la lingüística de corpus y las herramientas de procesamiento de lenguaje natural
- Pero hoy el campo del procesamiento de lenguaje natural está siendo absorbido por la IA generativa
- Es difícil encontrar investigación de PLN que no dependa de datos cerrados controlados por OpenAI y Google
- Las herramientas de recolección de texto ahora se usan principalmente para entrenar IA generativa, lo que provoca problemas de infracción de derechos de autor
- No quiero participar en trabajos que puedan confundirse con IA generativa
Resumen de GN⁺
- wordfreq era un proyecto basado en datos lingüísticos hasta 2021
- Con la llegada de la IA generativa, la confiabilidad de los datos cayó, y como fuentes clave como Twitter y Reddit pasaron a ser de pago, las actualizaciones se detuvieron
- A medida que el campo del procesamiento de lenguaje natural es absorbido por la IA generativa, el autor expresa que ya no quiere seguir participando en este campo
- Como proyecto con funciones similares, recomienda herramientas alternativas como Google Ngram Viewer
1 comentarios
Comentarios de Hacker News