1 puntos por GN⁺ 2024-09-19 | 1 comentarios | Compartir por WhatsApp

Por qué wordfreq ya no se actualiza

La IA generativa contaminó los datos

  • Desde 2021, ya no hay información confiable sobre el uso humano del lenguaje
  • Una de las fuentes de datos de wordfreq, la web abierta (OSCAR), ahora está llena de texto sin sentido generado por modelos de lenguaje grandes
  • Incluir ese texto en los datos distorsiona la frecuencia de las palabras
  • Por ejemplo, ChatGPT está obsesionado con la palabra "delve", lo que aumenta su frecuencia de forma anormal

La información que era gratuita se volvió cara

  • wordfreq recopilaba datos de uso conversacional del lenguaje de Twitter y Reddit
  • Los datos de Twitter siempre fueron inestables, y ahora Twitter desapareció y fue reemplazado por X
  • Reddit también dejó de ofrecer archivos de datos públicos y ahora vende sus datos a un precio que solo OpenAI puede pagar

Ya no quiero seguir participando en este campo

  • wordfreq fue útil para la lingüística de corpus y las herramientas de procesamiento de lenguaje natural
  • Pero hoy el campo del procesamiento de lenguaje natural está siendo absorbido por la IA generativa
  • Es difícil encontrar investigación de PLN que no dependa de datos cerrados controlados por OpenAI y Google
  • Las herramientas de recolección de texto ahora se usan principalmente para entrenar IA generativa, lo que provoca problemas de infracción de derechos de autor
  • No quiero participar en trabajos que puedan confundirse con IA generativa

Resumen de GN⁺

  • wordfreq era un proyecto basado en datos lingüísticos hasta 2021
  • Con la llegada de la IA generativa, la confiabilidad de los datos cayó, y como fuentes clave como Twitter y Reddit pasaron a ser de pago, las actualizaciones se detuvieron
  • A medida que el campo del procesamiento de lenguaje natural es absorbido por la IA generativa, el autor expresa que ya no quiere seguir participando en este campo
  • Como proyecto con funciones similares, recomienda herramientas alternativas como Google Ngram Viewer

1 comentarios

 
GN⁺ 2024-09-19
Comentarios de Hacker News
  • La web ha sido contaminada por las reglas de SEO de Google. El problema es el estilo de escritura con párrafos cortos, repetición de palabras clave y enfoque en la posibilidad de indexación por encima de la legibilidad
    • ML/LLM es la segunda causa de contaminación. La primera fue escribir para bots corporativos
  • En 2023 se creó LowBackgroundSteel.ai para usarlo como un lugar donde reunir datasets no contaminados
    • Se planea agregar Wordfreq. Se pide enviar material a Tumblr
  • Se puede entender la decepción con la comunidad de NLP, pero no todos son así
    • El problema de la contaminación de la web no es nuevo. También existieron granjas de spam que intentaban manipular PageRank
    • Cada generación de la web necesita tecnología para superar los problemas de su propia época
    • El consumo de contenido generado automáticamente que George Orwell anticipó en 1984 se ha vuelto realidad. Sin embargo, esta tecnología también puede usarse para algo bueno
  • Se cree que la web está muerta. Debido a la IA, ahora toma más tiempo encontrar información útil
    • Tomó más de 10 minutos encontrar ciertos audífonos inalámbricos. Los sitios están llenos de basura
    • Con una laptop vieja es difícil navegar sitios web modernos cargados de gráficos
    • Se odia todo: la web, los navegadores web, el diseño web, el SEO, la búsqueda, la publicidad, etc. Se está buscando una forma de comprar sin usar la web
  • Se comparte un enlace de Google Trends y se menciona como dato curioso que los resultados de búsqueda de "delve" no han aumentado
  • Se piensa que no hay información confiable sobre el uso del lenguaje humano desde 2021
    • El texto ya pasó el punto crítico, pero ahora es un momento clave para el video
    • Especialmente para los niños pequeños, es difícil distinguir qué es real. La tecnología ya existe, pero la mayoría del contenido de video todavía no ha sido afectado
  • Se está de acuerdo con la opinión de que la web está llena de basura generada por LLM
    • En muchos casos se genera contenido sin valor por motivos de SEO
  • Cuando la AGI sea barata y accesible, la mayoría del trabajo será realizado por IA
    • La revolución de la IA debería comenzar en los campos más cercanos a las raíces de la IA
  • Los libros impresos de antes de 2020 podrían convertirse en activos valiosos
    • Internet estará lleno de basura y hasta los libros impresos modernos pasarán a ser sospechosos
    • Se presentará a humanos como autores de libros escritos por IA
  • Los escritores que perdieron su trabajo por la IA deberían ser contratados por los hiperescaladores de IA
    • Eso sí, sus obras no deberían contener ni una sola frase generada por IA