1 puntos por GN⁺ 2023-09-27 | 1 comentarios | Compartir por WhatsApp
  • Artículo sobre la inexactitud de los n-grams de Google Ngram Viewer
  • El autor señala que la frecuencia de palabras comunes del inglés que muestra Ngram no refleja con precisión el uso real durante el siglo XX
  • El autor y Talia Felix usaron Google Books para investigación, pero descubrieron que era una base de datos mal ensamblada con muchos errores ocultos
  • Explicación de uno de los errores heredados por Ngram desde Google Books en su fórmula, que hace que muchas palabras en inglés parezcan disminuir en uso durante el siglo XX y luego revivir en la década de 1980
  • Este error ocurre porque el corpus de Google Books es mayormente académico, y las revistas científicas y académicas modernas tienden a repetir un conjunto limitado de palabras
  • El uso excesivo de ciertas palabras en la escritura académica reduce falsamente la frecuencia de otras palabras, creando una "caída" de mediados del siglo XX en el Ngram de casi todas las palabras
  • Otro error es que Google Books no reconoce la equivalencia entre variantes ortográficas y formas plurales
  • El autor menciona que muchos archivos de Google Books tienen fechas incorrectas, lo que daña aún más la precisión de los datos
  • A pesar de estas inexactitudes, los Ngrams siguen usándose porque en internet las imágenes ganan y las palabras pierden
  • El autor recomienda a los lectores ver los Ngrams como algo decorativo e ingenioso, no como una representación precisa del uso de las palabras
  • El autor concluye que, aunque el mundo prefiera la realidad de Ngram, los lectores pueden ser más inteligentes que eso.

1 comentarios

 
GN⁺ 2023-09-27
Opinión de Hacker News
  • El título del artículo, "Quien anhela la certeza anhela la mentira", desencadenó una discusión sobre el deseo de certeza en los cronogramas de proyectos.
  • El artículo critica el uso de ngrams en los algoritmos modernos y sostiene que son producto de una tecnología poco confiable e ignorante.
  • La crítica a los ngrams se considera una advertencia en una era cada vez más dominada por la IA generativa, que en esencia es un predictor de ngrams.
  • Algunos comentarios ponen en duda la validez de las afirmaciones de los autores sobre las estadísticas de ngrams, señalando la falta de evidencia y una interpretación engañosa de los gráficos.
  • Se destaca un problema fundamental del análisis de datos: el análisis es tan bueno como los datos, y evaluar la calidad de esos datos es difícil.
  • Algunos comentarios critican el título del artículo y la tendencia al clickbait en las publicaciones científicas.
  • Se debate el uso de Google Ngram, y algunos sostienen que el problema no es la herramienta en sí, sino que sus estadísticas están fuera de contexto.
  • Se critica que el artículo no incluya 0 en el eje vertical de los gráficos, lo que puede hacer que pequeñas variaciones parezcan grandes.
  • Se discute que, debido a la pérdida de datos inherente, es imposible construir una imagen representativa del pasado.