- Artículo sobre la inexactitud de los n-grams de Google Ngram Viewer
- El autor señala que la frecuencia de palabras comunes del inglés que muestra Ngram no refleja con precisión el uso real durante el siglo XX
- El autor y Talia Felix usaron Google Books para investigación, pero descubrieron que era una base de datos mal ensamblada con muchos errores ocultos
- Explicación de uno de los errores heredados por Ngram desde Google Books en su fórmula, que hace que muchas palabras en inglés parezcan disminuir en uso durante el siglo XX y luego revivir en la década de 1980
- Este error ocurre porque el corpus de Google Books es mayormente académico, y las revistas científicas y académicas modernas tienden a repetir un conjunto limitado de palabras
- El uso excesivo de ciertas palabras en la escritura académica reduce falsamente la frecuencia de otras palabras, creando una "caída" de mediados del siglo XX en el Ngram de casi todas las palabras
- Otro error es que Google Books no reconoce la equivalencia entre variantes ortográficas y formas plurales
- El autor menciona que muchos archivos de Google Books tienen fechas incorrectas, lo que daña aún más la precisión de los datos
- A pesar de estas inexactitudes, los Ngrams siguen usándose porque en internet las imágenes ganan y las palabras pierden
- El autor recomienda a los lectores ver los Ngrams como algo decorativo e ingenioso, no como una representación precisa del uso de las palabras
- El autor concluye que, aunque el mundo prefiera la realidad de Ngram, los lectores pueden ser más inteligentes que eso.
1 comentarios
Opinión de Hacker News