Quien ansía la certeza ansía la mentira

(etymonline.com)

1 puntos por GN⁺ 2023-09-27 | 1 comentarios | Compartir por WhatsApp

Los gráficos de frecuencia de palabras de Google Ngram Viewer pueden distorsionar los cambios en el uso del inglés del siglo XX debido a los datos de Google Books y a defectos en la fórmula; incluso palabras comunes como said y toast parecen haber desaparecido en las décadas de 1970 y 1980 para luego reaparecer
El corpus de Google Books tiene una gran proporción de materiales recopilados por universidades, así como de revistas científicas y académicas modernas y libros de texto, lo que puede inflar la frecuencia de algunas palabras y reducir relativamente la frecuencia de otras palabras
Debido a la long s(ſ) de impresos antiguos, variantes ortográficas, plurales y fechas incorrectas, Ngram no logra distinguir bien casos como fuck y suck, authorise y authorize, o dog y dogs
Las explicaciones etimológicas de Etymonline se basan en material impreso y trabajo humano, pero Ngram se parece más a un recurso visual decorativo, por lo que es difícil confiar en él cuando entra en conflicto con una explicación etimológica
En internet las imágenes se eligen más fácilmente que los textos, pero los gráficos de Ngram no deben tratarse como prueba concluyente del uso de palabras, sino como una visualización de datos incompleta

Las extrañas frecuencias de palabras que produce Google Ngram

En Google Ngram Viewer, la frecuencia de said se parece menos a un cambio real en los verbos del inglés del siglo XX y más a una curva que ondula como un gráfico de temperaturas de la última glaciación
- No es que los autores en inglés de los años 70 de pronto dejaran de usar said y luego volvieran a usarlo
toast también aparece en Ngram como si casi hubiera desaparecido del inglés alrededor de 1980 y luego hubiera regresado
- Se compara en tono irónico con “la gran hambruna del toast de 1977”
Una parte del problema está en un defecto de la fórmula de Ngram conocido desde hace tiempo
- Ese error hace que muchas palabras del inglés parezcan disminuir durante todo el siglo XX y revivir alrededor de 1980
El corpus de Google Books incluye muchos impresos absorbidos por universidades, y además tiene una proporción desbalanceadamente alta de revistas científicas y académicas modernas y libros de texto
- La escritura académica tiende a repetir unas cuantas palabras una y otra vez
- Como resultado, la puntuación de algunas palabras se infla y otras quedan relativamente más bajas
- Esta estructura contribuye a crear en el Ngram de casi todas las palabras un bache a mediados del siglo XX
Es probable que said se use menos en textos académicos que en novelas o periódicos, mientras que una palabra como graph aparece mucho más en textos académicos
- En el Ngram del siglo XX de graph no aparece ese mismo bache

Distorsiones causadas por OCR, ortografía y errores de fecha

En Ngram, la palabra con F aparece como si casi no se hubiera usado antes de la era moderna, pero aumentara bruscamente cuanto más se retrocede antes de 1820
- Muchos de esos casos no son realmente fuck, sino el antiguo suck
- La long s(ſ) de impresos antiguos puede parecer una f minúscula en tipografías viejas y papel barato
- Ese carácter dejó de usarse alrededor de 1820, y a veces solo el contexto permite distinguir entre f y s
- Se sostiene que la IA no conoce esa diferencia
Google Books no reconoce bien la equivalencia entre variantes ortográficas
- El Ngram de authorise es distinto al de authorize, y ninguno de los dos incluye authorizes
- En los Ngrams de sustantivos tampoco cuenta los plurales, por lo que dog y dogs se tratan por separado
También hay muchos archivos de Google Books con fechas mal asignadas
- El 1896 de la portada de un viejo libro de biblioteca puede parecerle 1800 a un escáner digital
- Hubo un caso en que un conjunto de folletos bíblicos de la década de 1910 apareció durante un tiempo como una publicación de 1799
- Esa fecha no era la de publicación, sino el año de fundación incluido en el logotipo de la asociación que imprimía los folletos bíblicos
- También hay un video sobre este problema
El contenido de Etymonline se construye enteramente a partir de material impreso y trabajo humano, pero Ngram no
- Se evalúa a Ngram como un producto tosco creado por una tecnología poco confiable e ignorante
- El sitio incluye Ngram porque en internet las imágenes vencen a los textos
En lugar de tomar Ngram como evidencia concluyente del uso de una palabra, conviene verlo como una visualización ornamental o de distracción
- La postura es que, si la explicación etimológica de Etymonline entra en conflicto con Ngram desde el inicio, Etymonline está en lo correcto y Ngram está equivocado

1 comentarios

GN⁺ 2023-09-27

Opiniones de Hacker News

Creo que la mejor parte de este texto es la crítica a ngrams y, en términos más amplios, a la forma en que ngrams se usa ampliamente en los algoritmos modernos.
Es especialmente punzante el pasaje que dice que Etymonline se basa en fuentes impresas y textos creados por personas, mientras que ngrams es el producto burdo de una tecnología ignorante que ni siquiera aprendió la diferencia entre “influence” e “inform”.
Se lee como una refutación mordaz de los algoritmos y las redes sociales que intentan cuantificar el habla y la interacción humanas, suelen equivocarse en gran medida y aun así buscan maximizar las ganancias de sus dueños.
Pesa más en una época en la que se dice que la IA generativa es, en la práctica, un predictor de ngrams.
- La parte que dice “Etymonline se basa por completo en fuentes impresas y textos creados por personas, y Ngrams no” me resulta un poco confusa.
  Si “fuentes impresas” significa que no incluye fuentes digitales, no parece tener mucha relación con el problema del que habla el texto.
  Si no incluye de forma completa todo lo impreso, puede surgir el mismo problema de un conjunto de datos sesgado, y las personas también pueden cometer errores como el OCR.
- “Ser influenciado” e “informarse” parecen dos caras de la misma moneda moral.
  Es una forma de decir que las ideas de los demás no son realmente suyas, mientras nosotros afirmamos ser receptores virtuosos de información que llegan a sus propias conclusiones.
  El filtro de paso bajo de la mente solo acepta lo que encaja dentro de los marcos existentes.
  Si no rechazas algo, informarte a partir de ello y ser influenciado por ello son la misma cosa; en ese marco, alguien que dice “solo me informé” suena pretencioso y con poca autoconciencia.
- El conocimiento de más alto nivel sigue estando en lo impreso, y todavía lo producen personas.
  Los medios electrónicos son como un alma devoradora: no producen, consumen.
El chiste de los comentarios de esa página sobre si “las editoriales todavía piden camiones enteros de ‘is’ cada deshielo de primavera...” es cierto en Dictionopolis.
¿Alguien más fan de The Phantom Tollbooth?
https://en.wikipedia.org/wiki/The_Phantom_Tollbooth
El problema fundamental del análisis de datos es que la calidad del análisis solo puede ser tan buena como la calidad de los datos.
Para empezar, evaluar la calidad de los datos es difícil; tampoco es sencillo saber si los datos son buenos, si podemos estar seguros de ello, ni cómo medirlo y reportarlo.
Incluso si hay evaluaciones cualitativas y cuantitativas de la calidad de los datos, surge otro problema: cómo presentarlas integradas con los resultados del análisis.
Ajustar cuantitativamente los resultados según la calidad de los datos requiere bastante trabajo a medida para cada proyecto y va más allá de un simple gráfico de líneas.
En el caso de Google Ngrams, se podría mostrar en un gráfico la composición de las fuentes de datos a lo largo del tiempo, dividida en grandes categorías como “académico” y “noticias”, pero habría que etiquetar todos los documentos con una categoría y también colocar enlaces y textos explicativos en un lugar visible para que la gente realmente los vea.
Aun así, eso no impediría la reacción intuitiva que tiene una persona al ver una serie temporal en la que disminuye el uso de una palabra.
Un mejor enfoque podría ser cuantificar la incertidumbre de la serie temporal de uso de palabras y superponerla en el gráfico.
Pero aquí el conteo de usos en sí es exacto, y la incertidumbre proviene del muestreo, así que habría que estimar cuánto difieren todos los documentos escritos en ese momento de los documentos de la muestra.
Quizá sea posible, pero no parece fácil; e incluso si se hiciera, también está el problema de si la gente interpretaría correctamente la indicación de incertidumbre o si simplemente miraría la línea descendente e ignoraría lo demás.
A medida que entramos en la era de la IA, debemos recordar este problema.
Lo mismo ocurre con nuestras vidas: aprendemos de los datos que observamos y formamos opiniones, pero siempre queda la duda de qué tan buenos son los datos que vimos y qué tan válidas son nuestras conclusiones.
Los autores afirman que las estadísticas de ngram sobre “said” están equivocadas y hablan como si hubiera evidencia en contra, pero en realidad no presentan ninguna evidencia.
Incluso en su propio sitio solo ofrecen las estadísticas de Google ngram: https://www.etymonline.com/word/said#etymonline_v_25922
Con esto se suma el gran fallo de no mostrar el 0 en el eje y del gráfico y una interpretación errónea del gráfico, así que no resulta nada creíble y parece un texto de muy baja calidad.
- ¿Que el uso de “said” se redujo a la mitad en 60 años y luego volvió a su nivel anterior en los 20 años siguientes? Habría que mostrar evidencia de que el inglés cambió de esa manera y tan rápido.
  Una afirmación así es extraordinaria, así que necesita fundamentos convincentes.
  Si no los hay, creería la hipótesis y la conclusión del artículo de que los ngrams son un desastre.
  Es cierto que interpretaron mal el gráfico de “toast”, y debieron haber leído con más cuidado ese pésimo gráfico recortado en un punto bajo.
- La razón por la que es difícil presentar evidencia es que, en la práctica, solo hay una fuente.
  Por eso el texto básicamente señala fallas en la metodología de Google Books/Ngram.
  Me parece un enfoque válido.
  De lo contrario, terminaríamos aceptando algo defectuoso solo porque existe y es fácil de usar.
  No hace falta hacer un estudio aparte para encontrar la verdad cada vez que alguien diga “como X fue lo más tuiteado, entonces es lo más popular e importante”.
  Basta con responder: “esa metodología es tonta, no lo aceptes solo porque Twitter lo dice”.
- Lo deseable sería que alguien revisara fuentes como periódicos y verificara cómo cambió con el tiempo la proporción de frecuencia de “said”.
  Es una petición razonable, pero también me parece aceptable que el autor, como experto, diga que los periódicos siguieron usando said con una frecuencia parecida.
  Esa explicación es plausible, y no creo que la carga de la prueba recaiga necesariamente en el autor.
- Que “said” haya caído y luego vuelto a subir como en el gráfico no es el lado que necesita evidencia.
  Más bien, lo que necesita evidencia es la afirmación extraordinaria de que cambió de esa manera.
  Esa afirmación viene de Google, y antes de culpar al autor del blog habría que ver qué tan representativo es ese conjunto de datos que no podemos ver.
  ¿Tenemos que aceptar sin más una estadística cuyo conjunto de datos de entrada desconocemos, como si fuera “confíen en Google”?
- EtymOnline no es un sitio para rastrear cambios en la popularidad de las palabras, sino para rastrear cambios de significado.
  Por eso es comprensible que la entrada de “said” no tenga evidencia concreta en contra.
  La razón por la que el texto tampoco tiene evidencia es que la afirmación de que “said” cayó hasta casi un tercio de su pico es mucho más extraordinaria y requiere evidencia fuerte.
  Con decir “a simple vista no tiene ningún sentido y probablemente se deba a un gran cambio en la composición de géneros del conjunto de datos de Google” ya es suficiente.
El gráfico de Ngram no dice que toast casi desapareció del inglés hacia 1980 y luego reapareció.
Solo parece mostrar que su uso se redujo alrededor de 40% desde 1800.
Como dijeron otros, el problema de que el eje y no empiece en 0 es claro.
Pero si los autores de etymonline no se dieron cuenta y declararon algo equivocado, es difícil confiar en ellos; y resulta especialmente irónico porque el ejemplo posterior de “miren, no hay descenso” tiene el eje y en 0 y también muestra una pequeña meseta hacia 1980.
Más aún si se considera el título exagerado y agresivo y la primera oración.
- El problema no es solo el eje del gráfico.
  No es que el uso de “toast” se haya reducido 40%, sino que el conjunto de datos de Google cambió bruscamente a una composición de géneros muy distinta de la anterior.
  Hablé con personas que intentaban explicar la caída de los años 70, y nadie, incluyéndome, se dio cuenta de que era una falla dramática de los datos.
Creo que el título no encaja bien con este texto.
Este tipo de resultados tiene más que ver con el deseo de clickbait, o con su versión científica, que con la “claridad”.
Por ejemplo, no es que un artículo de Science o Nature tenga una probabilidad especialmente alta de ser correcto; pero sí es probable que sea llamativo y radical, sobre todo en áreas como la física cuando no son el campo central de uno.
En cambio, el nombre “Real Clear Politics” siempre me sonó áspero.
Porque creo que en la política no hay nada “Real” ni “Clear”.
Para mí, el mejor libro sobre política es Fear and Loathing on the Campaign Trail ‘72, de Hunter S. Thompson.
Es una crónica personal en la que sigue a los candidatos, recoge a un autoestopista a las 3 de la madrugada y, aun estando drogado en un tren, tiene momentos de lucidez aguda en los que entiende el procedimiento parlamentario que llevó a la nominación de McGovern.
Dentro de 20 años saldrá un libro meticuloso, con argumentos sólidos, diciendo que todo lo que creíamos sobre los acontecimientos políticos de hoy era incorrecto y que en realidad ocurrió otra cosa.
Mientras tanto, la gente tendrá puntos de vista extremadamente distintos, y esa es la realidad.
Adjetivos como “real” y “clear” son un intento de cerrar la mayoría de esas perspectivas y privilegiar solo una.
También me viene a la mente cómo Baudrillard deconstruyó a fondo la palabra “real” en Simulacra and Simulation.
Hace entendible que quienes venden falsificaciones pongan por delante la palabra “real”.
Que la Cienciología se llame a sí misma “la ciencia de la certeza” va en la misma línea.
- Ese libro que saldrá dentro de 20 años también estará equivocado.
  Una cosa buena de la política es que las motivaciones son muy claras.
  Los políticos primero quieren conservar el poder, y después viene el deseo de mejorar la situación.
  Una vez que entiendes esto, todo tiene sentido.
  Aunque nunca llegues a saber qué ocurrió realmente.
Nunca se puede crear una imagen representativa del pasado.
Tenemos que trabajar solo con las fuentes limitadas que sobrevivieron, y no están distribuidas de manera uniforme en el tiempo ni en el espacio.
Cuando una persona muere, se produce una pérdida de datos esencial: desaparecen sus impresiones, sus experiencias no registradas e incluso los olores familiares.
También los recuerdos de una persona viva pueden volverse poco confiables en algún momento.
- Por eso siempre me pareció extraño que solo las personas con una representatividad social distorsionada por la fama o la riqueza terminen teniendo biografías en Wikipedia.
- No es solo en algún momento: la memoria humana es sorprendentemente poco confiable.
  Un ejemplo que puedes probar directamente: https://youtu.be/vJG698U2Mvo?si=16fwk8wG8Yyhim5t
Es difícil decir que Google Ngram esté equivocado
Lo que hace es informar estadísticas sobre las palabras que identificó correctamente en el corpus
El problema es el contexto de esas estadísticas
Se puede decir con cierta confianza que “en el corpus de Google Books, el uso de said disminuyó en cierto momento”
Se puede decir con más confianza dentro del subconjunto del corpus en el que el OCR identificó correctamente todas las apariciones de esa palabra
Pero sin datos suficientes no se debería hacer la afirmación más amplia de que “el uso de esta palabra disminuyó en cierto momento”
- Si el meme de los economistas es “depende”, el meme trascendental de los estadísticos es hacen falta más datos
  Hasta que resolvamos la teoría de la gran unificación, no podemos estar completamente seguros de la integridad de los datos ni de la inferencia estadística
  Lo incorrecto es engañar al público para alejarlo de esta comprensión
- Por eso, al hacer estadísticas inferenciales sobre una población, la metodología de muestreo es mucho más importante que el tamaño de la muestra
  Tomar una muestra de un millón de libros de un corpus académico y elegir los 10 best sellers de cada década del siglo XX producen corpus lingüísticos muy distintos
Es el clásico error de no incluir el 0 en el eje vertical del gráfico
Si piensas “pero entonces casi no se vería el cambio”, tienes razón
Si quitas el 0, puedes hacer que cambios pequeños parezcan grandes
- Por el contrario, también hay casos en los que conviene resaltar cambios pequeños
  Si fuera un gráfico de control que muestra el peso de llenado de una caja de cereal, probablemente no querrías poner el 0 en la gráfica
  Tampoco hace falta trazar la temperatura diaria de una ciudad en una gráfica que llegue hasta 0 kelvin
- ¿Soy el único que piensa que el gráfico en sí está bien y que el texto solo exageró un poco?
  Se ve estable durante casi un siglo y luego de pronto cae alrededor de un 50%
- Incluir el 0 habría ayudado con el gráfico de “said”, pero no lo habría resuelto
  Aun así habría parecido que “said” cayó a casi un tercio de su popularidad anterior, cuando en realidad lo que cambió mucho fue la composición de la muestra
¿Esto significa que n-gram está mal, o que lo que se puede decir con n-gram es limitado?
Los datos son interesantes, pero no estoy seguro de qué conclusión sacar
Se siente raro, como si estuviéramos consultando libros del pasado con el vocabulario de hoy
Un ejemplo simple que conozco: si buscas “þe”, no hay muchos resultados
En términos históricos, en general es cierto que “þ” desapareció alrededor del siglo XV
Pero si incluyes también “ye”, aparecen muchísimos usos
¿Es esta la función prevista de n-gram?
Parece más bien un error de codificación transmitido a lo largo del tiempo
Es parecido a enojarse con el Gran Desplazamiento Vocálico sin darse cuenta de que nuestros símbolos fonéticos no son una verdad universal fija

Quien ansía la certeza ansía la mentira

Las extrañas frecuencias de palabras que produce Google Ngram

Distorsiones causadas por OCR, ortografía y errores de fecha

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News