El efecto Dunning-Kruger es autocorrelación

(economicsfromthetopdown.com)

1 puntos por GN⁺ 2023-11-26 | 1 comentarios | Compartir por WhatsApp

El famoso patrón de que “las personas inexpertas sobrestiman sus capacidades” podría ser, más que un rasgo estable de la psicología humana, un producto estadístico de mezclar en el mismo eje las puntuaciones del examen y el error de autoevaluación
La clave es la autocorrelación: si se compara de nuevo la diferencia entre la puntuación del examen x y la autoevaluación y, es decir y−x, contra x, entonces x aparece en ambos lados de la ecuación y la misma forma surge incluso con datos aleatorios
El gráfico de Dunning y Kruger de 1999 divide a los participantes en cuartiles según sus puntuaciones del examen y compara el promedio percentil de la puntuación real con el de la capacidad percibida, haciendo que la diferencia entre ambas líneas parezca un efecto psicológico
Si unas “puntuaciones de examen” y “autoevaluaciones” creadas al azar se procesan del mismo modo, también pueden producir una curva tipo Dunning-Kruger en la que los de bajo rendimiento parecen confiados en exceso y los de alto rendimiento parecen humildes
Las críticas de Nuhfer et al. en 2016 y 2017, y la de Gignac y Zajenkowski en 2020, señalaron el mismo problema, pero las tres suman solo 88 citas en Google Scholar, muy por debajo de las 7,893 del artículo original

Revisión estadística del efecto Dunning-Kruger

El efecto Dunning-Kruger se conoce por el estudio de 1999 de Justin Kruger y David Dunning, y se refiere a la tendencia de las personas con menor habilidad a sobreestimar su capacidad
El foco de esta crítica es que dicho efecto aparece de forma repetida en los datos no tanto por un fenómeno psicológico, sino por la autocorrelación
La autocorrelación ocurre cuando una variable se correlaciona consigo misma
- En su forma pura, es una circularidad evidente, como “5 = 5”
- Pero cuando la misma variable queda mezclada en ambos lados de una ecuación, no siempre se nota fácilmente
Por ejemplo, si x e y no tienen relación entre sí, y se construye z = x + y, al correlacionar z con x, x queda en ambos lados y parece surgir una correlación

La estructura del gráfico original de Dunning-Kruger

Dunning y Kruger pidieron a los participantes presentar una prueba de habilidad y luego evaluar su propia capacidad
El eje horizontal del gráfico es un eje categórico que divide a las personas en 4 grupos de cuartiles (quartile) según la puntuación del examen
- Aunque parece un eje categórico, en realidad representa el orden de la puntuación del examen x
El eje vertical muestra tanto la puntuación real como la capacidad percibida en percentiles (percentile)
La línea gris representa el percentil promedio de la puntuación real del examen en cada grupo por cuartil
- En la práctica, es casi como graficar x contra x
La línea negra representa el percentil promedio de la autoevaluación de cada grupo
- Es una estructura que grafica la autoevaluación y contra la puntuación del examen x

La autocorrelación que produce la diferencia entre ambas líneas

Lo que llama la atención en el gráfico de Dunning-Kruger es la diferencia entre la “capacidad percibida” y la “puntuación real del examen”
Matemáticamente, esa diferencia es y−x
- y es la autoevaluación
- x es la puntuación real del examen
Si esa diferencia se interpreta contra el eje horizontal x, la relación pasa a ser (y−x) ~ x
Como x aparece en ambos lados de la ecuación, se produce una autocorrelación en la que x se compara con su propia forma negativa
Por eso, incluso si x e y fueran números aleatorios sin ningún significado psicológico, un gráfico con esta estructura puede producir un patrón que parece el efecto Dunning-Kruger

Incluso los datos aleatorios producen el mismo patrón

Imaginemos un experimento de reproducción ficticio con 1,000 personas, del que se obtienen puntuaciones de examen y autoevaluaciones
Si se hace un diagrama de dispersión con las puntuaciones del examen y las autoevaluaciones individuales tal cual, todo parece completamente aleatorio, sin rastro del efecto Dunning-Kruger
Después se calcula el error de autoevaluación
- error de autoevaluación = autoevaluación − puntuación del examen
Al comparar ese error con la puntuación del examen, aparece una relación fuerte
- Quienes tienen bajo rendimiento parecen demasiado confiados
- Quienes tienen alto rendimiento parecen excesivamente humildes
Si los mismos datos se colocan en un gráfico al estilo Dunning-Kruger, incluso pueden generar una curva que parezca mostrar un efecto mayor que el resultado original
Pero si esos datos no son valores experimentales reales, sino números aleatorios, entonces el patrón observado no es un efecto psicológico, sino el producto de una estructura estadística

La verificación alternativa de Nuhfer et al.

Para correlacionar dos conjuntos de datos de manera estadísticamente válida, ambas mediciones deben haberse obtenido de forma independiente
El gráfico Dunning-Kruger mezcla la puntuación del examen en ambos ejes y viola ese principio
Edward Nuhfer y sus colegas comprobaron cómo cambia el efecto cuando la “habilidad” se mide de una manera independiente del desempeño en el examen o de la autoevaluación
En el análisis de Nuhfer, el eje horizontal usa el nivel educativo y el vertical el error de autoevaluación
- Cada punto representa a una persona
- El error promedio de autoevaluación se muestra con una burbuja verde
Si el efecto Dunning-Kruger existiera, debería verse una tendencia descendente donde el error de autoevaluación disminuye a medida que aumenta el nivel educativo
En esos resultados no aparece tal tendencia, y el error promedio de evaluación se mantiene casi cerca de 0
Aun así, sí parece reducirse la varianza del error de autoevaluación a medida que sube el nivel educativo
- Los profesores tienden a evaluar su propia capacidad con más precisión que los estudiantes de primer ingreso
- Eso es un fenómeno distinto del efecto Dunning-Kruger entendido como un sesgo promedio de sobreconfianza

El sesgo adicional que introduce la conversión a percentiles

La conversión a percentiles añade otro sesgo además de la autocorrelación
Los percentiles tienen un piso y un techo: 0 y 100
- A quienes están cerca del piso les resulta difícil subestimar todavía más su posición
- A quienes están cerca del techo les resulta difícil sobreestimar todavía más su posición
Por esta estructura, es fácil que quienes rinden peor parezcan sobreconfiados y quienes rinden mejor parezcan humildes
Además, la línea que compara el percentil de la puntuación del examen con el cuartil de la puntuación del examen aporta muy poca información adicional sobre la puntuación real, ya que cada cuartil contiene por definición 25 percentiles

Por qué la crítica no se difundió ampliamente

El artículo original de Dunning y Kruger se publicó en 1999
Esta falla de análisis no quedó suficientemente entendida hasta 2016
Los artículos críticos de Edward Nuhfer y sus colegas aparecieron en 2016 y 2017, y Gilles Gignac y Marcin Zajenkowski publicaron una crítica similar en 2020
Según Google Scholar, las tres críticas suman 88 citas, mientras que el artículo de 1999 de Dunning y Kruger acumula 7,893
Las refutaciones de análisis erróneos suelen ser menos conocidas que los artículos originales, y con frecuencia se publican en espacios menos visibles que la revista donde apareció el trabajo inicial
El famoso gráfico de Dunning-Kruger se parece más a un caso de error analítico que interpretó la autocorrelación como un efecto psicológico que a uno sobre “personas inexpertas que no saben que lo son”

1 comentarios

GN⁺ 2023-11-26

Opiniones de Hacker News

Esta interpretación es difícil de aceptar, y esta refutación lo explica mejor: https://andersource.dev/2022/04/19/dk-autocorrelation.html
La idea central es que esta interpretación de autocorrelación muestra que “si el desempeño y la evaluación del desempeño son aleatorios e independientes, se obtiene una forma parecida a la gráfica D-K”, y por eso dice que el efecto es simplemente autocorrelación.
Pero, en realidad, lo más raro sería esperar que el desempeño y la autoevaluación sean independientes. Uno esperaría que las personas puedan evaluar su propia capacidad con cierto grado de precisión, y D-K también mostró una correlación entre ambas, solo que no tan fuerte como se esperaría. El resultado interesante es un sesgo consistente, y aunque las hipótesis sobre su causa pueden debatirse, no hay que ignorar el hecho de que no se espera que las variables sean independientes.
- Si asumimos que el tamaño de la muestra es estadísticamente suficiente, el artículo original muestra claramente dos cosas.
  En promedio, las personas estimaban su propia capacidad alrededor del percentil 65 según los resultados reales, no en el percentil 50 de una simulación aleatoria, y la autoevaluación aumenta junto con la capacidad real, pero sorprendentemente muy poco. La discusión del autor sobre la “autocorrelación” es, en esencia, una distracción irrelevante, y los resultados generados aleatoriamente no coinciden con los del artículo original. Por supuesto, qué tan sólida sea la reproducibilidad es otra cuestión, pero el método de visualización en sí no es problemático; quizá habría sido mejor incluir barras de dispersión.
- La diferencia entre el efecto D-K en su forma original y el efecto D-K en la cultura popular parece ser el mayor caso de D-K en tiempo real.
  Lo interesante del resultado original es que la correlación entre el desempeño real y el desempeño percibido es menor de lo que la intuición sugiere. Pero a medida que el efecto D-K se difundió en la cultura popular, la intuición colectiva también cambió, y ahora, si le explicas el efecto D-K original a una persona cualquiera de internet, quizá le parezca interesante que “la correlación sea mayor de lo que pensaba”. Porque esa persona probablemente habría pensado que la correlación sería negativa.
- Exacto. Entonces, en resumen, si los datos fueran realmente aleatorios y no hubiera correlación, la línea debería ser plana en el centro, de modo que el primer cuartil sería 50% y el cuarto cuartil también 50%.
  Si los datos fueran 100% exactos y precisos [1], la línea sería diagonal, con el primer cuartil alrededor de 12.5% y el cuarto cuartil alrededor de 87.5%. Si los datos fueran exactos pero no precisos, a medida que aumentara la aleatoriedad esa diagonal se transformaría en una línea plana en el centro, cruzando por el 50%. Pero lo que se observa en realidad no es ninguna de esas dos cosas: el primer cuartil está aproximadamente en 60% y el cuarto cuartil en 75%. Esto muestra que existe cierta capacidad de autoevaluación, pero está desviada. El cuartil superior puede parecer una subestimación por el efecto de recorte en la parte alta, pero la sobreestimación del cuartil inferior es difícil de evitar.
  [1] https://en.wikipedia.org/wiki/Accuracy_and_precision
- El autor presupone la conclusión y luego decide cómo analizar los datos.
  Por un lado, dice que “es mucho más razonable asumir que las personas pueden evaluar su propio desempeño”, y por otro, que “no se opone a la afirmación de que, cuanto mayor es la habilidad, mejor se evalúa el propio desempeño”; así es difícil mantener la credibilidad. Trata una variable clave como si fuera fija, pero luego reconoce que esa misma variable cambia dentro del mismo conjunto de datos, así que le falta coherencia interna.
- En el artículo original de D-K [1] vi dos puntos interesantes que debilitan esta objeción razonable.
  La gráfica lineal y pulida que todos asocian con D-K es solo una de cuatro, y las otras tres son mucho más desordenadas; el artículo también trata casos en los que la correlación es débil o inexistente. Además, esa gráfica que parece perfecta medía el sentido del humor. Es muy probable que el humor genere casi puro ruido entre la autoevaluación y la evaluación de expertos, en este caso la de comediantes profesionales. Si prácticamente todos están adivinando al azar su propio desempeño, siempre aparece una forma D-K marcada: los de arriba subestiman y los de abajo sobreestiman. El experimento que intentó medir la inteligencia de la manera más simple y directa fue el número 2, basado en problemas de lógica del LSAT, y la gráfica de resultados es muy irregular. El artículo también dice que “los participantes no sobreestimaron el número de preguntas correctas, y la percepción de capacidad tenía una relación positiva con la capacidad real, pero no significativa”. Esto parece otro Zimbardo.
  [1] - https://sci-hub.se/10.1037/0022-3514.77.6.1121
Los autores hicieron “X - Y contra X”, pero el problema mayor es que restaron dos mediciones transformadas de 0 a 1 y con límites.
En los extremos de los límites, ¿cuánto puede sobreestimar su propio desempeño alguien de alto rendimiento? Como ya está casi en 1, no mucho. Aunque en los valores crudos la sobreestimación y la subestimación ocurran con la misma frecuencia y magnitud, por el efecto techo de los valores transformados, la gráfica hace parecer que los de alto rendimiento subestiman con más frecuencia. Con los de rendimiento más bajo ocurre el problema contrario. Véanse las figuras 7, 8 y 9 de “Random Number Simulations Reveal How Random Noise Affects the Measurements and Graphical Portrayals of Self-Assessed Competency.” Numeracy 9, Iss. 1 (2016)
- Pensé exactamente eso. Aunque no sea solo regresión a la media, parece difícil que salga otro resultado que no sea el efecto D-K.
  El cuartil más bajo no puede decir que está por debajo del cuartil más bajo, así que cualquier error cuenta como “exceso de confianza”. El cuartil más alto no puede decir que está por encima del cuartil más alto, así que cualquier error cuenta como “falta de confianza”.
- Si las personas de todos los niveles de habilidad midieran bastante bien su propia capacidad, las dos curvas deberían superponerse en gran medida, pero en realidad aparece la gráfica presentada.
  El hecho de que el ruido aleatorio pueda generar la curva promedio del eje Y no significa que D-K no exista. Solo significa que el autoanálisis promedio de D-K se parece a un promedio aleatorio intermedio, y si uno lo piensa, tiene sentido. La mayoría probablemente se evalúe como promedio, sin importar su habilidad real, así que D-K sigue pareciendo válido.
- Recortar los extremos puede ayudar a manejarlo en cierta medida. Incluso en la gráfica del artículo enlazado, si se miran solo los cuartiles intermedios, se ve la misma tendencia.
- La log-normalidad podría ser fatal para la metodología de los científicos sociales.
  Si asumimos un mecanismo subyacente, la capacidad cruda de quienes participan en el examen podría seguir una distribución log-normal. Esto se debe a que participar en el examen implica de forma tácita un umbral inferior de IQ, y también existen colas largas en ámbitos de alto rendimiento como los deportes. El examen intenta medir el desempeño, pero lo reduce a una distribución normal o a 4 categorías, y las personas estiman su propia capacidad con base en la tarea y la experiencia de calificación, lo que también termina reducido a una distribución normal o constante. En cierto sentido, la reducción de dimensionalidad ocurre, implícita o explícitamente, en tres lugares; no envidio a los investigadores que tienen que pelar esta cebolla. Aun así, ver cómo se van resolviendo estos problemas en experimentos diseñados de forma accesible mejora la comprensión.
- El carácter acotado de los datos también es un argumento central aquí: https://www.frontiersin.org/articles/10.3389/fpsyg.2022.8401...
En los comentarios del artículo, el debate entre Nicolas Boneel y el autor es interesante, y Nicolas expresa bien las dudas que me surgieron al leerlo.
El punto central del efecto D-K es que las personas son malas estimando su propia habilidad, así que si se asume que estiman su nivel de habilidad al azar, naturalmente se reproduce el resultado. El modelo correcto de un mundo sin D-K debería ser aproximadamente puntaje estimado en el examen = puntaje real en el examen + ruido, y el D-K falso esperado en ese caso sería solo el que surge por los límites del puntaje mínimo y máximo. Ese efecto debería ser proporcional a la varianza del ruido, pero la varianza del conjunto de datos adicional parece demasiado baja como para explicar suficientemente el efecto observado. Además, en este modelo, en promedio todos deberían acertar en qué mitad de la distribución se encuentran, pero incluso el cuartil más bajo parece haber estimado su capacidad por encima del percentil 50.
- El modelo correcto probablemente sea puntaje estimado en el examen + ruido de estimación = puntaje real en el examen + ruido del examen.
  En los exámenes hay elementos aleatorios, como adivinar, que una persona no puede estimar.
  https://en.m.wikipedia.org/wiki/Regression_dilution
  https://en.m.wikipedia.org/wiki/Errors-in-variables_models
- Que los datos parezcan aleatorios no significa que se haya llegado a la causa.
  Esas gráficas podrían reflejar un nivel de habilidad bajo en general, o una estructura más sutil: poca capacidad de estimación en la parte baja, mejora en el medio, y en la parte alta una mezcla de alta habilidad y humildad aprendida.
- Depende del ruido que se aplique. Si a todos se les agrega un ruido de -10% a +100%, se obtiene una gráfica más o menos parecida a la de Dunning-Kruger.
  Así que no hay razón para creer que las personas más habilidosas estimen mejor su capacidad; simplemente tienen la restricción de que no pueden estimar su ranking por encima del máximo.
Cuidado con un término no estándar: el autor usa autocorrelación de una forma que yo nunca había visto.
Normalmente, la autocorrelación se refiere a la correlación de una serie temporal consigo misma desplazada por cierta cantidad de tiempo. Usarla como en el texto original confunde a quienes saben estadística, y también ocurre lo contrario.
- En el mejor de los casos es un término no estándar; más precisamente, está rompiendo el núcleo de la autocorrelación, porque no deja claro que se trata de una relación temporal.
  El artículo dice que “la autocorrelación ocurre cuando se correlaciona una variable consigo misma”, pero la definición estándar se acerca más a “el grado de correlación que tienen las mismas variables entre dos intervalos de tiempo consecutivos”; es un concepto que mide cómo se relacionan los valores rezagados de una serie temporal con sus valores originales, y también se conoce como correlación serial.
- Donde más comúnmente se encuentra la autocorrelación es en series temporales, pero incluso en ese contexto lo que dice el autor no es completamente incorrecto.
  La autocorrelación de una serie temporal relaciona la misma función de serie temporal en distintos momentos. En lo más simple, se puede graficar comparando X, un arreglo donde X[i] = f(t[i]), contra X; y también se puede complicar más como g(X) contra X, usando una transformación como un promedio móvil.
- Me pregunto qué término sería adecuado para describir a qué se refiere el autor.
Si pensamos en el mundo hipotético que describe el autor, donde las estimaciones que las personas hacen de sus puntajes son independientes de sus puntajes reales, ¿no podríamos decir que en ese mundo el efecto D-K es real?
El núcleo de este efecto es que las personas con puntajes bajos tienden a sobreestimar su puntaje, y las personas con puntajes altos tienden a subestimarlo. Puede haber varias razones racionales para que eso ocurra, incluido el caso en que nadie logra intuir bien su propio puntaje, como en el ejemplo de juguete del autor, pero el fenómeno en sí parece correcto.
- Justamente ese es el punto
  El ejemplo de puntos aleatorios del autor es malo, porque es razonable esperar que las personas se comporten de forma distinta a puntos aleatorios uniformes. Quienes son buenos en algo estimarán que son buenos, y quienes son malos estimarán que son malos. A nuestros hijos les gustan las matemáticas y esperan que les vaya bien en los exámenes de matemáticas, y por lo general efectivamente les va bien. Entre sus compañeros hay niños que dicen en voz alta que odian las matemáticas, esperan que les vaya mal y, de hecho, hasta cierto punto les va mal. Yo no sé cocinar, así que si participara en un concurso de cocina no dudaría de que recibiría puntajes bajos de los jueces. Los datos esperados están correlacionados. Pero si en el estudio resulta que casi no hay esa correlación, y muchas personas que esperaban hacerlo bien lo hacen mal, y muchas que esperaban hacerlo mal lo hacen bien, es decir, si se ve como datos aleatorios uniformes, entonces ese sería un resultado sorprendente y me parece que sería el efecto D-K. No soy estadístico, así que quizá se me esté escapando algo.
- Aunque sea una ilusión estadística, la correlación en sí es verdadera, pero entonces ya no habría razón para que un psicólogo la estudiara
  Uno podría tirar un dado, luego tirar un segundo dado y estudiar por qué el segundo dado tiende a sumar 7 con el primero. Si fueran dados, descartaríamos la idea por tonta, pero si el objeto son personas, es fácil dejarse llevar por una teoría psicológica equivocada sobre ellas.
La definición de autocorrelación en el artículo es “ocurre cuando se correlaciona una variable consigo misma”, pero la definición de Wikipedia es “en tiempo discreto, también llamada correlación serial, es la correlación de una señal con una copia retrasada de sí misma como función del retraso”
Por supuesto, un retraso de 0 es un caso trivial de retraso temporal, pero la definición del artículo es, en el mejor de los casos, imprecisa. El D-K no tiene nada que ver con retrasos temporales, y llamarlo autocorrelación parece un juego de palabras poco convincente.
- Para ser justos, en geoestadística también existe la autocorrelación espacial, así que el término autocorrelación no implica necesariamente que la dimensión de variación sea el tiempo.
Aquí parece haber una confusión sobre qué significa “sesgo”
Si las personas hicieran autoevaluaciones al azar, todos los de alto desempeño terminarían subestimándose, pero como la elección misma es aleatoria, eso no sería un sesgo hacia la subestimación. En cambio, el gráfico D-K muestra otro sesgo y encaja bastante con lo esperado. Quien no tiene conocimiento asume que tiene una habilidad promedio y exagera su posición; quien es muy sobresaliente piensa que los demás saben tanto como él y evita calificarse como el mejor. La suposición común de ambos grupos es que uno es normal y los demás son parecidos. Creo que la mayoría pensaría que está en el promedio, y esto se podría verificar fácilmente pidiéndoles que evalúen qué tan bien le iría a una persona promedio en un examen y luego comparándolo con sus puntajes individuales. Casi con seguridad, los de alto desempeño sobreestimarían el promedio y los de bajo desempeño lo subestimarían.
Si hay una relación lineal entre el puntaje de examen X, es decir, la capacidad, y la autoevaluación Y, es decir, la autopercepción, las variables aleatorias se modelan como Y ~ aX + b + N
Aquí N es ruido estadísticamente independiente con media 0. Entonces la covarianza es Cov(Y-X, X) = (a-1) Var[X], y para obtener el “efecto D-K” debe cumplirse (a-1) < 0, es decir, a < 1. Si a=0, como en el artículo del blog, claramente se cumple; y en el caso ideal a=1, b=0, apenas deja de cumplirse. Si a > 1, aparece un efecto completamente nuevo sobre expertos arrogantes. Por lo tanto, desde esta perspectiva de autocorrelación, lo importante es únicamente qué tan rápido aumenta la autoevaluación de una persona a medida que aumenta su capacidad. Mientras se subestime esa tasa de aumento, aparece el efecto D-K. Pero este análisis ignora b. Si a=0.8, b=0, encaja con la perspectiva de autocorrelación, pero como todos subestiman su propia capacidad, no aparece el llamado efecto D-K. Al final, b, es decir, el valor previo de capacidad que todos asumen tener, es importante. Lo que muestra el artículo de D-K es b > .5, y eso coincide con el espíritu de la interpretación popular. No debería asumirse que las personas tienen al menos una capacidad superior al promedio. Al mismo tiempo, como b no es absurdamente mayor que .5, también dan ganas de dejar cierto margen a los “inexpertos e ignorantes”. Tomar el promedio como línea base en realidad es imposible, pero intuitivamente parece plausible.
Eso no es autocorrelación. El texto original equipara la dependencia lineal con la autocorrelación, pero el término no se usa así
La autocorrelación se refiere a cuando un proceso estocástico se correlaciona con una versión retrasada de sí mismo en el tiempo.
Parece que mucha gente no leyó el artículo original hasta el final. El punto central aparece al hacer referencia a este artículo: https://digitalcommons.usf.edu/cgi/viewcontent.cgi?article=1...
La figura 2 de ese artículo muestra resultados experimentales donde la habilidad y la percepción de la propia habilidad se midieron de forma independiente. Es un diseño pensado para eliminar el artefacto estadístico de la autocorrelación. Pero, en promedio, la habilidad no está correlacionada con la precisión de la autoevaluación, y no hay ningún efecto D-K. Lo que sí aparece en realidad es que las personas más competentes estiman su propia habilidad de manera más consistente, es decir, con menor variabilidad en sus evaluaciones, pero la precisión promedio sigue siendo 0. Por lo tanto, en promedio, la habilidad real y la habilidad percibida no están correlacionadas, y eso es exactamente lo que muestra la demostración numérica con números aleatorios. Por eso, en muchos casos corresponde aplicar la navaja de Occam.

El efecto Dunning-Kruger es autocorrelación

Revisión estadística del efecto Dunning-Kruger

La estructura del gráfico original de Dunning-Kruger

La autocorrelación que produce la diferencia entre ambas líneas

Incluso los datos aleatorios producen el mismo patrón

La verificación alternativa de Nuhfer et al.

El sesgo adicional que introduce la conversión a percentiles

Por qué la crítica no se difundió ampliamente

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News