La paradoja de Simpson
- La paradoja de Simpson es un fenómeno en probabilidad y estadística en el que aparece una tendencia en los datos de varios grupos, pero al combinar los grupos la tendencia desaparece o se invierte.
- Este resultado se encuentra con frecuencia en las ciencias sociales y en la estadística médica, y es especialmente problemático cuando se hace una interpretación causal injustificada de datos de frecuencia.
- En el modelado estadístico, esta paradoja puede resolverse si se tratan adecuadamente las variables de confusión y las relaciones causales.
Ejemplos
Sesgo de género en UC Berkeley
- En las estadísticas de admisión a posgrado de UC Berkeley del otoño de 1973, parecía que los hombres tenían una mayor probabilidad de ser admitidos que las mujeres.
- Sin embargo, al considerar la información de admisión por departamento, se observa que las mujeres tendían a postularse a departamentos con mayor competencia, mientras que los hombres tendían a postularse a departamentos relativamente menos competitivos.
- Al ajustar los datos totales, aparece un “sesgo estadísticamente significativo ligeramente favorable a las mujeres”.
Tratamiento de cálculos renales
- Ejemplo tomado de un estudio médico real que comparó las tasas de éxito de dos tratamientos para los cálculos renales.
- Tanto en cálculos pequeños como en cálculos grandes, el tratamiento A es más efectivo, pero al considerar ambos tamaños en conjunto, el tratamiento B parece más efectivo.
- Esta paradoja ocurre por una variable oculta: el tamaño del cálculo, y aparece cuando esa variable no se toma en cuenta.
Promedio de bateo
- La paradoja de Simpson puede aparecer al comparar el promedio de bateo de jugadores profesionales de béisbol.
- Un jugador puede tener un promedio de bateo más alto que otro durante varios años, pero al combinar esos años puede terminar con un promedio más bajo.
Críticas
- Existe la crítica de que la paradoja de Simpson en realidad no es una paradoja, sino un problema que surge por no considerar correctamente la relación causal entre variables.
- Si los datos se clasifican de otra manera o se consideran otras variables de confusión, el fenómeno puede desaparecer o invertirse.
- También se señala que el enfoque en la paradoja de Simpson puede desviar la atención de problemas más importantes que deben considerarse al hacer análisis estadístico.
Opinión de GN⁺
- La paradoja de Simpson ofrece una lección importante en el análisis de datos y la inferencia estadística. Subraya que, al interpretar datos, no basta con comparar cifras simples, sino que es importante entender la relación entre variables y el contexto de la situación.
- Esta paradoja recuerda a científicos de datos e investigadores que, al analizar datos, deben identificar las variables de confusión y usar métodos estadísticos adecuados para aclarar las relaciones causales.
- La paradoja de Simpson puede usarse como un caso que destaca la importancia de las técnicas de análisis de datos para evitar interpretaciones erróneas y llegar a conclusiones más precisas.
- En la educación en ciencia de datos, la paradoja de Simpson puede utilizarse como una herramienta pedagógica importante y ayudar a crear conciencia sobre errores potenciales que pueden surgir al interpretar conjuntos de datos complejos.
- Entre las metodologías estadísticas que ayudan a comprender y resolver esta paradoja están el análisis multivariado, la regresión logística y los modelos de inferencia causal; estos métodos son esenciales para que los analistas de datos resuelvan problemas del mundo real.
1 comentarios
Comentarios en Hacker News
Un analista de datos contó que, cuando trabajaba en la empresa de comercio electrónico The Hut Group, se reportó que los costos de marketing estaban bajando, pero en realidad casi se habían duplicado.
El matemático Jordan Ellenberg sostiene que la paradoja de Simpson en realidad no es una contradicción, sino que trata de dos perspectivas distintas para mirar los datos.
Un profesor de estadística usó datos de precios de viviendas en Estados Unidos para explicar la paradoja de Simpson.
También hay que conocer la paradoja de Berkson.
La breve animación de la página de Wikipedia sobre la paradoja de Simpson es un buen ejemplo que ayuda a entenderla.
Hace poco alguien se dio cuenta de que la paradoja de Simpson también ofrece una lección sobre la inferencia causal.
La paradoja de Lord está estrechamente relacionada con la paradoja de Simpson y es fácil de entender visualmente.
Alguien pensó por error que la paradoja de Simpson en realidad se parecía a una escena de un episodio de "Los Simpson", aunque podría tratarse de una similitud intencional por parte de los guionistas de la serie a finales de los 90.
Al leer sobre un caso del proceso de admisión en UC Berkeley que parecía mostrar sesgo de género, se descubrió que las mujeres y los hombres tendían a postularse a carreras más y menos competitivas, respectivamente.
La visualización de Wikipedia es muy efectiva, tanto que permite entender la paradoja sin necesidad de una explicación adicional.