3 puntos por GN⁺ 2024-03-13 | 1 comentarios | Compartir por WhatsApp

La paradoja de Simpson

  • La paradoja de Simpson es un fenómeno en probabilidad y estadística en el que aparece una tendencia en los datos de varios grupos, pero al combinar los grupos la tendencia desaparece o se invierte.
  • Este resultado se encuentra con frecuencia en las ciencias sociales y en la estadística médica, y es especialmente problemático cuando se hace una interpretación causal injustificada de datos de frecuencia.
  • En el modelado estadístico, esta paradoja puede resolverse si se tratan adecuadamente las variables de confusión y las relaciones causales.

Ejemplos

Sesgo de género en UC Berkeley

  • En las estadísticas de admisión a posgrado de UC Berkeley del otoño de 1973, parecía que los hombres tenían una mayor probabilidad de ser admitidos que las mujeres.
  • Sin embargo, al considerar la información de admisión por departamento, se observa que las mujeres tendían a postularse a departamentos con mayor competencia, mientras que los hombres tendían a postularse a departamentos relativamente menos competitivos.
  • Al ajustar los datos totales, aparece un “sesgo estadísticamente significativo ligeramente favorable a las mujeres”.

Tratamiento de cálculos renales

  • Ejemplo tomado de un estudio médico real que comparó las tasas de éxito de dos tratamientos para los cálculos renales.
  • Tanto en cálculos pequeños como en cálculos grandes, el tratamiento A es más efectivo, pero al considerar ambos tamaños en conjunto, el tratamiento B parece más efectivo.
  • Esta paradoja ocurre por una variable oculta: el tamaño del cálculo, y aparece cuando esa variable no se toma en cuenta.

Promedio de bateo

  • La paradoja de Simpson puede aparecer al comparar el promedio de bateo de jugadores profesionales de béisbol.
  • Un jugador puede tener un promedio de bateo más alto que otro durante varios años, pero al combinar esos años puede terminar con un promedio más bajo.

Críticas

  • Existe la crítica de que la paradoja de Simpson en realidad no es una paradoja, sino un problema que surge por no considerar correctamente la relación causal entre variables.
  • Si los datos se clasifican de otra manera o se consideran otras variables de confusión, el fenómeno puede desaparecer o invertirse.
  • También se señala que el enfoque en la paradoja de Simpson puede desviar la atención de problemas más importantes que deben considerarse al hacer análisis estadístico.

Opinión de GN⁺

  • La paradoja de Simpson ofrece una lección importante en el análisis de datos y la inferencia estadística. Subraya que, al interpretar datos, no basta con comparar cifras simples, sino que es importante entender la relación entre variables y el contexto de la situación.
  • Esta paradoja recuerda a científicos de datos e investigadores que, al analizar datos, deben identificar las variables de confusión y usar métodos estadísticos adecuados para aclarar las relaciones causales.
  • La paradoja de Simpson puede usarse como un caso que destaca la importancia de las técnicas de análisis de datos para evitar interpretaciones erróneas y llegar a conclusiones más precisas.
  • En la educación en ciencia de datos, la paradoja de Simpson puede utilizarse como una herramienta pedagógica importante y ayudar a crear conciencia sobre errores potenciales que pueden surgir al interpretar conjuntos de datos complejos.
  • Entre las metodologías estadísticas que ayudan a comprender y resolver esta paradoja están el análisis multivariado, la regresión logística y los modelos de inferencia causal; estos métodos son esenciales para que los analistas de datos resuelvan problemas del mundo real.

1 comentarios

 
GN⁺ 2024-03-13
Comentarios en Hacker News
  • Un analista de datos contó que, cuando trabajaba en la empresa de comercio electrónico The Hut Group, se reportó que los costos de marketing estaban bajando, pero en realidad casi se habían duplicado.

    • El equipo de marketing informó que los costos de marketing habían disminuido en cada categoría de producto, pero como la proporción de ventas de la categoría de suplementos nutricionales aumentó mucho, la tasa total de costos de marketing subió.
    • Esto sirvió como una oportunidad para explicar la paradoja de Yule-Simpson, un ejemplo que muestra la diferencia entre el desempeño individual y el resultado global.
  • El matemático Jordan Ellenberg sostiene que la paradoja de Simpson en realidad no es una contradicción, sino que trata de dos perspectivas distintas para mirar los datos.

    • Este es un método de análisis importante que consiste en considerar al mismo tiempo las partes y el conjunto en el análisis de datos.
  • Un profesor de estadística usó datos de precios de viviendas en Estados Unidos para explicar la paradoja de Simpson.

    • El precio promedio de las viviendas sin aire acondicionado central resultó ser más alto que el de las viviendas que sí lo tenían, pero al dividir los datos por estado, la relación aparecía invertida.
    • Esto fue consecuencia de que las viviendas caras de California elevaron el precio promedio.
  • También hay que conocer la paradoja de Berkson.

    • Explica que pueden surgir errores en conjuntos de datos generados de manera sesgada.
  • La breve animación de la página de Wikipedia sobre la paradoja de Simpson es un buen ejemplo que ayuda a entenderla.

  • Hace poco alguien se dio cuenta de que la paradoja de Simpson también ofrece una lección sobre la inferencia causal.

    • Si se aplica el paradigma correcto, la paradoja se resuelve.
  • La paradoja de Lord está estrechamente relacionada con la paradoja de Simpson y es fácil de entender visualmente.

    • Usando como ejemplo la relación entre la dosis de un medicamento y las horas de sueño, la línea de regresión de los datos individuales y la de los datos agregados muestran resultados distintos.
  • Alguien pensó por error que la paradoja de Simpson en realidad se parecía a una escena de un episodio de "Los Simpson", aunque podría tratarse de una similitud intencional por parte de los guionistas de la serie a finales de los 90.

  • Al leer sobre un caso del proceso de admisión en UC Berkeley que parecía mostrar sesgo de género, se descubrió que las mujeres y los hombres tendían a postularse a carreras más y menos competitivas, respectivamente.

    • Esto contrasta con la situación en Australia y con la expectativa general de que las carreras de artes suelen ser más fáciles de ingresar que las carreras STEM.
  • La visualización de Wikipedia es muy efectiva, tanto que permite entender la paradoja sin necesidad de una explicación adicional.