Los amigos ayudan a que sus amigos no hagan gráficos pésimos
(github.com/cxli233)Buenos y malos ejemplos de visualización de datos
- Un ensayo con opiniones sobre visualización de datos que incluye ejemplos y explicaciones de buenas y malas visualizaciones.
No hacer gráficos de barras para separar promedios
- Los gráficos de separación de promedios se ven con frecuencia en publicaciones científicas, pero un gráfico de barras no es adecuado para representar si dos grupos con distribuciones y desviaciones estándar similares son realmente iguales.
- Se enfatiza que hay varias cosas que revisar antes de usar un gráfico de barras.
No hacer violin plots con tamaños de muestra pequeños
- En muestras pequeñas, la distribución y los cuartiles pueden variar mucho, por lo que un violin plot no tiene sentido.
- Se confirma mediante experimentos que la distribución se estabiliza cuando el tamaño de muestra es de 50 o más.
No usar escalas de color bidireccionales para datos unidireccionales
- Usar una escala de color bidireccional para datos unidireccionales es un gran error en visualización de datos.
- La escala de color debe representar valores especiales con significado.
No representar resultados de experimentos multifactoriales con gráficos de barras
- Para comunicar de forma efectiva los resultados de experimentos multifactoriales, se necesita un diseño cuidadoso del agrupamiento o la diferenciación por factor.
No hacer heatmaps sin reordenar filas y columnas
- Los heatmaps deben construirse de forma efectiva considerando el orden de las filas y las columnas.
- Es posible reordenar filas y columnas mediante clustering, aunque no es la única forma de hacerlo.
No hacer heatmaps sin revisar outliers
- Si no se revisan los outliers en un heatmap, la interpretación de los datos puede verse muy afectada.
No olvidar revisar el rango de datos en cada nivel del factor
- En experimentos multifactoriales, el rango de la variable de respuesta puede variar mucho según el nivel del factor.
No hacer gráficos de red sin probar distintos layouts
- La apariencia de un gráfico de red es un elemento importante que determina su efectividad.
- Cambiar el layout puede facilitar la interpretación del gráfico de red.
No confundir visualización basada en posición con visualización basada en longitud
- Confundir una visualización basada en posición con una basada en longitud puede provocar malentendidos.
- En un gráfico de barras, no partir desde 0 es un gran error de visualización.
No hacer pie charts
- Los pie charts son criticados porque las personas no son buenas para leer ángulos y áreas.
- Si se quiere representar los datos por longitud, es mejor desenrollar el donut chart y convertirlo en un gráfico de barras apiladas.
No hacer donut charts concéntricos
- Los donut charts concéntricos pueden representar mal los datos porque la longitud del arco del anillo exterior es mucho mayor que la del anillo interior.
- Una alternativa simple y efectiva es desenrollar el donut chart y convertirlo en un gráfico de barras apiladas.
No usar escalas de color rojo/verde ni arcoíris
- Deben usarse escalas de color amigables para personas con daltonismo y que conserven bien la información también en escala de grises.
No olvidar reordenar los gráficos de barras apiladas
- Cuando hay muchas muestras y clases, conviene optimizar el orden del gráfico de barras apiladas para que sea efectivo.
Opinión de GN⁺
Lo más importante de este texto es aumentar la conciencia sobre los errores comunes que se cometen al hacer visualización de datos y cómo evitarlos. La visualización de datos es una herramienta poderosa para transmitir información compleja de manera fácil de entender, pero si se usa mal puede generar interpretaciones erróneas. Este texto ofrece una guía interesante y útil para cualquiera que quiera comunicar datos con precisión y claridad.
2 comentarios
El título del artículo es divertido. Si ven el artículo original, incluye un gráfico de ejemplo, así que es fácil de entender.
Opinión de Hacker News