3 puntos por GN⁺ 2023-11-21 | 2 comentarios | Compartir por WhatsApp

Buenos y malos ejemplos de visualización de datos

  • Un ensayo con opiniones sobre visualización de datos que incluye ejemplos y explicaciones de buenas y malas visualizaciones.

No hacer gráficos de barras para separar promedios

  • Los gráficos de separación de promedios se ven con frecuencia en publicaciones científicas, pero un gráfico de barras no es adecuado para representar si dos grupos con distribuciones y desviaciones estándar similares son realmente iguales.
  • Se enfatiza que hay varias cosas que revisar antes de usar un gráfico de barras.

No hacer violin plots con tamaños de muestra pequeños

  • En muestras pequeñas, la distribución y los cuartiles pueden variar mucho, por lo que un violin plot no tiene sentido.
  • Se confirma mediante experimentos que la distribución se estabiliza cuando el tamaño de muestra es de 50 o más.

No usar escalas de color bidireccionales para datos unidireccionales

  • Usar una escala de color bidireccional para datos unidireccionales es un gran error en visualización de datos.
  • La escala de color debe representar valores especiales con significado.

No representar resultados de experimentos multifactoriales con gráficos de barras

  • Para comunicar de forma efectiva los resultados de experimentos multifactoriales, se necesita un diseño cuidadoso del agrupamiento o la diferenciación por factor.

No hacer heatmaps sin reordenar filas y columnas

  • Los heatmaps deben construirse de forma efectiva considerando el orden de las filas y las columnas.
  • Es posible reordenar filas y columnas mediante clustering, aunque no es la única forma de hacerlo.

No hacer heatmaps sin revisar outliers

  • Si no se revisan los outliers en un heatmap, la interpretación de los datos puede verse muy afectada.

No olvidar revisar el rango de datos en cada nivel del factor

  • En experimentos multifactoriales, el rango de la variable de respuesta puede variar mucho según el nivel del factor.

No hacer gráficos de red sin probar distintos layouts

  • La apariencia de un gráfico de red es un elemento importante que determina su efectividad.
  • Cambiar el layout puede facilitar la interpretación del gráfico de red.

No confundir visualización basada en posición con visualización basada en longitud

  • Confundir una visualización basada en posición con una basada en longitud puede provocar malentendidos.
  • En un gráfico de barras, no partir desde 0 es un gran error de visualización.

No hacer pie charts

  • Los pie charts son criticados porque las personas no son buenas para leer ángulos y áreas.
  • Si se quiere representar los datos por longitud, es mejor desenrollar el donut chart y convertirlo en un gráfico de barras apiladas.

No hacer donut charts concéntricos

  • Los donut charts concéntricos pueden representar mal los datos porque la longitud del arco del anillo exterior es mucho mayor que la del anillo interior.
  • Una alternativa simple y efectiva es desenrollar el donut chart y convertirlo en un gráfico de barras apiladas.

No usar escalas de color rojo/verde ni arcoíris

  • Deben usarse escalas de color amigables para personas con daltonismo y que conserven bien la información también en escala de grises.

No olvidar reordenar los gráficos de barras apiladas

  • Cuando hay muchas muestras y clases, conviene optimizar el orden del gráfico de barras apiladas para que sea efectivo.

Opinión de GN⁺

Lo más importante de este texto es aumentar la conciencia sobre los errores comunes que se cometen al hacer visualización de datos y cómo evitarlos. La visualización de datos es una herramienta poderosa para transmitir información compleja de manera fácil de entender, pero si se usa mal puede generar interpretaciones erróneas. Este texto ofrece una guía interesante y útil para cualquiera que quiera comunicar datos con precisión y claridad.

2 comentarios

 
xguru 2023-11-21

El título del artículo es divertido. Si ven el artículo original, incluye un gráfico de ejemplo, así que es fácil de entender.

 
GN⁺ 2023-11-21
Opinión de Hacker News
  • Opinión que señala que algunos gráficos pueden elegirse intencionalmente para ocultar la falta de puntos de datos o distribuciones dudosas.
  • No configurar los valores atípicos como máximo en un mapa de calor es un problema común en la visualización de estadísticas de videojuegos, y muchas veces resulta casi inútil para diagnosticar problemas reales de temperatura.
  • Que el eje de un gráfico no empiece en 0 no significa necesariamente que sea engañoso, y se comparte una experiencia de frustración frente a este tipo de afirmaciones.
  • Se considera un buen resumen de errores comunes en la visualización de datos, con el comentario de que dan ganas de compartirlo con colegas, junto con una recomendación de materiales basados en investigaciones sobre la percepción humana.
  • Como referencia adicional sobre visualización de datos, se recomienda "The Visual Display of Quantitative Information" de Edward Tufte, publicado en 1983.
  • Opinión que sugiere que muchas lecciones de visualización de datos no son nuevas, y recomienda consultar "Graphic presentation" de Willard C. Brinton, publicado en 1939.
  • El consejo "los amigos no dejan que sus amigos usen escalas de color divergentes" recomienda no usar una escala de color bidireccional para datos unidireccionales.
  • Junto con una opinión negativa sobre los violin plots, se comparte un enlace a un video cuyo argumento es que los violin plots no deberían existir.
  • Presentación de la charla "How Humans See Data", que integra varias ideas basadas en investigaciones sobre la forma en que los humanos observan los datos.
  • Mención de una guía que explica cómo clasificar tipos de datos y elegir el estilo de gráfico o tabla más adecuado para cada tipo, junto con la frustración de no haberla guardado en marcadores.