Question: Quand (pour quels types de problèmes de visualisation des données) les cartes thermiques sont-elles les plus efficaces? (En particulier, plus efficace que toutes les autres techniques de visualisation possibles?)
Quand les cartes thermiques sont-elles les moins efficaces?
Existe-t-il des modèles ou des règles générales communs que l'on peut utiliser pour décider si une carte thermique est susceptible d'être un moyen efficace de visualiser les données et quand elles sont susceptibles d'être inefficaces?
(Principalement, j'ai en tête des cartes de chaleur pour 2 variables catégorielles et 1 variable continue, mais je suis également intéressé à entendre des opinions concernant d'autres types de cartes de chaleur.)
Contexte: Je suis en train de suivre un cours en ligne sur la visualisation des données, et en ce moment ils discutent des types de parcelles inefficaces et surutilisés. Ils ont déjà mentionné des diagrammes de dynamite et des camemberts, et les raisons données pour lesquelles ceux-ci sont inefficaces et pourquoi il existe de meilleures alternatives à eux étaient claires et convaincantes pour moi. De plus, il a été facile de trouver d'autres sources corroborant les opinions données sur les parcelles de dynamite et les camemberts.
Cependant, le cours a également déclaré que "les cartes de chaleur sont l'un des types les moins efficaces de visualisation de données". Une paraphrase des raisons pour lesquelles sont données ci-dessous. Mais quand j'ai essayé de trouver d'autres endroits sur Google pour corroborer ce point de vue, j'ai eu beaucoup de difficultés, contrairement à la recherche d'opinions sur l'efficacité des camemberts et des graphiques de dynamite. Je voudrais donc savoir dans quelle mesure la caractérisation des cartes thermiques donnée dans le cours est valide, et quand les facteurs contre eux sont les moins importants et les plus importants pour un contexte donné.
Les raisons invoquées étaient les suivantes:
Il est difficile de cartographier la couleur sur une échelle continue.
Il y a quelques exceptions à cette règle, donc ce n'est généralement pas un casse-tête, mais dans le cas des cartes de chaleur, le problème est particulièrement difficile, car notre perception d'une couleur change en fonction des couleurs voisines. Ainsi, les cartes de chaleur ne sont pas bien adaptées pour voir des résultats individuels, même dans de petits ensembles de données. Qui conduit à:
Il n'est généralement pas possible de répondre à des questions spécifiques à l'aide d'une méthode de recherche de table, car il est impossible de déduire avec une précision suffisante la valeur numérique correspondant à une couleur donnée.
Souvent, les données ne sont pas regroupées de manière à faire ressortir les tendances.
Sans un tel regroupement, il est souvent difficile, voire impossible de déduire quoi que ce soit sur les schémas généraux généraux.
Les cartes thermiques ne sont souvent utilisées que pour communiquer un «facteur wow» ou simplement pour avoir l'air cool, surtout lorsque vous utilisez un dégradé multicolore, mais il existe généralement de meilleures façons de communiquer les données.
Le traçage de données continues sur une échelle commune est toujours la meilleure option. S'il y a une composante temporelle, le choix le plus évident est un tracé linéaire.
la source
Réponses:
Il n'y a pas de "meilleur" complot pour ceci ou pour cela. La façon dont vous tracez vos données dépend du message que vous souhaitez transmettre. Les tracés couramment utilisés présentent l'avantage que les utilisateurs sont plus susceptibles de pouvoir les lire. Néanmoins, cela ne signifie pas qu'ils sont nécessairement le meilleur choix.
En ce qui concerne les cartes de chaleur, j'ai ordonné ma réponse par les arguments supposés contre eux.
Annonce 1) Si vous ne faites pas confiance à la couleur comme canal de codage, utilisez plutôt la luminosité, avec une échelle englobant les tons de "couleur" gris foncé à gris clair. Le plus souvent, vous souhaitez regrouper des variables continues (voir également 5), afin de pouvoir limiter le nombre de couleurs et faciliter le décodage par les utilisateurs. Ce n'est cependant pas un must. Jetez un œil à cet exemple , dans lequel la variable continue n'est pas groupée.
Ad 2) Certes, ils ne doivent pas être utilisés comme alternative pour rechercher des valeurs précises. Les cartes de chaleur doivent être utilisées principalement pour illustrer les modèles, et non pour remplacer les tableaux.
Annonce 3 + 4) Je ne vois pas comment cela serait lié aux cartes thermiques uniquement.
Ad 5) Les cartes de chaleur sont idéalement mais pas nécessairement utilisées avec des variables discrètes. Pour les variables continues, les cartes thermiques peuvent être utilisées comme une sorte d'histogramme bidimensionnel ou de graphique à barres, avec un binning approprié, ainsi que la luminosité comme canal de codage.
la source
Quelqu'un ne peut pas dire que Heat Map est le type de visualisation le moins efficace. Je dirais plutôt que cela dépend de vos besoins. Dans certains cas, les cartes de chaleur sont très utiles. Disons que vous devez faire un rapport sur la criminalité dans un pays par État (ou par ville). Ici, vous aurez un énorme ensemble de données qui peut avoir des dépendances temporelles.
De même, supposons que vous deviez préparer un rapport sur la consommation d'électricité des villes. Dans ces cas, vous pouvez facilement visualiser la carte de chaleur. Cela aura plus de sens et sera moins lourd.
Donc, en un mot, si vous avez beaucoup de données continues et que vous souhaitez faire un rapport qui peut identifier rapidement les réponses, la carte thermique est la meilleure.
la source
La critique 1 de la question initiale couvre le plus grand inconvénient - qu'il est difficile pour quelqu'un qui lit la carte thermique de décoder les informations quantitatives qui sont transmises. Considérez un diagramme de dispersion xy ou un diagramme à points, où la quantité sous-jacente est directement liée à la distance sur le graphique - très simple pour l'interprétation.
Dans une carte thermique, en revanche, la personne qui lit le graphique est libre d'interpréter 10% de «plus rouge» ou «plus sombre» à sa propre satisfaction. En plus de cela, il y a le problème des différentes capacités des gens à discerner la couleur et la nuance pour commencer. Ce sont de véritables inconvénients, mais ils ne sont pas universellement mortels.
La troisième critique, en revanche, semble identifier par inadvertance une occasion où les cartes thermiques sont particulièrement utiles - lorsque les données sont regroupées sur un plan 2D de sorte que des valeurs similaires dans une troisième dimension apparaissent comme des correctifs d'une nuance ou d'une couleur particulière. Ainsi, bien que les cartes thermiques soient inefficaces à certains égards, elles sont utiles pour d'autres, et elles devraient rester dans votre sac, de la même manière que les golfeurs portent souvent des coins de tangage ou similaires malgré leur inutilisation pour la conduite ou le putting, ou les charpentiers ne le font pas ne tenez pas compte des marteaux car ils ne sont pas bons pour couper du bois.
En général, la visualisation des données doit être considérée comme une activité itérative qui prendra un certain temps lorsque vous essayez un certain nombre de visualisations qui mettent en évidence les caractéristiques importantes des données, notamment en essayant plusieurs types de visualisation, puis en expérimentant pour trouver les meilleurs paramètres dans choix particuliers. Il ne faut pas non plus supposer que le résultat sera une visualisation - parfois un certain nombre de visualisations de données seront nécessaires pour mettre en évidence plusieurs caractéristiques importantes des données. Dans ce contexte, il y aura des moments où pour des caractéristiques particulières d'ensembles de données particuliers, la carte thermique sera la plus efficace, et les clusters communicants tels que décrits peuvent être l'un de ces moments. Dans l'ensemble, il y aura des occasions fréquentes où une seule visualisation ne peut pas tout faire, et plus d'une sera nécessaire.
la source
Comme mentionné par d'autres, il est vraiment inapproprié de dire que les cartes de chaleur sont toujours inefficaces. En fait, ils sont assez efficaces dans de nombreux cas.
Par exemple, si vous souhaitez visualiser des données 4D, il est assez simple de faire les trois premières dimensions dans de nombreux logiciels de traçage. Cependant, le concept entier de 4D est assez difficile à conceptualiser du tout. Quelle est la "4ème" direction / dimension?
C'est là qu'une carte thermique peut être efficace, car elle permettra de tracer les trois premières dimensions sur l'axe des coordonnées, et la quatrième peut être visualisée en empilant une carte thermique sur votre plan tracé (ou ligne, mais c'est moins probable).
En bout de ligne, c'est que vous avez besoin de contexte. Que recherchez-vous dans votre visualisation? De plus, en tant qu'auto-enseignant, je peux vous dire que ces cours en ligne ont tendance à être très triviaux et inutiles. Il est préférable de ne les utiliser que lorsque vous recherchez des informations / de l'aide sur des sujets spécifiques plutôt que de vous faire enseigner sur un sujet entier.
Bonne chance quand même.
la source
Par nature, une carte thermique affiche des données avec deux variables indépendantes continues (ou, de façon pas tout à fait équivalente, une variable indépendante d'un espace vectoriel bidimensionnel) et une variable dépendante continue. Pour les données de ce type, une carte thermique est certainement l'un des types de visualisation de données les plus efficaces. Oui, il a ses problèmes, mais c'est inévitable: vous n'avez vraiment que deux dimensions avec lesquelles travailler et un espace tridimensionnel ne peut pas être mappé à celui-ci de manière à préserver la structure , donc vous avez besoin d'un hack comme mapper une dimension à la couleur ou dessiner des lignes de contour, etc.
Si les variables indépendantes sont catégorielles, la carte thermique a immédiatement beaucoup moins de sens: il n'y a généralement aucune raison pour qu'une variable catégorielle soit mappée sur un axe réel. En fait, une variable catégorielle, par définition, ne vient pas avec une topologie prédéterminée, ou pourrait-on dire, avec la topologie discrète . Maintenant, contrairement à , qui n'est homéomorphe qu'à un autre espace bidimensionnel, le produit cartésien de deux espaces discrets est en fait homéomorphe à tout espace de la cardinalité, qui est fini pour une variable catégorielle - en d'autres termes, le produit cartésien de deux variables catégorielles peut être considéré comme une seule variable catégorielle X×Y | X | ⋅ | Y |R2 X×Y |X|⋅|Y| ! Et dans cette optique, vous pouvez tout aussi bien utiliser d'autres parcelles, qui n'ont pas les problèmes d'une carte thermique.
Si vous vous trouvez dans une situation où une carte de chaleur sur deux variables catégorielles semble utile, c'est une indication que ce ne sont probablement pas vraiment des variables catégorielles, mais plutôt des variables continues quantifiées.
la source
Les cartes thermiques sont excellentes pour fournir une vue simpliste de plusieurs variables du point de vue des séries chronologiques - les données peuvent être des changements absolus dans le temps ou normalisées à l'aide de scores Z ou d'autres moyens pour examiner des variables avec différents intervalles de mesure ou des changements relatifs de sous-groupes. Il fournit une vue très visible que l'on peut repérer des corrélations ou des inverses et remplace une multitude de graphiques. Ils peuvent également être utilisés dans le prétraitement pour évaluer une éventuelle réduction de dimensionnalité, c'est-à-dire l'affacturage ou l'ACP.
Les variables qui interviennent mal et d'autres facteurs peuvent devenir cachés et ignorés lors de l'utilisation de cette approche pour repérer les corrélations. Les mêmes aspects cachés se produisent avec les graphiques linéaires, mais étant donné le grand nombre de variables, mon expérience est que les cartes thermiques apportent tellement d'informations qu'un utilisateur ne prend pas en compte les aspects intermédiaires ni d'autres facteurs cachés.
Ceci d'un aa data scientist d'un point de vue économiste progressiste avec 20 ans dans le domaine produisant des données et chargé d'éduquer le grand public avec de telles données.
la source
Les cartes thermiques sont avantageuses par rapport aux diagrammes de dispersion lorsqu'il y a trop de points de données à afficher sur un diagramme de dispersion. Cela peut être atténué dans un nuage de points en utilisant des points de données translucides, mais au-delà d'un certain seuil, il devient préférable de résumer les données.
Dans cet article de blog, un exemple convaincant de nuages de points difficiles à interpréter est donné.
Une déclaration similaire de la documentation de ggplot2 sur la carte thermique du nombre de bin 2d :
Dans les documents de
geom_point()
:la source