Les cartes thermiques sont-elles «l'un des types de visualisation de données les moins efficaces»?

22

Question: Quand (pour quels types de problèmes de visualisation des données) les cartes thermiques sont-elles les plus efficaces? (En particulier, plus efficace que toutes les autres techniques de visualisation possibles?)

Quand les cartes thermiques sont-elles les moins efficaces?

Existe-t-il des modèles ou des règles générales communs que l'on peut utiliser pour décider si une carte thermique est susceptible d'être un moyen efficace de visualiser les données et quand elles sont susceptibles d'être inefficaces?

(Principalement, j'ai en tête des cartes de chaleur pour 2 variables catégorielles et 1 variable continue, mais je suis également intéressé à entendre des opinions concernant d'autres types de cartes de chaleur.)

Contexte: Je suis en train de suivre un cours en ligne sur la visualisation des données, et en ce moment ils discutent des types de parcelles inefficaces et surutilisés. Ils ont déjà mentionné des diagrammes de dynamite et des camemberts, et les raisons données pour lesquelles ceux-ci sont inefficaces et pourquoi il existe de meilleures alternatives à eux étaient claires et convaincantes pour moi. De plus, il a été facile de trouver d'autres sources corroborant les opinions données sur les parcelles de dynamite et les camemberts.

Cependant, le cours a également déclaré que "les cartes de chaleur sont l'un des types les moins efficaces de visualisation de données". Une paraphrase des raisons pour lesquelles sont données ci-dessous. Mais quand j'ai essayé de trouver d'autres endroits sur Google pour corroborer ce point de vue, j'ai eu beaucoup de difficultés, contrairement à la recherche d'opinions sur l'efficacité des camemberts et des graphiques de dynamite. Je voudrais donc savoir dans quelle mesure la caractérisation des cartes thermiques donnée dans le cours est valide, et quand les facteurs contre eux sont les moins importants et les plus importants pour un contexte donné.

Les raisons invoquées étaient les suivantes:

  1. Il est difficile de cartographier la couleur sur une échelle continue.

    Il y a quelques exceptions à cette règle, donc ce n'est généralement pas un casse-tête, mais dans le cas des cartes de chaleur, le problème est particulièrement difficile, car notre perception d'une couleur change en fonction des couleurs voisines. Ainsi, les cartes de chaleur ne sont pas bien adaptées pour voir des résultats individuels, même dans de petits ensembles de données. Qui conduit à:

  2. Il n'est généralement pas possible de répondre à des questions spécifiques à l'aide d'une méthode de recherche de table, car il est impossible de déduire avec une précision suffisante la valeur numérique correspondant à une couleur donnée.

  3. Souvent, les données ne sont pas regroupées de manière à faire ressortir les tendances.

    Sans un tel regroupement, il est souvent difficile, voire impossible de déduire quoi que ce soit sur les schémas généraux généraux.

  4. Les cartes thermiques ne sont souvent utilisées que pour communiquer un «facteur wow» ou simplement pour avoir l'air cool, surtout lorsque vous utilisez un dégradé multicolore, mais il existe généralement de meilleures façons de communiquer les données.

Le traçage de données continues sur une échelle commune est toujours la meilleure option. S'il y a une composante temporelle, le choix le plus évident est un tracé linéaire.

Chill2Macht
la source
15
La critique des "cartes thermiques" se résume à la dernière ligne de (4): quelles sont exactement ces "meilleures façons" de communiquer? (S'il n'y a pas de meilleures façons, alors (1) - (3) sont à peine pertinentes.) Si le but est littéralement de communiquer les données , alors il y a évidemment de meilleures façons: notez les chiffres. Cependant, le but d'une visualisation est rarement de communiquer les données: c'est plutôt de soutenir une interprétation ou d'envoyer un message. À quelles interprétations votre source pense-t-elle et quelles sont, selon elle, les meilleures façons de présenter ces interprétations?
whuber
4
@whuber En complément de cela - une très bonne chose à propos des cartes de chaleur est que dans de nombreux cas, il est facile de les compléter en affichant les données brutes (peut-être les arrondis appropriés) directement sur chaque tuile. Même l'utilisation d'une mise en forme conditionnelle pour la couleur d'arrière-plan des cellules sur une feuille de calcul est une sorte de "carte thermique" très efficace et très courante, dans ce contexte, il est difficile de voir comment elles peuvent être améliorées.
Silverfish
2
Mon commentaire ne concerne que la critique 1. Il est vrai que la couleur (teinte) ne correspond pas psychologiquement à une échelle ordonnée, bien qu'elle le soit physiquement (longueur d'onde). Cependant, en ajoutant une dimension redondante telle que la luminosité, vous pouvez les interpréter plus facilement. Vous pouvez avoir un noir plus élevé que la lumière, mais utilisez des couleurs telles que le bleu clair et le rouge foncé.
David Lane
2
Dépend du contexte. Voici un excellent exemple d'informations précieuses et exploitables obtenues à partir d'une carte thermique, pour laquelle je ne peux penser à aucun autre type de visualisation de données plus pratique ou utile.
Jason C
5
La couleur est superflue (et, certes, mal choisie - c'est juste la palette de couleurs de l'image par défaut dans R), mais voici un exemple sur le jeu de démineur que j'ai travaillé il y a plusieurs années. J'ai trouvé la carte thermique immédiatement éclairante en ce qu'elle révèle une structure sur le problème qui devient intuitivement claire une fois que vous le voyez et y réfléchissez un instant, mais qui n'est pas immédiatement évident (pour la plupart des gens) avant de voir l'intrigue.
cardinal

Réponses:

15

Il n'y a pas de "meilleur" complot pour ceci ou pour cela. La façon dont vous tracez vos données dépend du message que vous souhaitez transmettre. Les tracés couramment utilisés présentent l'avantage que les utilisateurs sont plus susceptibles de pouvoir les lire. Néanmoins, cela ne signifie pas qu'ils sont nécessairement le meilleur choix.

En ce qui concerne les cartes de chaleur, j'ai ordonné ma réponse par les arguments supposés contre eux.

Annonce 1) Si vous ne faites pas confiance à la couleur comme canal de codage, utilisez plutôt la luminosité, avec une échelle englobant les tons de "couleur" gris foncé à gris clair. Le plus souvent, vous souhaitez regrouper des variables continues (voir également 5), afin de pouvoir limiter le nombre de couleurs et faciliter le décodage par les utilisateurs. Ce n'est cependant pas un must. Jetez un œil à cet exemple , dans lequel la variable continue n'est pas groupée.

Ad 2) Certes, ils ne doivent pas être utilisés comme alternative pour rechercher des valeurs précises. Les cartes de chaleur doivent être utilisées principalement pour illustrer les modèles, et non pour remplacer les tableaux.

Annonce 3 + 4) Je ne vois pas comment cela serait lié aux cartes thermiques uniquement.

Ad 5) Les cartes de chaleur sont idéalement mais pas nécessairement utilisées avec des variables discrètes. Pour les variables continues, les cartes thermiques peuvent être utilisées comme une sorte d'histogramme bidimensionnel ou de graphique à barres, avec un binning approprié, ainsi que la luminosité comme canal de codage.

g3o2
la source
2
Réponse géniale! Sauf que je ne sais pas ce que veut dire "Ad". Latin? Abréviation?
Xan
1
Merci! "ad" signifie "sur" ou "concernant", je suppose que cela vient du latin.
g3o2
Je n'ai jamais vu "ad" utilisé de cette façon non plus (cc, @xan). D'après votre description, je pense que je pourrais utiliser le rythme .
gung - Reinstate Monica
1
N'oubliez pas non plus de corriger gamma vos cartes thermiques basées sur la luminosité.
user253751
3
@gung Pas vraiment, OMI. Il n'a pas de connotation, contrairement au rythme - cela signifie simplement en plus, un addendum, en référence à, quant à ... Sans oublier qu'il était universel en Occident, venant du latin et largement utilisé dans la théologie et la littérature scientifique et politique, parmi autres choses. Dans une boîte de dialogue (mail), les deux parties l'utiliseraient pour référencer les arguments à chacun des points. Cela semble tomber en défaveur à mesure que le langage écrit est coupé. Le remplacement habituel utilise simplement "1.1" au lieu de "Ad 1.1", ce qui peut être un peu déroutant et me semble un peu grossier, mais bon.
Luaan
5

Quelqu'un ne peut pas dire que Heat Map est le type de visualisation le moins efficace. Je dirais plutôt que cela dépend de vos besoins. Dans certains cas, les cartes de chaleur sont très utiles. Disons que vous devez faire un rapport sur la criminalité dans un pays par État (ou par ville). Ici, vous aurez un énorme ensemble de données qui peut avoir des dépendances temporelles.

De même, supposons que vous deviez préparer un rapport sur la consommation d'électricité des villes. Dans ces cas, vous pouvez facilement visualiser la carte de chaleur. Cela aura plus de sens et sera moins lourd.

Donc, en un mot, si vous avez beaucoup de données continues et que vous souhaitez faire un rapport qui peut identifier rapidement les réponses, la carte thermique est la meilleure.

Manish Kumar
la source
2
Pour la consommation d'énergie, il n'y a souvent pas de meilleur graphique qu'une carte thermique : argustech.be/wp-content/uploads/2012/04/heatmap.png Les week-ends et les heures de travail sautent directement au spectateur. Vous pouvez voir la charge de base, vous pouvez voir les pics, vous pouvez voir quand ils se produisent. Vous pouvez détecter tout motif étrange en quelques secondes, par exemple si un appareil électrique est toujours allumé ou démarre trop tôt ou trop tard.
Eric Duminil
4

La critique 1 de la question initiale couvre le plus grand inconvénient - qu'il est difficile pour quelqu'un qui lit la carte thermique de décoder les informations quantitatives qui sont transmises. Considérez un diagramme de dispersion xy ou un diagramme à points, où la quantité sous-jacente est directement liée à la distance sur le graphique - très simple pour l'interprétation.

Dans une carte thermique, en revanche, la personne qui lit le graphique est libre d'interpréter 10% de «plus rouge» ou «plus sombre» à sa propre satisfaction. En plus de cela, il y a le problème des différentes capacités des gens à discerner la couleur et la nuance pour commencer. Ce sont de véritables inconvénients, mais ils ne sont pas universellement mortels.

La troisième critique, en revanche, semble identifier par inadvertance une occasion où les cartes thermiques sont particulièrement utiles - lorsque les données sont regroupées sur un plan 2D de sorte que des valeurs similaires dans une troisième dimension apparaissent comme des correctifs d'une nuance ou d'une couleur particulière. Ainsi, bien que les cartes thermiques soient inefficaces à certains égards, elles sont utiles pour d'autres, et elles devraient rester dans votre sac, de la même manière que les golfeurs portent souvent des coins de tangage ou similaires malgré leur inutilisation pour la conduite ou le putting, ou les charpentiers ne le font pas ne tenez pas compte des marteaux car ils ne sont pas bons pour couper du bois.

En général, la visualisation des données doit être considérée comme une activité itérative qui prendra un certain temps lorsque vous essayez un certain nombre de visualisations qui mettent en évidence les caractéristiques importantes des données, notamment en essayant plusieurs types de visualisation, puis en expérimentant pour trouver les meilleurs paramètres dans choix particuliers. Il ne faut pas non plus supposer que le résultat sera une visualisation - parfois un certain nombre de visualisations de données seront nécessaires pour mettre en évidence plusieurs caractéristiques importantes des données. Dans ce contexte, il y aura des moments où pour des caractéristiques particulières d'ensembles de données particuliers, la carte thermique sera la plus efficace, et les clusters communicants tels que décrits peuvent être l'un de ces moments. Dans l'ensemble, il y aura des occasions fréquentes où une seule visualisation ne peut pas tout faire, et plus d'une sera nécessaire.

Robert de Graaf
la source
3

Comme mentionné par d'autres, il est vraiment inapproprié de dire que les cartes de chaleur sont toujours inefficaces. En fait, ils sont assez efficaces dans de nombreux cas.

Par exemple, si vous souhaitez visualiser des données 4D, il est assez simple de faire les trois premières dimensions dans de nombreux logiciels de traçage. Cependant, le concept entier de 4D est assez difficile à conceptualiser du tout. Quelle est la "4ème" direction / dimension?

C'est là qu'une carte thermique peut être efficace, car elle permettra de tracer les trois premières dimensions sur l'axe des coordonnées, et la quatrième peut être visualisée en empilant une carte thermique sur votre plan tracé (ou ligne, mais c'est moins probable).

En bout de ligne, c'est que vous avez besoin de contexte. Que recherchez-vous dans votre visualisation? De plus, en tant qu'auto-enseignant, je peux vous dire que ces cours en ligne ont tendance à être très triviaux et inutiles. Il est préférable de ne les utiliser que lorsque vous recherchez des informations / de l'aide sur des sujets spécifiques plutôt que de vous faire enseigner sur un sujet entier.

Bonne chance quand même.

Abraham Horowitz
la source
3

Par nature, une carte thermique affiche des données avec deux variables indépendantes continues (ou, de façon pas tout à fait équivalente, une variable indépendante d'un espace vectoriel bidimensionnel) et une variable dépendante continue. Pour les données de ce type, une carte thermique est certainement l'un des types de visualisation de données les plus efficaces. Oui, il a ses problèmes, mais c'est inévitable: vous n'avez vraiment que deux dimensions avec lesquelles travailler et un espace tridimensionnel ne peut pas être mappé à celui-ci de manière à préserver la structure , donc vous avez besoin d'un hack comme mapper une dimension à la couleur ou dessiner des lignes de contour, etc.

Si les variables indépendantes sont catégorielles, la carte thermique a immédiatement beaucoup moins de sens: il n'y a généralement aucune raison pour qu'une variable catégorielle soit mappée sur un axe réel. En fait, une variable catégorielle, par définition, ne vient pas avec une topologie prédéterminée, ou pourrait-on dire, avec la topologie discrète . Maintenant, contrairement à , qui n'est homéomorphe qu'à un autre espace bidimensionnel, le produit cartésien de deux espaces discrets est en fait homéomorphe à tout espace de la cardinalité, qui est fini pour une variable catégorielle - en d'autres termes, le produit cartésien de deux variables catégorielles peut être considéré comme une seule variable catégorielle X×Y | X | | Y |R2X×Y|X||Y|! Et dans cette optique, vous pouvez tout aussi bien utiliser d'autres parcelles, qui n'ont pas les problèmes d'une carte thermique.

Si vous vous trouvez dans une situation où une carte de chaleur sur deux variables catégorielles semble utile, c'est une indication que ce ne sont probablement pas vraiment des variables catégorielles, mais plutôt des variables continues quantifiées.

à gauche
la source
4
Cette réponse est intéressante, mais je pense que la notion d'utilisation de cartes thermiques avec des variables catégoriques est brièvement expliquée. Par exemple, on peut classer les niveaux catégoriels en fonction de leur nombre (ou d'une autre variable de tri pertinente), puis utiliser une carte thermique pour visualiser la distribution conjointe ou une autre quantité qui varie avec les niveaux catégoriels conjoints. Cela peut être lié aux copules (et à leurs notions généralisées). De telles visualisations, lorsqu'elles sont bien faites, peuvent révéler une structure réelle des données qui serait autrement très difficile à détecter. (...)
Cardinal
(...) Et, une telle approche est indépendante de toute notion (directe) d'incorporation des niveaux catégoriels dans un espace euclidien.
cardinal
Je me demandais si vous aviez un commentaire sur la pratique de l'utilisation des cartes thermiques pour l'expression des gènes / données de puces à ADN alors - cela semblerait être des cas d'utilisation de cartes thermiques pour 2 variables catégorielles et une variable continue pour lesquelles les variables catégorielles ne peuvent pas vraiment être interprétés comme des variables continues quantifiées. Ou je suppose que les cartes de chaleur pour les matrices de corrélation des variables catégorielles en général.
Chill2Macht
3

Les cartes thermiques sont excellentes pour fournir une vue simpliste de plusieurs variables du point de vue des séries chronologiques - les données peuvent être des changements absolus dans le temps ou normalisées à l'aide de scores Z ou d'autres moyens pour examiner des variables avec différents intervalles de mesure ou des changements relatifs de sous-groupes. Il fournit une vue très visible que l'on peut repérer des corrélations ou des inverses et remplace une multitude de graphiques. Ils peuvent également être utilisés dans le prétraitement pour évaluer une éventuelle réduction de dimensionnalité, c'est-à-dire l'affacturage ou l'ACP.

Les variables qui interviennent mal et d'autres facteurs peuvent devenir cachés et ignorés lors de l'utilisation de cette approche pour repérer les corrélations. Les mêmes aspects cachés se produisent avec les graphiques linéaires, mais étant donné le grand nombre de variables, mon expérience est que les cartes thermiques apportent tellement d'informations qu'un utilisateur ne prend pas en compte les aspects intermédiaires ni d'autres facteurs cachés.

Ceci d'un aa data scientist d'un point de vue économiste progressiste avec 20 ans dans le domaine produisant des données et chargé d'éduquer le grand public avec de telles données.

Paul Tulloch
la source
1

Les cartes thermiques sont avantageuses par rapport aux diagrammes de dispersion lorsqu'il y a trop de points de données à afficher sur un diagramme de dispersion. Cela peut être atténué dans un nuage de points en utilisant des points de données translucides, mais au-delà d'un certain seuil, il devient préférable de résumer les données.

Dans cet article de blog, un exemple convaincant de nuages ​​de points difficiles à interpréter est donné.

Un nuage de points ne peut représenter visuellement la densité que jusqu'à un certain seuil - le seuil des "points partout" ...

Densité de tracé, pas de points

La solution consiste à tracer la densité de points groupés plutôt que les points eux-mêmes. Nous connaissons déjà cette méthode dans une dimension comme l'histogramme.

En deux dimensions, il existe plusieurs façons de le faire. Les formes de bac peuvent être prises à partir de n'importe quelle méthode de pavage uniforme de l'avion, comme les carrés ou les hexagones. Pour chaque tuile, le nombre de points de données à l'intérieur de la tuile est compté. La tuile se voit alors attribuer une couleur en fonction du nombre de points.

Une déclaration similaire de la documentation de ggplot2 sur la carte thermique du nombre de bin 2d :

Il s'agit d'une alternative utile geom_point()en cas de surplacement.

Dans les documents de geom_point():

Surplacement

Le plus gros problème potentiel avec un nuage de points est le surplacement: chaque fois que vous avez plus de quelques points, les points peuvent être tracés les uns sur les autres. Cela peut gravement altérer l'apparence visuelle de l'intrigue. Il n'y a pas de solution unique à ce problème, mais certaines techniques peuvent vous aider. Vous pouvez ajouter des informations supplémentaires avec geom_smooth(), geom_quantile()ou geom_density_2d(). Si vous avez peu de valeurs x uniques, cela geom_boxplot()peut également être utile.

Vous pouvez résumer le nombre de points à chaque endroit et afficher que d' une certaine façon, en utilisant geom_count(), geom_hex()ou geom_density2d().

Une autre technique consiste à rendre les points transparents (par exemple geom_point(alpha = 0.05)) ou très petits (par exemple geom_point(shape = ".")).

qwr
la source