Quelles sont les alternatives aux axes cassés?

28

Les utilisateurs sont souvent tentés de casser les valeurs des axes pour présenter des données de différents ordres de grandeur sur le même graphique (voir ici ). Bien que cela puisse être pratique, ce n'est pas toujours la manière préférée d'afficher les données (peut être trompeuse au mieux). Quelles sont les autres manières d'afficher les données qui sont différentes selon plusieurs ordres de grandeur?

Je peux penser à deux façons, pour transformer les données en journal ou utiliser des tracés de réseau. Quelles sont les autres options?

Roman Luštrik
la source
1
Ces guides Excel ont l'air assez effrayants ...
5
Pouvez-vous imaginer à quoi ressemble un didacticiel sur R pour une personne qui n'a jamais vu une ligne de code dans sa vie? :)
Roman Luštrik
3
D'accord, mais je peux également imaginer toutes ces personnes dessinant manuellement des dizaines de sauts de barre dans Excel et estimant que c'est un moyen unique (et donc le plus simple et le plus rapide) de le faire. Ou des gens qui passent des heures à essayer d'unifier la mise en forme dans un grand document Word.
1
"Père, pardonne-leur, car ils ne savent pas ce qu'ils font." vient à l'esprit. :)
Roman Luštrik
3
Groupe officiel de stats.stackexchange.com: The Broken Axes.
Matt Parker

Réponses:

17

Je me méfie beaucoup de l'utilisation des axes logarithmiques sur les graphiques à barres . Le problème est que vous devez choisir un point de départ de l'axe, ce qui est presque toujours arbitraire. Vous pouvez choisir de faire deux barres avoir des hauteurs très différentes, ou presque la même hauteur, simplement en changeant la valeur minimale sur l'axe. Ces trois graphiques tracent tous les mêmes données: texte alternatif

Une alternative aux axes discontinus, que personne n'a encore mentionné, est de simplement montrer un tableau de valeurs. Dans de nombreux cas, les tableaux sont plus faciles à comprendre que les graphiques.

Harvey Motulsky
la source
3
Ces graphiques semblent très trompeurs également parce que vous n'avez pas de barres d'erreur dessus. Si vous ajoutez des barres d'erreur, la différence sera moins importante. Ou vous pouvez utiliser des graphiques en boîte et moustaches qui évitent principalement ce genre de problèmes.
nico
5
À mon humble avis, l'origine est un problème des graphiques à barres et n'a rien à voir avec le logarithme. Vous pouvez obtenir la même impression trompeuse avec des axes linéaires.
cbeleites prend en charge Monica
@cbeleites. Oui, vous pouvez créer des graphiques à barres trompeurs avec un axe linéaire en modifiant la ligne de base. Mais avec un axe linéaire, la ligne de base naturelle est nulle. Avec les axes logarithmiques, dans la plupart des contextes, il n'y a pas de ligne de base naturelle.
Harvey Motulsky
@HarveyMotulsky: Je vous prie de ne pas être d'accord. Il existe toute une classe de données qui est bien décrite par les axes logarithmiques et qui a une ligne de base naturelle: les changements / ratios multiplicatifs. Dans votre exemple, le signal traité est peut-être 15 fois le signal de contrôle. Si cette hypothèse a du sens pour l'application, vous disposez d'une ligne de base "naturelle" pour le journal. Sinon, peut-être qu'une autre transformation est plus sensée?
cbeleites prend en charge Monica
1
@cbeleites Je suis d'accord que si la variable est un rapport, alors 1.0 est une ligne de base naturelle, alors l'afficher sur une échelle logarithmique est logique.
Harvey Motulsky
11

Quelques idées supplémentaires:

(1) Vous n'avez pas besoin de vous limiter à une transformation logarithmique. Recherchez sur ce site la balise "data-transformation", par exemple. Certaines données se prêtent bien à certaines transformations comme une racine ou un logit. (De telles transformations - même des journaux - sont généralement à éviter lors de la publication de graphiques pour un public non technique. En revanche, ils peuvent être d'excellents outils pour voir les modèles dans les données.)

(2) Vous pouvez emprunter une technique cartographique standard pour insérer un détail d'une carte dans ou à côté de votre carte. Plus précisément, vous traceriez les valeurs extrêmes par elles-mêmes sur un graphique et toutes (ou les) autres données sur un autre avec une plage d'axe plus limitée, puis organiser graphiquement les deux ainsi que les indications (visuelles et / ou écrites) de la relation entre eux. Pensez à une carte des États-Unis dans laquelle l'Alaska et Hawaï sont incrustés à différentes échelles. (Cela ne fonctionnera pas avec toutes sortes de graphiques, mais pourrait être efficace avec les graphiques à barres de votre illustration.) [Je vois que cela est similaire à la réponse récente de mbq.]

(3) Vous pouvez afficher côte à côte le tracé interrompu avec le même tracé sur des axes ininterrompus.

(4) Dans le cas de votre exemple de graphique à barres, choisissez un axe vertical approprié (peut-être très étiré) et fournissez un utilitaire de panoramique. [C'est plus une astuce qu'une technique vraiment utile, à mon humble avis, mais elle pourrait être utile dans certains cas spéciaux.]

(5) Sélectionnez un schéma différent pour afficher les données. Au lieu d'un graphique à barres qui utilise la longueur pour représenter les valeurs, choisissez un graphique dans lequel les zones de symboles représentent les valeurs, par exemple. [De toute évidence, des compromis sont impliqués ici.]

Votre choix de technique dépendra probablement de l'objectif de l'intrigue: les tracés créés pour l'exploration de données diffèrent souvent des tracés destinés au grand public, par exemple.

whuber
la source
8

Peut-être que cela peut être classé comme un réseau, mais je vais essayer; tracez toutes les barres à l'échelle la plus élevée dans un panneau et placez un autre panneau montrant le zoom sur les plus basses. J'ai utilisé cette technique une fois en cas de nuage de points, et le résultat était plutôt sympa.


la source
8

Je séparerais le problème des axes logarithmiques du problème des graphiques à barres.


UNE=lgje0-lgjeje0

Les graphiques à barres ne peuvent jamais être sensibles s'il n'y a pas d'origine sensible et fixe qui joue le rôle d'un contrôle (ligne de base, vide). Mais cela n'a rien à voir avec les axes logarithmiques.
La seule utilisation régulière que j'ai pour les graphiques à barres sont les histogrammes. Mais je pourrais imaginer qu'ils font bien de montrer la différence avec cette origine (vous voyez aussi immédiatement si la différence est positive ou négative). Parce que les barres représentent une zone, j'ai tendance à penser aux graphiques à barres comme une version très discrète de la zone sous une courbe. Autrement dit, l'axe des x doit avoir une signification métrique (ce qui peut être le cas avec le temps, mais pas avec les villes).

Si je me demandais quelle origine utiliser pour le journal de quelque chose qui avait une origine "naturelle" à 0, je prendrais du recul et réfléchirais un peu à ce qui se passe. Très souvent, ces problèmes ne sont qu'un indicateur que le journal n'est pas une transformation sensible ici.

Désormais, un graphique à barres avec des axes logarithmiques mettrait l'accent sur les augmentations ou les diminutions qui se produisent par multiples. Des exemples sensés auxquels je peux penser en ce moment ont tous une relation linéaire avec une valeur d'intérêt. Mais peut-être que quelqu'un d'autre trouve un bon exemple.

Je pense donc que la transformation des données devrait être sensée par rapport à la signification des données à portée de main. C'est le cas des unités physico-chimiques que j'ai mentionnées plus haut (A est proportionnel aux concentrations, et le pH a, par exemple, une relation linéaire avec la tension dans un pH-mètre). En fait, c'est tellement le cas que l'unité de log obtient un nouveau nom et est utilisée de manière linéaire.

Enfin et surtout, je viens de la spectroscopie vibrationnelle, où les axes brisés sont assez régulièrement utilisés. Et je considère que cette utilisation est l'un des rares exemples où la rupture des axes n'est pas trompeuse. Cependant, nous n'avons pas de changements dans l'ordre de grandeur. Nous avons juste une région non informative de 30 à 40% de notre gamme x: Voici un exemple: spectre Pour cet échantillon, la partie entre 1800 - 2800 / cm ne peut contenir aucune information utile.
La plage spectrale non informative est donc supprimée (ce qui indique également les plages spectrales que nous utilisons réellement pour la modélisation chimiométrique): spectre non informatif supprimé

Mais pour l'interprétation des données, nous avons besoin de lectures précises de la position x. Mais en général, nous n'avons pas besoin de multiples qui couvrent les différentes plages (c'est-à-dire qu'il existe de telles relations, mais la plupart des connexions sont plus compliquées. Par exemple: Signal à 3050 / cm, donc nous avons une substance insaturée ou aromatique. Mais pas de signal fort à 1000 / cm , donc pas de cycle aromatique mono, méta ou 1,3,5 substitué ...)
Il est donc préférable de représenter x avec une plus grande échelle (en fait, nous utilisons souvent des feuilles millimétriques comme des guides ou étiquetons les emplacements exacts). Donc, nous cassons l'axe et obtenons une échelle x plus grande: spectre - axe brisé

En fait, cela ressemble beaucoup à la facette: version à facettes
mais l'axe brisé à mon humble avis souligne que l'échelle de l'axe des x dans les deux parties est la même. C'est-à-dire que les intervalles dans les régions tracées sont les mêmes.

Pour souligner les petites intensités (axe y), nous utilisons des encarts agrandis:
entrez la description de l'image ici
[ ... Pour plus de détails, voir la région νCH agrandie (x 20) en bleu .... ]

Et cela est certainement possible avec l'exemple des parcelles liées également.

cbeleites soutient Monica
la source
2

Deux idées qui ont été évoquées, mais qui n'ont pas été explicitement décrites lorsque j'ai examiné les excellentes réponses et commentaires, étaient que vous utilisez un graphique à barres "d'une manière incompatible avec l'étiquetage" et des données normalisées / sans dimension.

Type de parcelle:

Le graphique de type étoile / araignée / radar (lien) (lien) est souvent très bon pour comparer plusieurs choses différentes le long de plusieurs coordonnées. Il existe un certain nombre d'intrigues très utiles qui (malheureusement) sont rares dans les présentations d'entreprises, probablement parce que le leadership préfère utiliser des conclusions pour prendre des décisions plutôt que d'utiliser des informations pour comprendre et ensuite utiliser la compréhension pour prendre des décisions. Dans les affaires, il est parfois très difficile de parvenir à un consensus et, par conséquent, l'approche axée uniquement sur les résultats peut avoir un rendement plus élevé dans un environnement de consensus d'abord et de décision suivante. Cela informe la popularité du graphique à barres / à colonnes. Veuillez considérer les exemples d'autres types de graphiques qui sont bons pour mieux comprendre (lien) .

Transformation:

Si vous divisez les valeurs que vous tracez par une valeur "caractéristique", vous pouvez transformer l'échelle pour améliorer la lisibilité sans perdre d'informations. Les fluidistes dynamiques préfèrent les nombres sans dimension en raison de leur utilité prédictive et de leur élasticité dans l'application. Ils regardent des choses comme le théorème de Buckingham Pi comme sources de formes candidates sans dimension (lien) . Les nombres sans dimension populaires et utiles incluent le nombre Reynolds, le nombre Mach, le nombre Biot, le nombre Grashof, Pi, le nombre Raleigh, le nombre Stokes et le nombre Sherwood. (lien) Il n'est pas nécessaire d'être un physicien pour aimer les nombres sans dimension car ils sont utiles dans des applications non physiques. Des mesures telles que la densité, l'homogénéité, la circularité et la coplanarité peuvent définir des images, des champs de pixels ou des distributions de probabilités multivariées. N'envisagez pas seulement de prendre un logarithme ou une distance relative par rapport à une valeur connue - vous pouvez également envisager d'inverser les nombres, en prenant leurs racines carrées.

Bonne chance. Veuillez nous faire savoir comment les choses se déroulent.

EngrStudent - Réintégrer Monica
la source
1
La plupart des autorités chargées des données sont fermement opposées à l'utilisation de cartes radar. Ils sont difficiles à interpréter. Une bien meilleure alternative est un graphique de coordonnées parallèles .
Jon Peltier
@ JonPeltier - Je suis d'accord, mais Excel n'avait pas (au moment où j'ai répondu) un moyen propre de créer un graphique de coordonnées parallèles, il est donc probable que son public aura beaucoup de mal à comprendre.
EngrStudent
1

La solution à axe brisé fonctionne mieux lorsqu'il y a une rupture nette juste en face du tracé et que les ordonnées sont étiquetées de sorte que l'écart soit évident. L'avantage de ceci est que l'échelle est préservée à travers les deux ensembles de valeurs. Les placettes de panneaux à différentes échelles peuvent ne pas transmettre la variation relative au sein des groupes bas et haut. J'aime l'idée du zoom avant, que j'ai programmé pour les nuages ​​de points mais que je n'avais pas pensé à utiliser pour les graphiques à barres.

user4983
la source