Les utilisateurs sont souvent tentés de casser les valeurs des axes pour présenter des données de différents ordres de grandeur sur le même graphique (voir ici ). Bien que cela puisse être pratique, ce n'est pas toujours la manière préférée d'afficher les données (peut être trompeuse au mieux). Quelles sont les autres manières d'afficher les données qui sont différentes selon plusieurs ordres de grandeur?
Je peux penser à deux façons, pour transformer les données en journal ou utiliser des tracés de réseau. Quelles sont les autres options?
data-visualization
logarithm
Roman Luštrik
la source
la source
Réponses:
Je me méfie beaucoup de l'utilisation des axes logarithmiques sur les graphiques à barres . Le problème est que vous devez choisir un point de départ de l'axe, ce qui est presque toujours arbitraire. Vous pouvez choisir de faire deux barres avoir des hauteurs très différentes, ou presque la même hauteur, simplement en changeant la valeur minimale sur l'axe. Ces trois graphiques tracent tous les mêmes données:
Une alternative aux axes discontinus, que personne n'a encore mentionné, est de simplement montrer un tableau de valeurs. Dans de nombreux cas, les tableaux sont plus faciles à comprendre que les graphiques.
la source
Quelques idées supplémentaires:
(1) Vous n'avez pas besoin de vous limiter à une transformation logarithmique. Recherchez sur ce site la balise "data-transformation", par exemple. Certaines données se prêtent bien à certaines transformations comme une racine ou un logit. (De telles transformations - même des journaux - sont généralement à éviter lors de la publication de graphiques pour un public non technique. En revanche, ils peuvent être d'excellents outils pour voir les modèles dans les données.)
(2) Vous pouvez emprunter une technique cartographique standard pour insérer un détail d'une carte dans ou à côté de votre carte. Plus précisément, vous traceriez les valeurs extrêmes par elles-mêmes sur un graphique et toutes (ou les) autres données sur un autre avec une plage d'axe plus limitée, puis organiser graphiquement les deux ainsi que les indications (visuelles et / ou écrites) de la relation entre eux. Pensez à une carte des États-Unis dans laquelle l'Alaska et Hawaï sont incrustés à différentes échelles. (Cela ne fonctionnera pas avec toutes sortes de graphiques, mais pourrait être efficace avec les graphiques à barres de votre illustration.) [Je vois que cela est similaire à la réponse récente de mbq.]
(3) Vous pouvez afficher côte à côte le tracé interrompu avec le même tracé sur des axes ininterrompus.
(4) Dans le cas de votre exemple de graphique à barres, choisissez un axe vertical approprié (peut-être très étiré) et fournissez un utilitaire de panoramique. [C'est plus une astuce qu'une technique vraiment utile, à mon humble avis, mais elle pourrait être utile dans certains cas spéciaux.]
(5) Sélectionnez un schéma différent pour afficher les données. Au lieu d'un graphique à barres qui utilise la longueur pour représenter les valeurs, choisissez un graphique dans lequel les zones de symboles représentent les valeurs, par exemple. [De toute évidence, des compromis sont impliqués ici.]
Votre choix de technique dépendra probablement de l'objectif de l'intrigue: les tracés créés pour l'exploration de données diffèrent souvent des tracés destinés au grand public, par exemple.
la source
Peut-être que cela peut être classé comme un réseau, mais je vais essayer; tracez toutes les barres à l'échelle la plus élevée dans un panneau et placez un autre panneau montrant le zoom sur les plus basses. J'ai utilisé cette technique une fois en cas de nuage de points, et le résultat était plutôt sympa.
la source
Je séparerais le problème des axes logarithmiques du problème des graphiques à barres.
Les graphiques à barres ne peuvent jamais être sensibles s'il n'y a pas d'origine sensible et fixe qui joue le rôle d'un contrôle (ligne de base, vide). Mais cela n'a rien à voir avec les axes logarithmiques.
La seule utilisation régulière que j'ai pour les graphiques à barres sont les histogrammes. Mais je pourrais imaginer qu'ils font bien de montrer la différence avec cette origine (vous voyez aussi immédiatement si la différence est positive ou négative). Parce que les barres représentent une zone, j'ai tendance à penser aux graphiques à barres comme une version très discrète de la zone sous une courbe. Autrement dit, l'axe des x doit avoir une signification métrique (ce qui peut être le cas avec le temps, mais pas avec les villes).
Si je me demandais quelle origine utiliser pour le journal de quelque chose qui avait une origine "naturelle" à 0, je prendrais du recul et réfléchirais un peu à ce qui se passe. Très souvent, ces problèmes ne sont qu'un indicateur que le journal n'est pas une transformation sensible ici.
Désormais, un graphique à barres avec des axes logarithmiques mettrait l'accent sur les augmentations ou les diminutions qui se produisent par multiples. Des exemples sensés auxquels je peux penser en ce moment ont tous une relation linéaire avec une valeur d'intérêt. Mais peut-être que quelqu'un d'autre trouve un bon exemple.
Je pense donc que la transformation des données devrait être sensée par rapport à la signification des données à portée de main. C'est le cas des unités physico-chimiques que j'ai mentionnées plus haut (A est proportionnel aux concentrations, et le pH a, par exemple, une relation linéaire avec la tension dans un pH-mètre). En fait, c'est tellement le cas que l'unité de log obtient un nouveau nom et est utilisée de manière linéaire.
Enfin et surtout, je viens de la spectroscopie vibrationnelle, où les axes brisés sont assez régulièrement utilisés. Et je considère que cette utilisation est l'un des rares exemples où la rupture des axes n'est pas trompeuse. Cependant, nous n'avons pas de changements dans l'ordre de grandeur. Nous avons juste une région non informative de 30 à 40% de notre gamme x: Voici un exemple: Pour cet échantillon, la partie entre 1800 - 2800 / cm ne peut contenir aucune information utile.
La plage spectrale non informative est donc supprimée (ce qui indique également les plages spectrales que nous utilisons réellement pour la modélisation chimiométrique):
Mais pour l'interprétation des données, nous avons besoin de lectures précises de la position x. Mais en général, nous n'avons pas besoin de multiples qui couvrent les différentes plages (c'est-à-dire qu'il existe de telles relations, mais la plupart des connexions sont plus compliquées. Par exemple: Signal à 3050 / cm, donc nous avons une substance insaturée ou aromatique. Mais pas de signal fort à 1000 / cm , donc pas de cycle aromatique mono, méta ou 1,3,5 substitué ...)
Il est donc préférable de représenter x avec une plus grande échelle (en fait, nous utilisons souvent des feuilles millimétriques comme des guides ou étiquetons les emplacements exacts). Donc, nous cassons l'axe et obtenons une échelle x plus grande:
En fait, cela ressemble beaucoup à la facette:
mais l'axe brisé à mon humble avis souligne que l'échelle de l'axe des x dans les deux parties est la même. C'est-à-dire que les intervalles dans les régions tracées sont les mêmes.
Pour souligner les petites intensités (axe y), nous utilisons des encarts agrandis:
[ ... Pour plus de détails, voir la région νCH agrandie (x 20) en bleu .... ]
Et cela est certainement possible avec l'exemple des parcelles liées également.
la source
Deux idées qui ont été évoquées, mais qui n'ont pas été explicitement décrites lorsque j'ai examiné les excellentes réponses et commentaires, étaient que vous utilisez un graphique à barres "d'une manière incompatible avec l'étiquetage" et des données normalisées / sans dimension.
Type de parcelle:
Le graphique de type étoile / araignée / radar (lien) (lien) est souvent très bon pour comparer plusieurs choses différentes le long de plusieurs coordonnées. Il existe un certain nombre d'intrigues très utiles qui (malheureusement) sont rares dans les présentations d'entreprises, probablement parce que le leadership préfère utiliser des conclusions pour prendre des décisions plutôt que d'utiliser des informations pour comprendre et ensuite utiliser la compréhension pour prendre des décisions. Dans les affaires, il est parfois très difficile de parvenir à un consensus et, par conséquent, l'approche axée uniquement sur les résultats peut avoir un rendement plus élevé dans un environnement de consensus d'abord et de décision suivante. Cela informe la popularité du graphique à barres / à colonnes. Veuillez considérer les exemples d'autres types de graphiques qui sont bons pour mieux comprendre (lien) .
Transformation:
Si vous divisez les valeurs que vous tracez par une valeur "caractéristique", vous pouvez transformer l'échelle pour améliorer la lisibilité sans perdre d'informations. Les fluidistes dynamiques préfèrent les nombres sans dimension en raison de leur utilité prédictive et de leur élasticité dans l'application. Ils regardent des choses comme le théorème de Buckingham Pi comme sources de formes candidates sans dimension (lien) . Les nombres sans dimension populaires et utiles incluent le nombre Reynolds, le nombre Mach, le nombre Biot, le nombre Grashof, Pi, le nombre Raleigh, le nombre Stokes et le nombre Sherwood. (lien) Il n'est pas nécessaire d'être un physicien pour aimer les nombres sans dimension car ils sont utiles dans des applications non physiques. Des mesures telles que la densité, l'homogénéité, la circularité et la coplanarité peuvent définir des images, des champs de pixels ou des distributions de probabilités multivariées. N'envisagez pas seulement de prendre un logarithme ou une distance relative par rapport à une valeur connue - vous pouvez également envisager d'inverser les nombres, en prenant leurs racines carrées.
Bonne chance. Veuillez nous faire savoir comment les choses se déroulent.
la source
La solution à axe brisé fonctionne mieux lorsqu'il y a une rupture nette juste en face du tracé et que les ordonnées sont étiquetées de sorte que l'écart soit évident. L'avantage de ceci est que l'échelle est préservée à travers les deux ensembles de valeurs. Les placettes de panneaux à différentes échelles peuvent ne pas transmettre la variation relative au sein des groupes bas et haut. J'aime l'idée du zoom avant, que j'ai programmé pour les nuages de points mais que je n'avais pas pensé à utiliser pour les graphiques à barres.
la source