J'ai lu que l'utilisation d'échelles de notation lors de la création de graphiques est appropriée dans certaines circonstances, comme l'axe des ordonnées dans un graphique de séries chronologiques. Cependant, je n'ai pas été en mesure de trouver une explication définitive quant à la raison pour laquelle c'est le cas ou à quel autre moment cela serait approprié. N'oubliez pas que je ne suis pas un statisticien et que, de ce fait, je ne comprends peut-être rien. Si tel est le cas, je serais heureux de recevoir des conseils sur les ressources à mettre en place pour remédier aux problèmes.
57
Réponses:
C’est une question très intéressante à laquelle trop peu de gens réfléchissent. Une échelle de journal peut être appropriée de plusieurs manières différentes. Le premier et le plus connu est celui mentionné par Macro dans son commentaire: les échelles de journal permettent d'afficher une large plage sans que les petites valeurs soient compressées dans le bas du graphique.
Une raison différente pour préférer une mise à l'échelle du journal est dans des circonstances où les données sont plus naturellement exprimées géométriquement. Un exemple est lorsque les données représentent la concentration d'un médiateur biologique. Les concentrations ne peuvent pas être négatives et la variabilité varie presque toujours avec la moyenne (c’est-à-dire qu’il existe une variance hétéroscédastique). En utilisant une échelle logarithmique ou, de manière équivalente, en utilisant la concentration logarithmique comme principale, la mesure «corrige» la variabilité inégale et donne une échelle non bornée aux deux extrémités. Les concentrations sont probablement log-normalement distribuées et donc une mise à l'échelle des journaux nous donne un résultat très pratique qui est sans doute «naturel». En pharmacologie, nous utilisons le plus souvent une échelle logarithmique pour les concentrations de médicaments,
Une autre bonne raison pour une échelle logarithmique, probablement celle qui vous intéresse pour les données de séries chronologiques, vient de la capacité de cette dernière à rendre équivalentes les modifications fractionnaires. Imaginez un affichage du rendement à long terme de vos investissements de retraite. Il devrait (devrait) croître de façon à peu près exponentielle, car l'intérêt de demain dépend de l'investissement actuel (à peu près). Ainsi, même si la performance en termes de pourcentage a été relativement constante, un graphique des fonds semble s’être développé le plus rapidement du côté droit. Avec une échelle logarithmique, un pourcentage de changement constant est considéré comme une distance verticale constante, alors un taux de croissance constant est considéré comme une ligne droite. C'est souvent un avantage substantiel.
Une autre raison légèrement plus ésotérique de choisir une échelle logarithmique vient lorsque des valeurs peuvent être raisonnablement exprimées sous la forme x ou 1 / x. Un exemple tiré de mes propres recherches est la résistance vasculaire qui peut également être exprimée de manière raisonnable en tant que conductance vasculaire réciproque. (Dans certaines circonstances, il est également judicieux de penser au diamètre des vaisseaux sanguins, qui est considéré comme un pouvoir de résistance ou de conductance.) Aucune de ces mesures n'a plus de réalité que l'autre et les deux se trouvent dans des documents de recherche. S'ils sont mis à l'échelle de manière logarithmique, ils sont simplement les négatifs les uns des autres et le choix de l'un ou de l'autre ne fait aucune différence substantielle. (Le diamètre vasculaire différera de la résistance et de la conductance par un multiplicateur constant quand ils sont tous mis à l'échelle logarithmique.)
la source
Voici quelques exemples concrets que je devais présenter comme complément à la très bonne réponse de @Michael Lew.
Premièrement, les graphiques en deux séries chronologiques ci-dessous montrent les arrivées mensuelles de visiteurs en Nouvelle-Zélande, disponibles auprès de Statistics New Zealand . Les deux tracés ont leur utilité, mais je trouve celui qui a l’axe vertical à l’échelle logarithmique spectaculairement utile à bien d’autres fins que le premier. Par exemple, vous pouvez constater que la saisonnalité des arrivées reste à peu près proportionnelle à l’ampleur des arrivées; et vous pouvez voir les changements significatifs dans le taux de croissance (par exemple pendant la seconde guerre mondiale) qui sont simplement invisibles à l'échelle originale.
Deuxièmement, les graphiques ci-dessous montrent les dépenses totales liées au voyage effectuées par les touristes en Nouvelle-Zélande, par rapport aux dépenses réalisées alors qu’ils se trouvent réellement en Nouvelle-Zélande. La source est l' Enquête sur les visiteurs internationaux du ministère du Développement économique. La différence concerne les dépenses avant le voyage, par exemple les hôtels ou les forfaits payés à l'avance. Le premier graphique, à l’échelle initiale, peut être utilisé à d’autres fins que celle de donner une impression très grossière (mais importante) du regroupement des données dans le coin inférieur gauche. Le deuxième graphique sacrifie une certaine interprétabilité immédiate, en particulier pour les non-statisticiens (à cause de cela, j’utiliserais maintenant normalement une échelle logarithmique sur les axes, plutôt que de transformer les données et d’avoir l’échelle indiquant la valeur logarithmique), mais donne beaucoup. plus de différenciation visuelle.
Par exemple, vous pouvez clairement identifier les quelques valeurs aberrantes (qui se sont avérées être des erreurs d’édition de données) où les dépenses totales étaient inférieures aux dépenses engagées en Nouvelle-Zélande. Peut-être plus important encore, vous pouvez utiliser ce graphique avec différentes couleurs ou facettes pour montrer comment différents pays du marché ou but de la visite (par exemple, vacances ou visites à des amis ou à la famille) occupent différentes parties de "l'espace" des dépenses - ce qui ne serait que invisible. sur les axes d'origine.
Pour transformer ce graphique en quelque chose d’utile, il faudrait en quelque sorte s’occuper des données de haute densité (par exemple en ajoutant de la transparence aux points ou en remplaçant les points par des cases hexagonales colorées en fonction de la densité), mais toute solution visuelle utile impliquera presque certainement des axes logarithmiques.
éditer / ajouter
Un autre complot illustrant ce que je voulais dire par bacs hexagonaux, utilisant la couleur pour représenter la densité en cas de données volumineuses (dans ce cas, environ 12 000 personnes ont répondu à une enquête sur les expériences de la Coupe du monde de rugby en Nouvelle-Zélande). Notez à nouveau qu'il s'agit d'un autre exemple où j'ai utilisé une échelle logarithmique pour les dépenses.
la source
Une autre chose intéressante sur les échelles de notation est qu'elles rendent les ratios symétriques. Par exemple, comme ceci:
la source