Quand les échelles de log sont-elles appropriées?

57

J'ai lu que l'utilisation d'échelles de notation lors de la création de graphiques est appropriée dans certaines circonstances, comme l'axe des ordonnées dans un graphique de séries chronologiques. Cependant, je n'ai pas été en mesure de trouver une explication définitive quant à la raison pour laquelle c'est le cas ou à quel autre moment cela serait approprié. N'oubliez pas que je ne suis pas un statisticien et que, de ce fait, je ne comprends peut-être rien. Si tel est le cas, je serais heureux de recevoir des conseils sur les ressources à mettre en place pour remédier aux problèmes.

dav
la source
10
Ce n'est pas une réponse formelle mais - quand une variable couvre plusieurs ordres de grandeur, il est souvent plus facile pour les yeux (et plus informatif) de la visualiser sur l'échelle logarithmique.
Macro
Macro qui fait le bon sens (surtout quand vous avez un public qui peut le comprendre!)
dav
1
Vous pouvez trouver ce fil d’utilisation étroitement lié en attendant des réponses spécifiques: stats.stackexchange.com/questions/298 . En termes de représentation graphique, vous pouvez interpréter de manière fructueuse la "variable dépendante" comme un "axe des ordonnées". Ensuite, jetez un coup d'œil aux nombreuses questions étroitement liées qui sont apparues ici.
whuber
3
Par ailleurs, Naomi Robbins a publié un article très simple sur le sujet, qui devrait présenter un intérêt particulier: Quand devrais-je utiliser des échelles logarithmiques dans mes graphiques? .
Andy W
Whuber, merci de signaler les liens supplémentaires. J'en ai vu quelques-unes, mais pas toutes et je suis en train de les parcourir.
dav

Réponses:

51

C’est une question très intéressante à laquelle trop peu de gens réfléchissent. Une échelle de journal peut être appropriée de plusieurs manières différentes. Le premier et le plus connu est celui mentionné par Macro dans son commentaire: les échelles de journal permettent d'afficher une large plage sans que les petites valeurs soient compressées dans le bas du graphique.

Une raison différente pour préférer une mise à l'échelle du journal est dans des circonstances où les données sont plus naturellement exprimées géométriquement. Un exemple est lorsque les données représentent la concentration d'un médiateur biologique. Les concentrations ne peuvent pas être négatives et la variabilité varie presque toujours avec la moyenne (c’est-à-dire qu’il existe une variance hétéroscédastique). En utilisant une échelle logarithmique ou, de manière équivalente, en utilisant la concentration logarithmique comme principale, la mesure «corrige» la variabilité inégale et donne une échelle non bornée aux deux extrémités. Les concentrations sont probablement log-normalement distribuées et donc une mise à l'échelle des journaux nous donne un résultat très pratique qui est sans doute «naturel». En pharmacologie, nous utilisons le plus souvent une échelle logarithmique pour les concentrations de médicaments,

Une autre bonne raison pour une échelle logarithmique, probablement celle qui vous intéresse pour les données de séries chronologiques, vient de la capacité de cette dernière à rendre équivalentes les modifications fractionnaires. Imaginez un affichage du rendement à long terme de vos investissements de retraite. Il devrait (devrait) croître de façon à peu près exponentielle, car l'intérêt de demain dépend de l'investissement actuel (à peu près). Ainsi, même si la performance en termes de pourcentage a été relativement constante, un graphique des fonds semble s’être développé le plus rapidement du côté droit. Avec une échelle logarithmique, un pourcentage de changement constant est considéré comme une distance verticale constante, alors un taux de croissance constant est considéré comme une ligne droite. C'est souvent un avantage substantiel.

Une autre raison légèrement plus ésotérique de choisir une échelle logarithmique vient lorsque des valeurs peuvent être raisonnablement exprimées sous la forme x ou 1 / x. Un exemple tiré de mes propres recherches est la résistance vasculaire qui peut également être exprimée de manière raisonnable en tant que conductance vasculaire réciproque. (Dans certaines circonstances, il est également judicieux de penser au diamètre des vaisseaux sanguins, qui est considéré comme un pouvoir de résistance ou de conductance.) Aucune de ces mesures n'a plus de réalité que l'autre et les deux se trouvent dans des documents de recherche. S'ils sont mis à l'échelle de manière logarithmique, ils sont simplement les négatifs les uns des autres et le choix de l'un ou de l'autre ne fait aucune différence substantielle. (Le diamètre vasculaire différera de la résistance et de la conductance par un multiplicateur constant quand ils sont tous mis à l'échelle logarithmique.)

Michael Lew
la source
Merci pour la bonne réponse! Pouvez-vous préciser "les valeurs peuvent être raisonnablement exprimées par x", cependant?
ktdrv
4
@ktdrv Certaines choses ont du sens dans les deux sens. Supposons que vous souhaitiez documenter la capacité d'un pêcheur. Vous pouvez compter le nombre de poissons capturés par jour ou mesurer l'intervalle entre les captures successives. Les deux mesures ont un sens mais elles sont liées de manière non linéaire. Ils sont inversés l'un par rapport à l'autre et peuvent donc être convertis un à un en un autre. Le journal de l'intervalle et le journal du nombre par jour sont liés linéairement l'un à l'autre et diffèrent par un facteur constant (négatif).
Michael Lew
1
Michael, merci pour cette excellente réponse. Je dois admettre qu'il m'a fallu un certain temps pour passer au crible tous vos points (et que je devais google quelques termes, comme "variance hétéroscédastique"). Je suis toujours en train de rassembler exactement l'impact réel de la réponse sur mon travail, mais je suis reconnaissant pour une orientation générale et des lignes directrices pour me guider tout au long du processus.
dav
x1/xlog(x)x1/x x1/xx1/x
pH=log[H+]
29

Voici quelques exemples concrets que je devais présenter comme complément à la très bonne réponse de @Michael Lew.

Premièrement, les graphiques en deux séries chronologiques ci-dessous montrent les arrivées mensuelles de visiteurs en Nouvelle-Zélande, disponibles auprès de Statistics New Zealand . Les deux tracés ont leur utilité, mais je trouve celui qui a l’axe vertical à l’échelle logarithmique spectaculairement utile à bien d’autres fins que le premier. Par exemple, vous pouvez constater que la saisonnalité des arrivées reste à peu près proportionnelle à l’ampleur des arrivées; et vous pouvez voir les changements significatifs dans le taux de croissance (par exemple pendant la seconde guerre mondiale) qui sont simplement invisibles à l'échelle originale.

entrez la description de l'image ici

Deuxièmement, les graphiques ci-dessous montrent les dépenses totales liées au voyage effectuées par les touristes en Nouvelle-Zélande, par rapport aux dépenses réalisées alors qu’ils se trouvent réellement en Nouvelle-Zélande. La source est l' Enquête sur les visiteurs internationaux du ministère du Développement économique. La différence concerne les dépenses avant le voyage, par exemple les hôtels ou les forfaits payés à l'avance. Le premier graphique, à l’échelle initiale, peut être utilisé à d’autres fins que celle de donner une impression très grossière (mais importante) du regroupement des données dans le coin inférieur gauche. Le deuxième graphique sacrifie une certaine interprétabilité immédiate, en particulier pour les non-statisticiens (à cause de cela, j’utiliserais maintenant normalement une échelle logarithmique sur les axes, plutôt que de transformer les données et d’avoir l’échelle indiquant la valeur logarithmique), mais donne beaucoup. plus de différenciation visuelle.

Par exemple, vous pouvez clairement identifier les quelques valeurs aberrantes (qui se sont avérées être des erreurs d’édition de données) où les dépenses totales étaient inférieures aux dépenses engagées en Nouvelle-Zélande. Peut-être plus important encore, vous pouvez utiliser ce graphique avec différentes couleurs ou facettes pour montrer comment différents pays du marché ou but de la visite (par exemple, vacances ou visites à des amis ou à la famille) occupent différentes parties de "l'espace" des dépenses - ce qui ne serait que invisible. sur les axes d'origine.

Pour transformer ce graphique en quelque chose d’utile, il faudrait en quelque sorte s’occuper des données de haute densité (par exemple en ajoutant de la transparence aux points ou en remplaçant les points par des cases hexagonales colorées en fonction de la densité), mais toute solution visuelle utile impliquera presque certainement des axes logarithmiques.

entrez la description de l'image ici

éditer / ajouter

Un autre complot illustrant ce que je voulais dire par bacs hexagonaux, utilisant la couleur pour représenter la densité en cas de données volumineuses (dans ce cas, environ 12 000 personnes ont répondu à une enquête sur les expériences de la Coupe du monde de rugby en Nouvelle-Zélande). Notez à nouveau qu'il s'agit d'un autre exemple où j'ai utilisé une échelle logarithmique pour les dépenses.

entrez la description de l'image ici

Peter Ellis
la source
Peter, merci pour cette information supplémentaire. Les graphiques vous aident vraiment à comprendre vos points. Une question de suivi (si vous êtes si enclin), pourquoi voudriez-vous remplacer des points par des cases "hexagonales"? Est-ce la même idée que "Tournesol"? Je n'ai pas entendu ce terme auparavant.
dav
Non, différent des parcelles de tournesol. Le but est de diviser la zone de traçage en cases hexagonales, puis de les colorer (par exemple de clair à foncé) en fonction du nombre de points dans chaque case. Cela peut être un bon moyen de se déplacer pour créer de grands ensembles de données qui, autrement, ont tendance à se transformer en une masse de noir.
Peter Ellis
@DavidVandenbos - J'ai ajouté un exemple
Peter Ellis
(le reste du commentaire) @PeterEllis Merci pour la clarification. C'est un excellent moyen de visualiser les données. Elles sont très similaires aux cartes thermiques géographiques que j'utilise. Avez-vous créé cela en R?
dav
Oui, R, en utilisant le paquetage ggplot2 - très bon pour cela et assez simple une fois que vous avez les bases.
Peter Ellis
9

Une autre chose intéressante sur les échelles de notation est qu'elles rendent les ratios symétriques. Par exemple, comme ceci: entrez la description de l'image ici

miura
la source
10
Ce serait bien de voir la même parcelle sur une échelle linéaire, à titre de comparaison
nico