Comment déterminer si l'axe des Y d'un graphique doit ou non commencer à zéro?

45

Une façon courante de "mentir avec des données" consiste à utiliser une échelle d'ordonnée qui donne l'impression que les changements sont plus importants qu'ils ne le sont réellement.

Lorsque je relis des publications scientifiques ou des rapports de laboratoire d'étudiants, je suis souvent frustré par ce "péché de la visualisation de données" (que je crois que les auteurs commettent involontairement, mais qui aboutit néanmoins à une présentation trompeuse.)

Cependant, "démarrer toujours l'axe des ordonnées à zéro" n'est pas une règle absolue. Par exemple, Edward Tufte souligne que dans une série chronologique, la ligne de base n'est pas nécessairement zéro:

En général, dans une série chronologique, utilisez une ligne de base indiquant les données et non le point zéro. Si le zéro correspond raisonnablement à l'affichage des données, c'est bien. Mais n'utilisez pas beaucoup d'espace vertical vide pour essayer d'atteindre le point zéro au prix de cacher ce qui se passe dans la ligne de données elle-même. (Le livre, Comment mentir avec les statistiques, est faux sur ce point.)

Par exemple, partout où il n’ya pas de zéro dans la série chronologique, jetez un coup d’œil à toute publication scientifique majeure. Les scientifiques veulent montrer leurs données, pas zéro.

L’envie de contextualiser les données est bonne, mais le contexte ne vient pas d’un espace vertical vide allant jusqu’à zéro, un nombre qui n’apparaît même pas dans bon nombre d’ensembles de données. Au lieu de cela, pour le contexte, affichez plus de données horizontalement!

Je tiens à souligner une présentation trompeuse dans les articles que je révise, mais je ne veux pas être un puriste de l'axe des ordonnées.

Existe-t-il des directives indiquant à quel moment l’axe des y doit être démarré à zéro et lorsque cela est inutile et / ou inapproprié? (Surtout dans le contexte du travail académique.)

ff524
la source
3
Je pense que le fait d'indiquer ou non l'inclinaison (ou non) 0 est potentiellement trompeur dépend de l'histoire racontée
gung - Réintégrer Monica
2
Dans une discussion, l'expression "notez le zéro hautement supprimé" ou similaire peut être utilisée pour apporter de l'honnêteté à un personnage potentiellement trompeur. Je ne suis pas aussi heureux avec cela dans les documents imprimés, mais à la limite, vous pouvez également l'utiliser ici.
dmckee
Pour éviter tout cela, j'utilise des boîtes à moustaches chaque fois que cela est possible. Nul besoin de calculer les moyennes et les barres d'erreur, il contient de précieuses informations (telles que la distribution, la propagation, l'asymétrie, l'étendue des données), le tout dans une même parcelle. De plus, vous montrez les données brutes.
Stefan
@Stefan Box plot peut en effet être utile. Il est toutefois étrange que même certains manuels expliquent l'ANOVA, puis présentent des diagrammes en boîte. À cette fin, les moyens, sinon les barres d’erreur, sont certainement pertinents et doivent être informatifs. En fonction de la variété, beaucoup de boîtes à moustaches affichent très mal les données brutes, car elles ne font que les résumer. Cependant, certaines améliorations sont utiles, par exemple les diagrammes en boîte quantile. Toutefois, dans ce contexte, notez que l'affichage des barres de moyennes et d'erreur ne vous engage en aucun cas à indiquer si cela est en dehors de la plage des données. y=0
Nick Cox
@ NickCox merci pour votre commentaire! Je conviens qu’après qu’une analyse de variance a été effectuée, l’affichage des moyennes et des barres d’erreur a plus de sens. Cependant, avant d'exécuter des analyses, je trouve que les boîtes à moustaches sont plus informatives et donnent des informations sur l'apparence de vos données et sur le point de savoir si l'ANOVA choisie peut être appropriée ou non. "Coucher avec des données" peut déjà se produire lorsque, par exemple, des tests paramétriques sont choisis mais que les données ne répondent pas aux hypothèses requises. Par conséquent, pour moi, lecteur d’études scientifiques, j’aime toujours voir des boîtes à moustaches pour me faire une idée des résultats présentés.
Stefan

Réponses:

40
  • N'utilisez pas l'espace dans un graphique d'une manière qui ne vous aide pas à comprendre. Il faut de l'espace pour afficher les données!

  • Utilisez votre jugement scientifique (ingénierie, médical, social, entreprise, ...) ainsi que votre jugement statistique. (Si vous n'êtes ni le client ni le client, parlez-en à quelqu'un sur le terrain pour avoir une idée de ce qui est intéressant ou important, de préférence des personnes qui ont commandé l'analyse.)

  • Affichez zéro sur l' axe des si les comparaisons avec zéro sont au cœur du problème, voire présentent un certain intérêt.y

Ce sont trois règles simples. (Rien n'exclut des tensions entre eux à l'occasion.)

Voici un exemple simple, mais les trois points se présentent: vous mesurez la température corporelle d'un patient en degrés Celsius, Fahrenheit ou même en degrés Kelvin: faites votre choix. Dans quel sens est-il utile ou même logique d'insister pour que les températures soient nulles? Important, même sur le plan médical ou physiologique, les informations seront sinon masquées.

Voici une histoire vraie tirée d'une présentation. Un chercheur montrait des données sur les sex-ratios pour divers États et territoires de l'Union en Inde. Le graphique était un graphique à barres avec toutes les barres commençant à zéro. Toutes les barres étaient proches de la même longueur malgré des variations considérables. C’est exact, mais l’histoire intéressante est que les zones sont différentes malgré les similitudes, mais non pas les mêmes J'ai suggéré que la parité hommes / femmes (1 ou 100 femmes / 100 hommes) était un niveau de référence beaucoup plus naturel. (Je serais également disposé à utiliser un niveau global, tel que la moyenne nationale, à titre de référence.) Même des spécialistes des statistiques qui ont entendu cette petite histoire ont parfois répondu: "Non, les barres doivent toujours commencer à zéro." Pour moi, cela ne vaut pas mieux qu'un dogme sans importance dans un tel cas.

La mention des graphiques à barres indique que le type de graphique utilisé est également important. Supposons que, pour les températures corporelles, un axe des compris entre 35 et 40 C soit choisi par souci de commodité, en incluant toutes les données, de sorte que l’ axe des "commence" à 35 ° C. Les données. Mais dans ce cas, le problème serait le choix inapproprié de l’élément graphique, et non la plage d’axes mal choisie. yyy

Un type d’intrigue courant, en particulier dans certaines sciences biologiques et médicales, montre des moyennes ou d’autres résumés par des barres épaisses commençant à zéro et des intervalles basés sur l’erreur ou les écarts-types indiquant l’incertitude des barres minces. De telles parcelles au détonateur ou à la dynamite, comme elles ont été appelées par ceux qui désapprouvent, peuvent être populaires en partie à cause du principe selon lequel zéro doit toujours être indiqué. L’effet net est de mettre l’accent sur les comparaisons avec zéro qui manquent souvent d’intérêt ou d’utilité.

Certaines personnes voudraient montrer zéro, mais aussi ajouter un saut d'échelle pour montrer que l'échelle est interrompue. Les modes changent et les technologies changent. Il y a des décennies, lorsque les chercheurs dessinaient leurs propres graphiques ou déléguaient la tâche à des techniciens, il était plus facile de demander que cela soit fait à la main. Maintenant, les programmes graphiques ne prennent souvent pas en charge les sauts d’échelle, ce qui, à mon avis, ne constitue pas une perte. Même s'ils le font, c'est un ajout difficile qui peut gaspiller une fraction modérée de la surface du graphique.

Notez que personne n'insiste sur la même règle pour l' axe des . Pourquoi pas? Si vous présentez des fluctuations climatiques ou économiques du siècle dernier, il serait étrange de dire que l’échelle doit commencer à la limite BC / CE ou à une autre origine.x

Il existe naturellement une règle zéro qui s'applique en plus des trois mentionnées.

  • Quoi que vous fassiez, soyez très clair. Étiquetez vos axes de manière cohérente et informative. Ensuite, faites confiance à vos lecteurs attentifs pour voir ce que vous avez fait.

Ainsi, sur ce point, je suis tout à fait d’accord avec Edward Tufte et je ne suis pas d’accord avec Darrell Huff.

EDIT 9 mai 2016:

Plutôt que d'essayer d'inclure invariablement une ligne de base 0 dans tous vos graphiques, utilisez plutôt des lignes de base logiques et significatives.

Cairo, A. 2016. L'art véridique: données, graphiques et cartes pour la communication. San Francisco, Californie: Nouveaux cavaliers, p.136.

Nick Cox
la source
7
En dehors de cela: je pense que les gens sont plus enclins à s'en tenir dogmatiquement à «commencer à zéro» lorsque les données sont représentées par des barres, au motif que les barres indiquent les zones et que la zone est trompeuse si elle ne commence pas à zéro. Sur un graphique à points de Cleveland - qui est souvent une visualisation plus appropriée de toute façon - il semble qu'aucun argument aussi convaincant ne commence à zéro, et les gens semblent plus disposés à faire preuve de souplesse quant à leur point de départ.
Silverfish
4
Très bonne réponse. J'ai posé cette question dans le contexte de la révision d'un document qui utilisait systématiquement des plages d'axes inappropriées (soulignant des variations non significatives dans les données). Cette réponse m'a fait comprendre que j'étais vraiment frustré par le manque de jugement (statistique et technique) dans la compréhension et l'interprétation des données - une chose beaucoup plus constructive à commenter dans un examen que de se plaindre de la plage d'axes.
ff524
4
La règle du début de l'axe à zéro n'a de sens que si vous pensez à des variables continues qui sont des ratios, de sorte que zéro a une signification réelle. Un poids de 0 n'est pas un poids. Etc. Mais les températures en C ou F utilisent des valeurs arbitraires pour zéro, il est donc inutile de penser à démarrer l'axe.
Harvey Motulsky
2
Bars à partir de 0 C présente des températures au- dessus et au- dessous du point de congélation de l' eau. J'ai vu cela en climatologie et cela a une signification physique. Naturellement, je suis d'accord avec le point plus général que zéro est naturel pour les échelles de rapport et arbitraire autrement.
Nick Cox
3
Bien, mais j'aimerais souligner que le point de "jugement" dépend du public (le public compte toujours !). Les publics techniques liront l’axe et comprendront les implications. Une certaine fraction de la population laïque ignorera résolument les étiquettes des axes et tirera des conclusions de la forme du graphique sous des hypothèses potentiellement incorrectes à propos de l'échelle. Si le graphique est destiné à un public profane, vous devez en tenir compte dans votre jugement.
dmckee