Une façon courante de "mentir avec des données" consiste à utiliser une échelle d'ordonnée qui donne l'impression que les changements sont plus importants qu'ils ne le sont réellement.
Lorsque je relis des publications scientifiques ou des rapports de laboratoire d'étudiants, je suis souvent frustré par ce "péché de la visualisation de données" (que je crois que les auteurs commettent involontairement, mais qui aboutit néanmoins à une présentation trompeuse.)
Cependant, "démarrer toujours l'axe des ordonnées à zéro" n'est pas une règle absolue. Par exemple, Edward Tufte souligne que dans une série chronologique, la ligne de base n'est pas nécessairement zéro:
En général, dans une série chronologique, utilisez une ligne de base indiquant les données et non le point zéro. Si le zéro correspond raisonnablement à l'affichage des données, c'est bien. Mais n'utilisez pas beaucoup d'espace vertical vide pour essayer d'atteindre le point zéro au prix de cacher ce qui se passe dans la ligne de données elle-même. (Le livre, Comment mentir avec les statistiques, est faux sur ce point.)
Par exemple, partout où il n’ya pas de zéro dans la série chronologique, jetez un coup d’œil à toute publication scientifique majeure. Les scientifiques veulent montrer leurs données, pas zéro.
L’envie de contextualiser les données est bonne, mais le contexte ne vient pas d’un espace vertical vide allant jusqu’à zéro, un nombre qui n’apparaît même pas dans bon nombre d’ensembles de données. Au lieu de cela, pour le contexte, affichez plus de données horizontalement!
Je tiens à souligner une présentation trompeuse dans les articles que je révise, mais je ne veux pas être un puriste de l'axe des ordonnées.
Existe-t-il des directives indiquant à quel moment l’axe des y doit être démarré à zéro et lorsque cela est inutile et / ou inapproprié? (Surtout dans le contexte du travail académique.)
la source
Réponses:
N'utilisez pas l'espace dans un graphique d'une manière qui ne vous aide pas à comprendre. Il faut de l'espace pour afficher les données!
Utilisez votre jugement scientifique (ingénierie, médical, social, entreprise, ...) ainsi que votre jugement statistique. (Si vous n'êtes ni le client ni le client, parlez-en à quelqu'un sur le terrain pour avoir une idée de ce qui est intéressant ou important, de préférence des personnes qui ont commandé l'analyse.)
Affichez zéro sur l' axe des si les comparaisons avec zéro sont au cœur du problème, voire présentent un certain intérêt.y
Ce sont trois règles simples. (Rien n'exclut des tensions entre eux à l'occasion.)
Voici un exemple simple, mais les trois points se présentent: vous mesurez la température corporelle d'un patient en degrés Celsius, Fahrenheit ou même en degrés Kelvin: faites votre choix. Dans quel sens est-il utile ou même logique d'insister pour que les températures soient nulles? Important, même sur le plan médical ou physiologique, les informations seront sinon masquées.
Voici une histoire vraie tirée d'une présentation. Un chercheur montrait des données sur les sex-ratios pour divers États et territoires de l'Union en Inde. Le graphique était un graphique à barres avec toutes les barres commençant à zéro. Toutes les barres étaient proches de la même longueur malgré des variations considérables. C’est exact, mais l’histoire intéressante est que les zones sont différentes malgré les similitudes, mais non pas les mêmes J'ai suggéré que la parité hommes / femmes (1 ou 100 femmes / 100 hommes) était un niveau de référence beaucoup plus naturel. (Je serais également disposé à utiliser un niveau global, tel que la moyenne nationale, à titre de référence.) Même des spécialistes des statistiques qui ont entendu cette petite histoire ont parfois répondu: "Non, les barres doivent toujours commencer à zéro." Pour moi, cela ne vaut pas mieux qu'un dogme sans importance dans un tel cas.
La mention des graphiques à barres indique que le type de graphique utilisé est également important. Supposons que, pour les températures corporelles, un axe des compris entre 35 et 40 C soit choisi par souci de commodité, en incluant toutes les données, de sorte que l’ axe des "commence" à 35 ° C. Les données. Mais dans ce cas, le problème serait le choix inapproprié de l’élément graphique, et non la plage d’axes mal choisie.∘ yy ∘ y
Un type d’intrigue courant, en particulier dans certaines sciences biologiques et médicales, montre des moyennes ou d’autres résumés par des barres épaisses commençant à zéro et des intervalles basés sur l’erreur ou les écarts-types indiquant l’incertitude des barres minces. De telles parcelles au détonateur ou à la dynamite, comme elles ont été appelées par ceux qui désapprouvent, peuvent être populaires en partie à cause du principe selon lequel zéro doit toujours être indiqué. L’effet net est de mettre l’accent sur les comparaisons avec zéro qui manquent souvent d’intérêt ou d’utilité.
Certaines personnes voudraient montrer zéro, mais aussi ajouter un saut d'échelle pour montrer que l'échelle est interrompue. Les modes changent et les technologies changent. Il y a des décennies, lorsque les chercheurs dessinaient leurs propres graphiques ou déléguaient la tâche à des techniciens, il était plus facile de demander que cela soit fait à la main. Maintenant, les programmes graphiques ne prennent souvent pas en charge les sauts d’échelle, ce qui, à mon avis, ne constitue pas une perte. Même s'ils le font, c'est un ajout difficile qui peut gaspiller une fraction modérée de la surface du graphique.
Notez que personne n'insiste sur la même règle pour l' axe des . Pourquoi pas? Si vous présentez des fluctuations climatiques ou économiques du siècle dernier, il serait étrange de dire que l’échelle doit commencer à la limite BC / CE ou à une autre origine.x
Il existe naturellement une règle zéro qui s'applique en plus des trois mentionnées.
Ainsi, sur ce point, je suis tout à fait d’accord avec Edward Tufte et je ne suis pas d’accord avec Darrell Huff.
EDIT 9 mai 2016:
Cairo, A. 2016. L'art véridique: données, graphiques et cartes pour la communication. San Francisco, Californie: Nouveaux cavaliers, p.136.
la source