La BBC a analysé plus de données référendaires sur le Brexit; le premier graphique de leur article a attiré mon attention:
Il semblait étrange de diviser l'axe des x à 50%. Cela aurait sûrement dû être divisé à la médiane des données? (Ou la moyenne si les données ont été normalement distribuées; mais en plissant les yeux, cela ne semble pas être le cas ici.)
(Ils n'ont pas publié leurs données, mais un rapide google suggère que les diplômés représentent environ 25% de la population adulte, et cela correspond à la lecture du tableau, donc je vais y aller.)
Mais cela m'a fait réfléchir sur la façon de dessiner ce tableau aussi objectivement que possible. Serait-il préférable de garder l'axe des x linéaire et d'avoir les deux cases de droite trois fois plus larges? Ou garder les boîtes toutes de la même taille, écraser et étirer l'axe des x, de sorte que chaque étendue de N pixels couvre le même nombre de points de données? Ou autre chose?
la source
Réponses:
Je pense que cette version FT de données similaires sert de réponse décente sur la façon de présenter les données de manière équitable.
Plutôt que d'absolu sur une échelle de 0 à 100, il effectue un zoom avant pour se concentrer sur le changement. Les lignes aident à vérifier le modèle qui est difficile à évaluer sur les seuls points en raison de toutes les surcharges. (Combien des 1070 quartiers pouvez-vous distinguer dans l'original?)
la source
Je suis d'accord que la coloration rose des quadrants est en grande partie cosmétique, mais dans l'ensemble, je considère cela comme une intrigue claire et informative. Le message est immédiatement apparent et n'est pas trompeur. La BBC a tracé les points de données réels. Ils n'ont pas manipulé les axes x ou y. L'annotation sur le tracé est correcte et non surestimée. Ils n'ont pas ajouté de lignes de tendance parasites ni aucune autre interprétation inutile. Comparé à la plupart des données chiffrées présentées dans les médias, ce graphique est excellent - c'est un assez bon exemple de laisser les données parler d'elles-mêmes. En bref, je pense que vous y pensez trop. Je ne doute pas que vous puissiez trouver des moyens d'améliorer l'intrigue, mais la simplicité est généralement la meilleure.
la source
Je suis d'accord que le graphique est trompeur en ce sens qu'il prétend montrer qu'il n'y a pas de points de données dans le quadrant catégoriquement décrit comme un pourcentage élevé de voix en congé, un pourcentage élevé de diplômés. Ce qui est haut et bas devient relatif aux limites de l'axe, pas aux données réelles. Bien qu'il soit théoriquement possible d'avoir une unité avec une population qui est à 100% diplômée d'université, une telle unité n'existe pas. Vous n'avez pas besoin d'inventer des points de données pour produire un graphique trompeur: un axe brisé montrant un changement exagéré est un exemple qui n'est pas trop différent de celui-ci.
Une manière plus objective de visualiser ces données serait de définir les limites de l'axe du nuage de points au maximum / min des données, puis de diviser le graphique en quadrants d'une zone égale.
La raison pour laquelle j'opterais pour l'aire égale des quadrants est que les quadrants montrent une relation linéaire équivalente entre les variables. Les descriptions catégorielles des quadrants «haut» et «bas» sont traitées comme équivalentes, les zones devraient donc l'être également.
Si, à la place, nous voulons utiliser les quadrants comme une autre façon de décrire quantitativement les données, nous pourrions définir les bordures des quadrants à la moyenne de chaque variable, comme indiqué dans Visualisation des données avec des exemples R: 100 (disponible en aperçu sur Google Books, p283, 286).
Pour ajouter une autre couche analytique à une visualisation de nuage de points, nous pouvons utiliser la couleur et la taille des points. Par exemple, la couleur peut être utilisée pour séparer les villes universitaires des autres, afficher la participation électorale dans un dégradé ou mettre en évidence les résultats des élections générales pour ces circonscriptions. Je ne sais pas si la taille sera efficace avec autant de points de données, mais vous pouvez potentiellement enquêter sur différentes bandes de population, telles que 65+, et comment elles sont représentées dans les données.
À mon avis, il y a également deux mises en garde importantes qui méritent d'être prises en compte lorsque l'on regarde ce graphique: premièrement, qu'il compte tous les diplômés, qu'ils aient voté ou non au référendum, et deuxièmement, qu'il inclut les diplômés résidents titulaires d'un passeport européen qui n'a pas pu voter au référendum (en supposant que les données sources sont basées sur le recensement).
la source
Je suis d'accord, très trompeur. J'éliminerais le fond coloré tous ensemble.
Si vous insistez pour le colorer, peut-être un gradient correspondant à la densité de population? C'est-à-dire que la couleur d'arrière-plan devient plus foncée à mesure que de plus en plus de pupilles tombent dans la catégorie «instruits contre congé»
Il y a certainement une tendance, je ne pense pas que quiconque contesterait cela - peut-être que l'auteur devrait s'en tenir à une ligne de tendance quelconque?
la source