Visualisation et superposition: Alternative aux dispersions

8

J'ai un grand ensemble de données sur les pays qui sont encombrées (comme vous pouvez le voir ci-dessous), mais j'ai besoin des étiquettes et des valeurs aberrantes - j'ai aussi beaucoup de graphiques, il serait donc fastidieux de réinitialiser la fenêtre et d'ajouter de faux points de données pour les valeurs aberrantes.

Existe-t-il une bonne alternative à un nuage de points qui pourrait être mieux dans une telle situation? J'aimerais vraiment faire une carte, mais j'ai besoin des deux parties de la paire ordonnée montrées.

entrez la description de l'image ici

arebearit
la source
1
Cela me paraît difficile à répondre sous sa forme actuelle. Pouvez-vous fournir plus d'informations sur votre situation, vos données et vos objectifs? Quelles sont les variables? Avez-vous simplement besoin d'identifier les valeurs aberrantes d'une manière ou d'une autre (par exemple, une approche non basée sur la visualisation serait-elle OK)? Quel logiciel utilises-tu? Demandez-vous simplement du code? (Si c'est le cas, la question serait hors sujet ici.) Etc.
gung - Réinstallez Monica
Il existe des logiciels (en R, je pense) qui essaieront de placer des étiquettes afin qu'elles ne se superposent pas. De plus, si vous avez toutes les étiquettes, vous n'avez pas besoin des points, l'étiquette fera le travail! Essayez avec une taille de police plus petite, et même peut-être avec des polices visibles, ne vous souvenez pas du nom, cela devrait être possible en R, en faisant varier la transparence. Jetez un oeil à ggplot2, ou F Harrells Design, peut-être quelque chose là-dedans.
kjetil b halvorsen

Réponses:

13

Quelques techniques sont démontrées dans ce complot que j'ai réalisé il y a quelques mois.

  1. N'étiquetez que les points «intéressants» et utilisez une étiquette de survol pour identifier d'autres points à la demande. Cela nécessite une intervention humaine pour bien fonctionner, bien que le logiciel puisse se rapprocher d'heuristiques telles que l'affichage des étiquettes uniquement lorsqu'elles peuvent être affichées sans chevauchement.

  2. Transformez l'échelle, par exemple avec des journaux ou des quantiles. La mise en garde ici est que l'échelle n'est plus directement alignée sur notre perception. Le spectateur doit garder à l'esprit la transformation.

entrez la description de l'image ici

Autres options:

  1. Utilisez un treillis ou de petits multiples . Autrement dit, montrez une série de graphiques, chacun avec un sous-ensemble de points, comme un graphique pour chaque région pour les données de votre pays.

  2. Utilisez des graphiques à variable unique liés, tels que des barres ou des tracés de points, de sorte que l'étiquette se trouve dans l'axe. Cela aide si vous pouvez trier par l'une ou l'autre variable de manière interactive.

entrez la description de l'image ici

xan
la source
J'adore l'intrigue au sommet; avez-vous publié le code quelque part? "C'est-à-dire, montrer une série de graphiques, chacun avec un sous-ensemble de points, comme un graphique pour chaque région pour les données de votre pays" est un bon point - Nick Cox a une excellente réponse quelque part, montrant comment cela peut être fait en Stata (je pense qu'il a écrit un paquet pour ça). Je vais voir si je peux le retrouver et le lier.
Silverfish
Merci @Silverfish! J'ai fait le nuage de points interactivement dans JMP (produit de mon entreprise) avec les étiquettes ajustées à la main et les parties roses ajoutées par programme. Les dangers de la "publication" sur Twitter - je dois le publier quelque part avec un peu plus d'explications, de données et de scripts. Suivra avec un lien ici si je réussis.
xan
1
@Silverfish Vous pensez peut-être à des publications sur Statalist, par exemple statalist.org/forums/forum/general-stata-discussion/general/…
Nick Cox
1
Les données et les scripts de mon premier graphique se trouvent sur community.jmp.com/docs/DOC-7108 .
Xan
@ Nick Cox C'est vrai! En fait, je pense que je l'ai vu dans: Cox, NJ 2010, "Graphing subsets", The Stata Journal , 10 : 670-681. Mais les graphismes en couleurs de ce post Statalist le rendent encore plus clair. Le lien vers l'article de la revue est www.stata-journal.com/sjpdf.html?articlenum=gr0046 (je soupçonne que le point d'interrogation l'empêche d'apparaître comme un lien hypertexte)
Silverfish
5

Si vous souhaitez une alternative à un nuage de points, un tracé de coordonnées parallèles peut fonctionner, en particulier si vous essayez de montrer la relation entre de nombreuses variables. Vous "avez beaucoup de graphiques", et un tracé de coordonnées parallèles pourrait réduire cela à un! Voici un exemple sur le célèbre ensemble de données Iris , tiré de Wikipedia ( crédit d'image ):

Tracé de coordonnées parallèles pour les données d'iris

L'intrigue montre très clairement la variation entre les espèces. Vous pouvez choisir de colorier par région géographique ou par niveau de développement. Nous pouvons voir combien il est difficile de distinguer les trois espèces en fonction de la largeur des sépales, mais il y a plus de séparation dans leurs longueurs de pétales. Après un peu d'adaptation mentale (nos yeux peuvent être trop entraînés pour rechercher une "pente ascendante"), il existe évidemment une corrélation positive entre la largeur et la longueur des pétales car des largeurs de pétales plus élevées sont associées à des longueurs de pétales plus élevées. Les fleurs en haut de l'échelle pour l'une, ont tendance à être en haut de l'échelle pour l'autre - cela se manifeste par des lignes à peu près parallèles s'étendant entre les axes. En revanche, il existe une corrélation négative entre la largeur et la longueur du sépale,

L'image parvient à capturer une grande partie des informations disponibles dans toute une matrice de diagrammes de dispersion ( crédit d'image ):

Matrice de dispersion pour les données d'iris

Du côté positif, le graphique à axe parallèle nous donne la possibilité de suivre un individu à travers toutes les variables mesurées: si nous voyons deux points intéressants sur deux diagrammes de dispersion distincts, en particulier des valeurs aberrantes, il peut ne pas être évident s'ils représentent le même individu, mais sur un tracé d'axe parallèle, nous pouvons simplement "suivre le fil". Sur le plan négatif, abandonner tous ces diagrammes de dispersion jette des informations sur les relations multivariées. De toute évidence, nous ne pouvons pas voir certains détails du clustering si clairement (bien que la note Nick Cox recommande des tracés de coordonnées parallèles afin d'étudier la façon dont le clustering "profond" traverse les variables) et les possibilités de discrimination linéaire sont complètement obscurcies. De plus, il peut être difficile de voir les corrélations entre des axes éloignés sur le tracé des coordonnées parallèles,

Si vous avez la possibilité d' interactivité, plutôt qu'une visualisation statique, des tracés de coordonnées parallèles vous offrent quelques options pour contourner ce problème. Par exemple, un utilisateur peut changer l'ordre des axes, en plaçant les variables les unes à côté des autres pour voir plus clairement la relation d'intérêt. Parce que la corrélation positive et négative se comporte si différemment sur un tracé de coordonnées parallèles, il est utile de pouvoir inverser un axe (si vous inversez la direction d'un axe qui a une corrélation négative avec un axe adjacent, alors les lignes entre elles deviennent "démêlées" ). Même sur un tracé statique, il est plus efficace d'inverser les axes pour produire autant de corrélations positives que possible et d'ordonner les axes de manière à rendre les corrélations consécutives aussi fortes que possible, car il est difficile de suivre un brin à travers un enchevêtrement (voir Nick Cox sur ce point).

La caractéristique interactive la plus importante est peut-être le brossage et la liaison : l'utilisateur peut sélectionner par exemple le quartile supérieur d'individus en fonction d'une variable, et leurs lignes sont automatiquement mises en évidence tout au long du tracé. Si sur un autre axe, les points principalement autour du haut sont mis en évidence, cela suggère une corrélation positive (mais nous devons vérifier que le quartile inférieur est associé aux points situés autour du bas de la deuxième variable); si des points principalement autour du bas sont mis en évidence, cela suggère une corrélation négative; si une sélection de points dispersés de façon aléatoire tout le long de l'axe est mise en évidence, cela suggère peu de corrélation.

Avec le nombre de pays que vous incluez, il semble difficile de tous les étiqueter sur n'importe quelle parcelle, sauf si vous avez des contraintes d'espace inhabituellement généreuses. Vous devrez peut-être vous contenter de ne mettre en évidence que les pays individuels les plus importants. Sur une visualisation interactive, les étiquettes de survol peuvent éviter l'encombrement (comme le souligne @xan) et vous pouvez peut-être permettre aux utilisateurs de mettre en surbrillance tous les pays d'une région donnée (ou un autre groupe) qui pourraient afficher automatiquement leurs étiquettes.

Si vous n'utilisez qu'un nombre limité d'étiquettes, vous pouvez envisager de les placer sur les axes eux-mêmes. Si vous regardez La visualisation visuelle des informations quantitatives d' Edward Tufte , Chapitre 7: Éléments graphiques multifonctionnels, vous verrez que cela ressemble étroitement à la suggestion de Tufte pour ce qu'il a appelé un «tableau-graphique» pour les reçus d'impôt du gouvernement ( il peut être plus familier à vous en tant que "slopegraph"). Chaque axe devient une sorte de tableau de classement, ce qui est une fonctionnalité intéressante. (Il existe certaines différences entre les approches, en particulier parce que l'exemple de graphique de tableau de Tufte a utilisé les mêmes unités et échelle sur chaque axe, plutôt que de normaliser les données pour s'adapter, et puisque ses "axes" représentaient une période antérieure et ultérieure, le les pentes avaient une interprétation supplémentaire comme taux de croissance. Ces interprétations ne valent généralement pas pour un tracé de coordonnées parallèles, mais l'idée d'un tableau de classement sur chaque axe le fait.)

Liens et références

Silverfish
la source
1
+1. Merci pour la mention. Notez que la combinaison du rouge et du vert crée un défi pour de nombreuses personnes, surtout lorsque le symbole est le même! Le rouge, le bleu et le noir fonctionneraient mieux.
Nick Cox
@ Nick Oui, je pensais que ce n'étaient pas de très bons exemples de complots sur ce front - je ne les ai empruntés que parce qu'ils sont sous licence libre (sur Wikipedia). Si je peux trouver de meilleurs exemples sous licence libre, je les remplacerais (ou si j'ai un peu de temps pour faire le mien).
Silverfish