J'essaie de visualiser certaines données de consommation, qui ont 4 catégories. Les utilisateurs sont libres de basculer entre les différentes catégories. Je voudrais visualiser les trois ou quatre derniers commutateurs pour chaque individu.
Nous commencerions donc par un tracé avec une colonne avec 4 proportions empilées. Après cela, nous aurions 16 car chaque catégorie se décompose en ce que les gens ont fait à l'occasion précédente, puis 64, et ainsi de suite, jusqu'à ce que les bacs deviennent trop petits pour être utiles.
Je pense quelque part entre un graphique marimekko et un graphique à barres empilé ou un gramme dendro devrait fonctionner, mais je ne sais même pas comment cela s'appellerait!
Si quelqu'un peut aider avec le type d'intrigue que je devrais utiliser et, si vous voulez être très gentil, comment l'implémenter dans R, je vous serais très reconnaissant.
la source
Réponses:
Une idée potentielle est l'utilisation de diagrammes de Sankey pour documenter le flux de choix entre les catégories. Deux exemples pour décrire ce dont je parle sont;
Avec une mise à jour sur certaines de vos préoccupations exprimées dans les commentaires. Il me semble que le programme Parallel Sets fait ce que vous voulez hors de la boîte. Ci-dessous est une sortie du programme, dans laquelle j'ai créé 4 variables aléatoires avec 4 catégories. Quel que soit le groupe que vous initialisez en haut de l'écran, il sera divisé séquentiellement entre les catégories suivantes. Créer le fractionnement que vous désirez.
Également non visible sur cette image, le package a des fonctionnalités interactives qui permettent une analyse exploratoire des données plus facile, comme lorsque vous survolez l'une des catégories, tous ses descendants sont mis en évidence.
J'ai téléchargé le même ensemble de données sur Fineo que vous pouvez explorer ici . Outre les 4 variables de catégorie initiales (nommées43
dec1
pardec4
), j'ai également inclus les catégories concaténées qui vous permettent d'examiner les catégories divisées. La convention de dénomination des variables avec leexp
suffixe est que c'est ladec
variable développée en concaténant les catégories choisies précédentes. Alors ,dec3_exp12
serait étiqueté comme121
sidec1 = 1 and dec2 = 2 and dec3 = 1
. Vous pouvez créer la même structure de type fractionné dans Fineo qui est disponible dans ParSets, mais il ne parvient pas à rendre les catégories avec nœuds ou plus dans cet exemple.Après avoir joué avec Fineo abit plus, c'est une application soignée, mais elle est vraiment limitée. Parallel Sets a beaucoup plus de fonctionnalités, je vous suggère donc de vérifier cela avant l'application Fineo.
Je pense que le programme ParSets est une bien meilleure option que de diviser successivement les catégories en sous-ensembles pour examen. Par exemple, en utilisant les mêmes données aléatoires que ci-dessus, voici un diagramme à points qui trace les catégories de proportion dans
decision 2
choisi conditionnellement à la catégorie choisie pourdecision 1
.Vous pouvez faire la même ventilation pour le changement de
decision 2
àdecision 3
, mais faites un petit graphique multiple pour ce qu'était l'initialedecision 1
.Vous pouvez continuer cela à l'infini (voir ci-dessous). Cela peut être instructif, mais je soupçonne que ce serait assez intimidant au moment où vous accéderez à de nombreux autres panneaux. Ci-dessous est comme demandé, visualisant 4 choix de catégorie successifs.
Comme indiqué précédemment, les petits nombres au moment où vous divisez votre graphique en autant de catégories sont problématiques. Une façon de tenir compte de cela est de mapper une esthétique telle que la taille à la ligne de base dans laquelle la proportion est basée. Cela réduit les observations basées sur des nombres plus petits de la vue. Vous pouvez également utiliser la transparence (mais j'ai déjà rendu les points transparents pour distinguer les points surplacés dans cet exemple).
J'imagine que certains envisageaient un arbre de Noël comme une structure de nœuds par opposition à des points, mais je ne sais pas comment faire un tel graphique. Je soupçonne que ce serait le même problème écrasant. Ces petits multiples ne sont pas mauvais, mais IMO the Parallel Sets est beaucoup plus intuitif et je soupçonne que certains modèles non évidents seraient plus apparents dans cette visualisation. Peut-être que quelqu'un de plus imaginatif que moi peut proposer des données plus intéressantes que seulement 4 catégories aléatoires.
la source