Qu'est-ce qu'un graphique approprié pour illustrer la relation entre deux variables ordinales?
Quelques options auxquelles je peux penser:
- Nuage de points avec ajout de jitter aléatoire pour empêcher les points de se cacher. Apparemment, un graphique standard - Minitab appelle cela un "tracé de valeurs individuelles". À mon avis, cela peut être trompeur car cela encourage visuellement une sorte d'interpolation linéaire entre les niveaux ordinaux, comme si les données provenaient d'une échelle d'intervalles.
- Le diagramme de dispersion est adapté pour que la taille (surface) du point représente la fréquence de cette combinaison de niveaux, plutôt que de dessiner un point pour chaque unité d'échantillonnage. J'ai parfois vu de tels complots dans la pratique. Ils peuvent être difficiles à lire, mais les points se trouvent sur un réseau régulièrement espacé, ce qui permet de surmonter quelque peu les critiques adressées au nuage de points agité selon lequel il «visuellement intermittent» les données.
- En particulier si l’une des variables est considérée comme dépendante, un diagramme à moustaches groupé par niveaux de la variable indépendante. Cela risque de paraître terrible si le nombre de niveaux de la variable dépendante n’est pas suffisamment élevé (très "plat" avec des moustaches manquantes ou même pire des quartiles effondrés rendant l’identification visuelle de la médiane impossible), mais attire au moins l’attention sur les médianes et les quartiles qui statistiques descriptives pertinentes pour une variable ordinale.
- Tableau de valeurs ou grille vierge de cellules avec carte thermique pour indiquer la fréquence. Visuellement différent mais conceptuellement similaire au nuage de points avec une zone de points indiquant la fréquence.
Existe-t-il d'autres idées ou réflexions sur lesquelles les parcelles sont préférables? Existe-t-il des domaines de recherche dans lesquels certaines parcelles ordinales / ordinales sont considérées comme standard? (Je pense me souvenir que la heatmap de fréquence est très répandue dans la génomique, mais je pense que c'est plus souvent entre nominal et nominal.) Des suggestions pour une bonne référence standard seraient également les bienvenues, je suppose quelque chose d'Agresti.
Si quelqu'un veut illustrer avec un tracé, le code R pour les données de l'échantillon fictif suit.
"Quelle est l'importance de l'exercice pour vous?" 1 = pas du tout important, 2 = un peu sans importance, 3 = ni important ni sans importance, 4 = plutôt important, 5 = très important.
"À quelle fréquence prenez-vous régulièrement 10 minutes ou plus?" 1 = jamais, 2 = moins d'une fois par quinzaine, 3 = une fois toutes les deux semaines, 4 = deux ou trois fois par semaine, 5 = quatre fois ou plus par semaine.
S'il serait naturel de traiter "souvent" en tant que variable dépendante et "importance" en tant que variable indépendante, si un graphique fait la distinction entre les deux.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Une question connexe sur les variables continues que j’ai trouvée utile, peut-être un bon point de départ: Quelles sont les alternatives aux diagrammes de dispersion lorsqu’on étudie la relation entre deux variables numériques?
Réponses:
Un tracé vertébral (tracé en mosaïque) fonctionne bien pour les exemples de données ici, mais peut être difficile à lire ou à interpréter si certaines combinaisons de catégories sont rares ou n'existent pas. Naturellement, il est raisonnable et prévisible qu'une faible fréquence soit représentée par une petite tuile et nulle par aucune tuile, mais la difficulté psychologique peut rester. Il est également naturel que les personnes qui aiment les graphiques à la colonne vertébrale choisissent des exemples qui conviennent à leurs papiers ou à leurs présentations, mais j'ai souvent produit des exemples trop désordonnés pour être utilisés en public. Inversement, une représentation graphique utilise bien l’espace disponible.
Certaines implémentations supposent des graphiques interactifs, de sorte que l'utilisateur puisse interroger chaque mosaïque pour en savoir plus.
Une alternative qui peut aussi très bien fonctionner est un graphique à barres à double sens (de nombreux autres noms existent).
Voir par exemple
tabplot
dans http://www.surveydesign.com.au/tipsusergraphs.htmlPour ces données, un graphique possible (produit à l’aide
tabplot
de Stata, mais devrait être facile à utiliser dans tout logiciel approprié)Le format signifie qu'il est facile de relier des barres individuelles à des identificateurs de ligne et de colonne et que vous pouvez annoter des fréquences, des proportions ou des pourcentages (ne le faites pas si vous pensez que le résultat est trop chargé, naturellement).
Quelques possibilités:
Si une variable peut être considérée comme une variable prédictive d'une réponse à une autre, il convient alors de la représenter comme d'habitude sur son axe vertical. Ici, je pense à "l’importance" comme à la mesure d’une attitude, la question étant alors de savoir si elle affecte le comportement ("souvent"). La question de la causalité est souvent plus compliquée même pour ces données imaginaires, mais le point demeure.
La suggestion n ° 1 doit toujours être trompée si l'inverse fonctionne mieux, ce qui signifie qu'il est plus facile de penser et d'interpréter.
Les pourcentages ou les probabilités sont souvent pertinents. Un graphique des fréquences brutes peut aussi être utile. (Naturellement, cette parcelle n'a pas le mérite des parcelles en mosaïque de montrer les deux types d'informations à la fois.)
Vous pouvez bien sûr essayer les alternatives (beaucoup plus courantes) de diagrammes à barres groupées ou empilées (ou les diagrammes à points groupés encore assez rares au sens de WS Cleveland). Dans ce cas, je ne pense pas qu'ils fonctionnent aussi bien, mais parfois ils fonctionnent mieux.
Certains voudront peut-être colorier différemment les différentes catégories de réponses. Je n'ai pas d'objection et si vous voulez, vous ne prendrez pas les objections au sérieux.
La stratégie consistant à hybrider un graphique et un tableau peut être utile de manière plus générale, voire ne pas correspondre à ce que vous souhaitez. Un argument souvent répété est que la séparation des figures et des tableaux n’était qu’un effet secondaire de l’invention de l’imprimerie et de la division du travail qu’elle produisait; c'est une fois de plus inutile, tout comme c'était le cas pour les auteurs de manuscrits mettant des illustrations exactement comme et où ils le souhaitaient.
la source
Voici une rapide tentative de carte thermique . J'ai utilisé des frontières de cellules noires pour briser les cellules, mais peut-être que les carreaux devraient être séparés davantage, comme dans la réponse de Glen_b.
Voici un graphique de fluctuation basé sur un commentaire précédent de Andy W. Comme il les décrit, "ils ne sont en fait que des diagrammes de dispersion regroupés pour des données catégoriques, et la taille d'un point est mappée au nombre d'observations qui se trouvent dans cette catégorie". Pour une référence voir
la source
Voici un exemple de ce à quoi ressemblerait une représentation graphique des données. Je l' ai fait dans Stata assez rapidement, mais il y a une mise en œuvre de R . Je pense qu'en R cela devrait être juste:
spineplot(factor(often)~factor(importance))
Le tracé de la colonne semble être la valeur par défaut si vous donnez des variables catégorielles R:
plot(factor(often)~factor(importance))
La ventilation fractionnée des catégories de souvent est indiquée pour chaque catégorie d'importance. Les barres empilées sont dessinées avec une dimension verticale indiquant une fraction de souvent, compte tenu de la catégorie d'importance. La dimension horizontale montre la fraction dans chaque catégorie d'importance. Ainsi, les surfaces de tuiles formées représentent les fréquences, ou plus généralement les totaux, pour chaque combinaison croisée d’importance et de fréquence.
la source
La façon dont je l'ai fait est un peu un fudge, mais cela pourrait être corrigé assez facilement.
Ceci est une version modifiée de l'approche par tremblement.
Le retrait des axes réduit la tentation d'interpréter la balance comme étant continue; Le fait de dessiner des boîtes autour des combinaisons instables souligne qu'il y a quelque chose comme un "changement d'échelle" - que les intervalles ne sont pas nécessairement égaux
Idéalement, les étiquettes 1..5 devraient être remplacées par les noms de catégories, mais je vais laisser cela pour l’imagination pour le moment; Je pense que cela en donne le sens.
Raffinements possibles:
i) rendre les pauses plus petites (personnellement, je préfère les pauses plus grandes), et
ii) essayer d'utiliser une séquence quasi-aléatoire pour réduire l'incidence de motifs apparents dans les cases. Bien que ma tentative ait quelque peu aidé, vous pouvez voir que dans les cellules avec un nombre de points plus petit, il y a toujours des sous-séquences avec un aspect plus ou moins corrélé (par exemple, la zone dans la rangée du haut, 2e colonne). Pour éviter cela, vous devrez peut-être initialiser la séquence quasi-aléatoire pour chaque sous-zone. (Une alternative pourrait être l'échantillonnage Latin Hypercube.) Une fois que cela a été trié, cela pourrait être inséré dans une fonction qui fonctionne exactement comme la gigue.
la source
Utilisation de la parcelle de rivière package R:
la source
Une idée différente à laquelle je n'avais pas pensé à l'origine était un complot tamisé .
La taille de chaque carreau est proportionnelle à la fréquence attendue. les petits carrés à l'intérieur des rectangles représentent les fréquences réelles. Par conséquent, une plus grande densité de carrés indique une fréquence supérieure à celle attendue (et est ombrée en bleu); densité de carrés inférieure (rouge) correspond à une fréquence inférieure à celle attendue.
Je pense que je préférerais cela si la couleur représentait la taille, pas seulement le signe, du résidu. Cela est particulièrement vrai pour les cas extrêmes où les fréquences attendues et observées sont similaires et où le résidu est proche de zéro; un schéma dichotomique rouge / bleu semble trop insister sur les petites déviations.
Mise en œuvre dans R:
la source
Diagramme à barres à facettes dans R. Il montre très clairement la répartition de "souvent" à chaque niveau "d'importance". Mais cela n'aurait pas si bien fonctionné si le nombre maximum avait varié davantage entre les niveaux d '"importance"; il est assez facile de placer
scales="free_y"
ggplot ( voir ici ) pour éviter beaucoup d’espace vide, mais il serait difficile de discerner la forme de la distribution à des niveaux «d’importance» basse fréquence, car les barres seraient si petites. Dans ces situations, il est peut-être préférable d’utiliser plutôt la fréquence relative (probabilité conditionnelle) sur l’axe vertical.Ce n'est pas aussi "propre" que la tabplot dans Stata auquel Nick Cox s'est lié, mais transmet des informations similaires.
Code R:
la source