Évaluer rapidement (visuellement) les corrélations entre les données catégorielles ordonnées dans R?

Je recherche des corrélations entre les réponses à différentes questions dans une enquête ("euh, voyons si les réponses à la question 11 sont en corrélation avec celles de la question 78"). Toutes les réponses sont catégoriques (la plupart vont de «très malheureux» à «très heureux»), mais quelques-unes ont un ensemble de réponses différent. La plupart d'entre eux peuvent être considérés comme ordinaux alors considérons ce cas ici.

Comme je n'ai pas accès à un programme de statistiques commerciales, je dois utiliser R.

J'ai essayé Rattle (un paquet d'exploration de données gratuit pour R, très astucieux) mais malheureusement, il ne prend pas en charge les données catégoriques. Un hack que je pourrais utiliser est d'importer dans R la version codée de l'enquête qui a des nombres (1..5) au lieu de "très malheureux" ... "heureux" et de laisser Rattle croire que ce sont des données numériques.

Je pensais faire un nuage de points et avoir la taille des points proportionnelle au nombre de nombres pour chaque paire. Après quelques recherches sur Google, j'ai trouvé http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/ mais cela semble très compliqué (pour moi).

Je ne suis pas un statisticien (mais un programmeur) mais j'ai lu quelque chose à ce sujet et, si je comprends bien, le rho de Spearman serait approprié ici.

Donc, la version courte de la question pour ceux qui sont pressés: existe-t-il un moyen de tracer rapidement le rho de Spearman dans R ? Un tracé est préférable à une matrice de nombres car il est plus facile de regarder le ballon et peut également être inclus dans les matériaux.

Merci d'avance.

PS J'ai réfléchi pendant un moment si je devais poster ceci sur le site principal de SO ou ici. Après avoir recherché la corrélation R sur les deux sites, j'ai trouvé que ce site était mieux adapté à la question.

r correlation categorical-data data-visualization wishihadabettername
la source

On dirait que R est inférieur aux logiciels propriétaires. :)

Roman Luštrik

Pour moi, cela semble tout à fait raisonnable d'utiliser la corrélation produit-moment Pearson (en supposant des données continues) dans votre cas (en supposant suffisamment de points sur votre échelle et pas un point médian ne sait pas). Des domaines entiers de la psychologie (par exemple, la psychologie de la personnalité ou la psychologie sociale) reposent (avec succès) sur l'hypothèse que les réponses à un seul élément sur une échelle par exemple de cinq points (ou sept points) allant de très un-X à très X peuvent être traité comme continu. Voir aussi ce fil: stats.stackexchange.com/questions/539/…

Henrik

@romunov: Je ne sais pas comment vous avez eu l'impression que je pense que R est inférieur aux autres s / w. Mais ce n'est pas du tout le cas.

wishihadabettername

J'étais juste un cul intelligent. J'espère qu'il n'y a pas de rancune. :)

Roman Luštrik

Réponses:

Une autre bonne visualisation de la corrélation est offerte par le paquet corrplot , vous donnant des choses comme ceci: texte alternatif

C'est un super package.

Jetez également un œil à la réponse ici , il serait peut-être bon que vous le sachiez.

Enfin, si vous avez des suggestions sur la façon dont le code sur le message auquel vous avez fait référence pourrait être plus simple - faites-le moi savoir.

Tal Galili
la source

Merci Tal, je vais essayer le corrplot maintenant. J'aimerais aussi savoir comment simplifier votre solution (à laquelle j'ai fait un lien dans la question) mais je suis juste un débutant en R donc vous en savez plus que moi. Je mettrai à jour la question pour clarifier que la solution me

wishihadabettername

Le corrplot a l'air bien. Il donne un excellent aperçu visuel de la taille et de la direction des corrélations. Dans le cas des variables catégorielles ordonnées en 5 points, il pourrait être utile de fournir une autre mesure d'association en plus de la corrélation de Pearson: par exemple, les corrélations polychoriques. La taille des corrélations standard de Pearson des variables catégorielles ordonnées est quelque peu influencée par la moyenne des deux variables.

Jeromy Anglim

Quelques idées de traçage supplémentaires sont:

Parcelle de tournesol
Nuage de points avec une gigue utilisant des graphiques de base ou ggplot2

Jeromy Anglim
la source

Le tournesol est une solution amusante. L'utilisation d'une gigue est ce que j'ai essayé la première fois que j'ai examiné le sujet, mais j'ai trouvé qu'il n'était pas assez efficace pour le traçage des matrices de corrélation ...

Tal Galili

Oui, la gigue pourrait devenir assez désordonnée avec une matrice de dispersion avec beaucoup de variables. Je suppose que l'avantage de la gigue et du tournesol est que vous pouvez voir les données brutes (quoique perturbées dans le cas de la gigue).

Jeromy Anglim

D'accord (j'adore la gigue, tout simplement pas pour ça :))

Tal Galili