J'ai une base de données avec de nombreuses observations et de nombreuses variables. Certains sont catégoriques (non ordonnés) et les autres sont numériques.
Je cherche des associations entre ces variables. J'ai pu calculer la corrélation pour les variables numériques (corrélation de Spearman) mais:
- Je ne sais pas comment mesurer la corrélation entre les variables catégoriques non ordonnées.
- Je ne sais pas comment mesurer la corrélation entre les variables catégorielles non ordonnées et les variables numériques.
Est-ce que quelqu'un sait comment cela pourrait être fait? Si oui, y a-t-il des fonctions R implémentant ces méthodes?
Réponses:
Cela dépend du sens de la corrélation que vous souhaitez. Lorsque vous exécutez la corrélation de moment de produit du prototype de Pearson, vous obtenez une mesure de la force de l'association et un test de la signification de cette association. Plus généralement, cependant, le test de signification et la mesure de la taille de l' effet diffèrent.
Tests de signification:
Taille de l'effet (force de l'association):
la source
Hmisc::rcorr
fait cela magnifiquement et nous pouvons le vérifier (pour un dataframe à variables mélangées) comme suit:as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$P)
as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$r)
J'ai déjà vu la feuille de triche suivante liée:
https://stats.idre.ucla.edu/other/mult-pkg/whatstat/
Cela peut vous être utile. Il contient même des liens vers des bibliothèques R spécifiques.
la source
Si vous voulez une matrice de corrélation de variables qualitatives, vous pouvez utiliser la fonction d'encapsuleur suivante (nécessitant le package 'vcd'):
Où:
vars
est un vecteur chaîne de variables qualitatives que vous souhaitez corrélerdat
est un data.frame contenant les variablesLe résultat est une matrice de V de Cramer.
la source
Une telle analyse peut être vue comme une généralisation de l’analyse des correspondances multiples et est connue sous de nombreux noms, tels que analyse de corrélation canonique, analyse d’homogénéité et bien d’autres. Une implémentation dans R est dans le
homals
package (sur CRAN). googler pour certains de ces noms donnera une mine d'informations, il y a un livre complet: Albert Gifi, "Analyse multivariée non linéaire". Bonne chance!la source
J'ai eu un problème similaire et j'ai essayé le test du chi carré comme suggéré, mais je suis devenu très confus en évaluant les valeurs P par rapport à l'hypothèse NULL.
Je vais expliquer comment j'ai interprété les variables catégoriques. Je ne suis pas sûr de sa pertinence dans votre cas. J'avais la variable de réponse Y et deux variables de prédicteur X1 et X2, X2 étant une variable catégorielle à deux niveaux, disons 1 et 2. J'essayais de faire correspondre un modèle linéaire
Mais je voulais comprendre comment différents niveaux de X2 correspondent à l'équation ci-dessus. Je suis tombé sur une fonction R par ()
Ce code ne fait que tenter de s’intégrer au modèle linéaire pour chaque niveau de X2. Cela m'a donné toute la valeur de p et le carré R, erreur standard résiduelle que je comprends et que je peux interpréter.
Encore une fois, je ne suis pas sûr si c'est ce que vous voulez. J'ai en quelque sorte comparé différentes valeurs de X2 dans la prédiction de Y.
la source
Pour mesurer la force du lien entre deux variables catégoriques, je suggérerais plutôt l'utilisation d'un tableau croisé avec la statistique chisquare
pour mesurer la force du lien entre une variable numérique et une variable catégorielle, vous pouvez utiliser une comparaison moyenne pour voir si elle change de manière significative d'une catégorie à une autre
la source