Je construis un modèle de régression et j'ai besoin de calculer ce qui suit pour vérifier les corrélations
- Corrélation entre 2 variables qualitatives multiniveaux
- Corrélation entre une variable catégorielle à plusieurs niveaux et une variable continue
- VIF (facteur d'inflation de la variance) pour une variable catégorielle à plusieurs niveaux
Je pense que son tort d'utiliser le coefficient de corrélation de Pearson pour les scénarios ci-dessus, car Pearson ne fonctionne que pour 2 variables continues.
S'il vous plaît répondre aux questions ci-dessous
- Quel coefficient de corrélation fonctionne le mieux dans les cas ci-dessus?
- Le calcul VIF ne fonctionne que pour des données continues alors quelle est l'alternative?
- Quelles sont les hypothèses que je dois vérifier avant d’utiliser le coefficient de corrélation que vous suggérez?
- Comment les implémenter dans SAS & R?
r
statistics
correlation
GeorgeOfTheRF
la source
la source
Réponses:
Deux variables catégoriques
Le test d’indépendance de Chi-Squared permet de vérifier si deux variables catégorielles sont indépendantes.
Ceci est un test typique du chi carré : si nous supposons que deux variables sont indépendantes, les valeurs du tableau de contingence de ces variables doivent être distribuées de manière uniforme. Et ensuite, nous vérifions à quelle distance d'uniformité les valeurs réelles sont.
Il existe également un V de Crammer qui est une mesure de corrélation qui découle de ce test
Exemple
Supposons que nous ayons deux variables
Nous avons observé les données suivantes:
Le genre et la ville sont-ils indépendants? Faisons un test de Chi-Squred. Hypothèse nulle: ils sont indépendants, l'hypothèse alternative est qu'ils sont corrélés d'une manière ou d'une autre.
Dans l'hypothèse Null, nous supposons une distribution uniforme. Donc, nos valeurs attendues sont les suivantes
Nous effectuons donc le test du chi carré et la valeur p résultante peut être considérée ici comme une mesure de la corrélation entre ces deux variables.
Pour calculer le V de Crammer, nous trouvons d’abord le facteur de normalisation chi-carré-max qui correspond typiquement à la taille de l’échantillon, divisons le chi-carré par celui-ci et prenons une racine carrée.
R
Ici, la valeur p est 0,08 - assez petite, mais pas encore suffisante pour rejeter l’hypothèse d’indépendance. On peut donc dire que la "corrélation" est ici 0.08
Nous calculons aussi V:
Et obtenez 0,14 (plus le v est petit, plus la corrélation est faible)
Considérons un autre jeu de données
Pour cela, cela donnerait ce qui suit
La valeur p est 0,72, ce qui est beaucoup plus proche de 1 et v est 0,03 - très proche de 0
Variables catégoriques vs numériques
Pour ce type, nous effectuons généralement un test ANOVA unidirectionnel : nous calculons la variance intra-groupe et la variance intra-groupe, puis nous les comparons.
Exemple
Nous voulons étudier la relation entre la graisse absorbée par les beignets et le type de graisse utilisée pour produire des beignets (l'exemple est pris ici ).
Existe-t-il une dépendance entre les variables? Pour cela, nous effectuons un test ANOVA et constatons que la valeur p est juste de 0,007 - il n'y a pas de corrélation entre ces variables.
R
La sortie est
Nous pouvons donc aussi prendre la valeur p comme mesure de la corrélation.
Références
la source
kruskal-wallic
on utiliser à la place deone-way anova
? Merci d'avance.