Quand dois-je utiliser chacune de ces méthodes pour calculer la corrélation?

8

J'utilise R pour l'analyse des données. R fournit une corrfonction pour calculer la corrélation. Cette fonction fournit trois approches / algorithmes différents pour estimer les corrPearson, Spearman et Kendall. Quand dois-je utiliser chacune de ces méthodes? Quels facteurs déterminent la méthode à utiliser?

asheeshr
la source
Bien que ce soit dans le contexte de R, la question porte en effet sur la différence entre trois mesures statistiques. Je dirais aussi migrer.
Sean Owen du
1
Cette question a déjà été posée sur stats.stackexchange.com/questions/45897/… (mais n'a pas encore obtenu de réponse). Notre site contient de nombreuses informations sur la corrélation, en particulier en comparant les coefficients de Pearson et de Spearman: voir les résultats de la recherche sur stats.stackexchange.com/… .
whuber

Réponses:

10

Le coefficient produit-moment de Pearson (paramètre Pearson) mesure la corrélation linéaire entre les variables. Par conséquent, il est approprié lorsque votre corrélation suspectée est linéaire, ce qui peut être inspecté visuellement avec un tracé.

Le coefficient de Kendall Tau (paramètre kendall) et le coefficient de corrélation de Spearman (paramètre spearman) sont des mesures de corrélations de rang. La corrélation entre les deux variables n'a donc pas besoin d'être linéaire. La méthode spearman est fondamentalement la méthode Pearson, mais appliquée sur les rangs des valeurs (le rang d'une valeur est donné par sa position après le tri des valeurs). La méthode kendal est construite essentiellement comme une statistique sous forme de ration entre le nombre supplémentaire de paires ordonnées et le nombre total de paires. Pour la méthode kendal, car elle est construite comme une statistique, on peut construire aussi l'utiliser dans le cadre du test d'hypothèse, avec tous les avantages (on l'appelle test tau).

Toutes ces méthodes sont des instruments utilisés pour déduire quelque chose sur les dépendances entre les variables aléatoires. En savoir plus sur la page dédiée de Wikipedia dédiée à la corrélation et la dépendance

rapaio
la source
N'est-il pas également vrai que Spearman et Pearson devraient également être identiques pour les relations linéaires, donc en cas de doute, vous pouvez utiliser Spearman et être sûr que vous ne serez pas rejeté si la corrélation n'est pas linéaire?
cwharland
1
Pour être honnête, je ne sais pas s'ils sont égaux en relation linéaire. Il est certain que Pearson dans les rangs est le lancier. Cependant, lors de la transformation en rangs, certaines choses se produisent: Pearson devient plus robuste aux valeurs aberrantes, la covariance est irrémédiablement modifiée, Pearson incorpore un bruit éventuellement non indépendant (peut-être généré par des facteurs de confusion). En général, j'utilise pearson pour l'inférence linéaire, spearman pour vérifier s'il y a autre chose que la linéarité, plus pour les ordinaux (ce qui n'a de sens que pour spearman).
rapaio
@cwharland En fait, ils ont tendance à ne pas être égaux pour les relations linéaires. Dans les échantillons normaux bivariés corrélés (qui ont la relation linéaire que vous suggérez), la corrélation de Spearman est généralement (à la fois en moyenne et en termes de médiane de sa distribution) plus proche de 0 que celle de Pearson. Les deux sont biaisés, mais le Pearson l'est moins.
Glen_b -Reinstate Monica