Je reçois assez souvent cette question dans le cadre de mon travail de consultant en statistiques et je pensais la poster ici. J'ai une réponse, qui est affichée ci-dessous, mais je tenais à entendre ce que les autres ont à dire.
Question: Si vous avez deux variables qui ne sont pas normalement distribuées, devriez-vous utiliser le rho de Spearman pour la corrélation?
correlation
normality-assumption
pearson-r
spearman-rho
Jeromy Anglim
la source
la source
Réponses:
La corrélation de Pearson est une mesure de la relation linéaire entre deux variables aléatoires continues. Il ne présume pas de la normalité, bien qu'il suppose des variances finies et une covariance finie. Lorsque les variables sont normales à deux variables, la corrélation de Pearson fournit une description complète de l'association.
La corrélation de Spearman s'applique aux rangs et fournit donc une mesure d'une relation monotone entre deux variables aléatoires continues. Il est également utile avec les données ordinales et résiste aux valeurs aberrantes (contrairement à la corrélation de Pearson).
La distribution de l'un ou l'autre coefficient de corrélation dépendra de la distribution sous-jacente, bien que les deux soient asymptotiquement normaux en raison du théorème de la limite centrale.
la source
N'oubliez pas le tau de Kendall ! Roger Newson a fait valoir la supériorité de Kendall τ å sur la corrélation de Spearman r de S en tant que mesure fondée rang de corrélation dans un document dont le texte intégral est maintenant disponible gratuitement en ligne:
Newson R. Paramètres des statistiques "non paramétriques": tau de Kendall, D de Somers et différences médianes . Stata Journal 2002; 2 (1): 45 à 64.
Il fait référence (sur p47) Kendall et Gibbons (1990) en faisant valoir que » ... les intervalles de confiance pour Spearman r de S sont moins fiables et moins interprétables que les intervalles de confiance pour Kendall T pour les -Paramètres, mais l'échantillon de Spearman r le S est beaucoup plus facilement calculé sans ordinateur "(ce qui n’a plus beaucoup d’importance bien sûr). Malheureusement, je n'ai pas facilement accès à une copie de leur livre:
Kendall, MG et JD Gibbons. 1990. Méthodes de corrélation de rang . 5ème éd. Londres: Griffin.
la source
D'un point de vue appliqué, je suis plus préoccupé par le choix d'une approche qui résume la relation entre deux variables de manière à correspondre à ma question de recherche. Je pense que déterminer une méthode pour obtenir des erreurs types et des valeurs p précises est une question qui devrait être la seconde. Même si vous avez choisi de ne pas vous fier aux asymptotiques, vous avez toujours la possibilité d'initialiser ou de modifier les hypothèses de distribution.
En règle générale, je préfère la corrélation de Pearson car (a) elle correspond généralement davantage à mes intérêts théoriques; (b) cela permet une comparabilité plus directe des résultats d'une étude à l'autre, car la plupart des études dans ma région mentionnent la corrélation de Pearson; et c) dans de nombreux contextes, la différence entre les coefficients de corrélation de Pearson et de Spearman est minimale.
Cependant, il existe des situations dans lesquelles la corrélation de Pearson sur les variables brutes est trompeuse.
Dans les deux cas ci-dessus, je conseillerais aux chercheurs d’envisager des stratégies d’ajustement (transformations, élimination / ajustement des valeurs aberrantes, par exemple) avant d’appliquer la corrélation de Pearson ou d’utiliser le rho de Spearman.
la source
Mis à jour
La question nous demande de choisir entre la méthode de Pearson et celle de Spearman lorsque la normalité est mise en doute. Limité à cette préoccupation, je pense que le document suivant devrait éclairer la décision de quiconque:
Si on demande à Spearman et à Pearson de choisir entre une violation de la normalité, l'option de distribution gratuite mérite d'être préconisée, à savoir la méthode de Spearman.
Auparavant ..
La corrélation de Spearman est une mesure de corrélation basée sur les rangs; c'est non paramétrique et ne repose pas sur une hypothèse de normalité.
La distribution d'échantillonnage pour la corrélation de Pearson suppose une normalité; en particulier, cela signifie que même si vous pouvez le calculer, les conclusions basées sur le test de signification peuvent ne pas être correctes.
Comme Rob le souligne dans les commentaires, avec un grand échantillon, ce n'est pas un problème. Avec de petits échantillons cependant, où la normalité est violée, la corrélation de Spearman devrait être préférée.
Mise à jour Passant aux commentaires et aux réponses, il me semble que cela se résume au débat habituel sur les tests non paramétriques et paramétriques. Une grande partie de la littérature, par exemple en biostatistique, ne traite pas de grands échantillons. Je ne suis généralement pas cavalier avec compter sur asymptotiques. C'est peut-être justifié dans ce cas, mais cela ne me semble pas évident.
la source