Corrélation de Pearson ou Spearman avec des données non normales

113

Je reçois assez souvent cette question dans le cadre de mon travail de consultant en statistiques et je pensais la poster ici. J'ai une réponse, qui est affichée ci-dessous, mais je tenais à entendre ce que les autres ont à dire.

Question: Si vous avez deux variables qui ne sont pas normalement distribuées, devriez-vous utiliser le rho de Spearman pour la corrélation?

Jeromy Anglim
la source
1
Pourquoi ne pas calculer et rapporter les deux (le r de Pearson et le ρ de Spearman)? Leur différence (ou leur absence) fournira des informations supplémentaires.
Une question comparant les hypothèses de distribution faites lorsque nous testons pour la signification un coefficient de régression simple bêta et lorsque nous testons le coefficient de corrélation de Pearson (numériquement par rapport à la version bêta) stats.stackexchange.com/q/181043/3277 .
ttnphns

Réponses:

77

La corrélation de Pearson est une mesure de la relation linéaire entre deux variables aléatoires continues. Il ne présume pas de la normalité, bien qu'il suppose des variances finies et une covariance finie. Lorsque les variables sont normales à deux variables, la corrélation de Pearson fournit une description complète de l'association.

La corrélation de Spearman s'applique aux rangs et fournit donc une mesure d'une relation monotone entre deux variables aléatoires continues. Il est également utile avec les données ordinales et résiste aux valeurs aberrantes (contrairement à la corrélation de Pearson).

La distribution de l'un ou l'autre coefficient de corrélation dépendra de la distribution sous-jacente, bien que les deux soient asymptotiquement normaux en raison du théorème de la limite centrale.

Rob Hyndman
la source
12
Pearson ne suppose pas la normalité, mais est seulement une mesure exhaustive de l' association si la distribution conjointe est normale multivariée. Compte tenu de la confusion suscitée par cette distinction, vous voudrez peut-être l'ajouter à votre réponse. ρ
user603
3
Existe-t-il une source pouvant être citée à l’appui de la déclaration ci-dessus (la personne ne présume pas de la normalité)? Nous avons le même argument dans notre département pour le moment.
5
"Lorsque les variables sont normales à deux variables, la corrélation de Pearson fournit une description complète de l'association." Et lorsque les variables ne sont PAS normales à deux variables, quelle est l'utilité de la corrélation de Pearson?
Landroni
2
Cette réponse semble plutôt indirecte. "Quand les variables sont normales bivariées ..." Et quand non? Ce genre d'explication est la raison pour laquelle je ne reçois jamais de statistiques. "Rob, comment aimes-tu ma nouvelle robe?" "La couleur sombre met en valeur votre peau claire." "Bien sûr, Rob, mais est-ce que tu aimes comment ça souligne ma peau?" "La peau claire est considérée comme belle dans de nombreuses cultures." "Je sais, Rob, mais ça vous plaît?" "Je pense que la robe est belle." "Je pense aussi, Rob, mais est-ce beau sur moi ?" "Tu es toujours belle pour moi, chérie." soupir
1
Si vous lisez les deux phrases précédentes, vous trouverez la réponse.
Rob Hyndman
49

N'oubliez pas le tau de Kendall ! Roger Newson a fait valoir la supériorité de Kendall τ å sur la corrélation de Spearman r de S en tant que mesure fondée rang de corrélation dans un document dont le texte intégral est maintenant disponible gratuitement en ligne:

Newson R. Paramètres des statistiques "non paramétriques": tau de Kendall, D de Somers et différences médianes . Stata Journal 2002; 2 (1): 45 à 64.

Il fait référence (sur p47) Kendall et Gibbons (1990) en faisant valoir que » ... les intervalles de confiance pour Spearman r de S sont moins fiables et moins interprétables que les intervalles de confiance pour Kendall T pour les -Paramètres, mais l'échantillon de Spearman r le S est beaucoup plus facilement calculé sans ordinateur "(ce qui n’a plus beaucoup d’importance bien sûr). Malheureusement, je n'ai pas facilement accès à une copie de leur livre:

Kendall, MG et JD Gibbons. 1990. Méthodes de corrélation de rang . 5ème éd. Londres: Griffin.

un arrêt
la source
2
Je suis aussi un grand fan du tau de Kendall. Pearson est beaucoup trop sensible aux points d'influence / valeurs aberrantes à mon goût, et bien que Spearman ne souffre pas de ce problème, je trouve personnellement que Kendall est plus facile à comprendre, à interpréter et à expliquer que Spearman. Bien sûr, votre kilométrage peut varier.
Stephan Kolassa
D'après mes souvenirs d'expérience, le tau de Kendall est encore beaucoup plus lent (en R) que celui de Spearman. Cela peut être important si votre jeu de données est volumineux.
wordsforthewise
35

D'un point de vue appliqué, je suis plus préoccupé par le choix d'une approche qui résume la relation entre deux variables de manière à correspondre à ma question de recherche. Je pense que déterminer une méthode pour obtenir des erreurs types et des valeurs p précises est une question qui devrait être la seconde. Même si vous avez choisi de ne pas vous fier aux asymptotiques, vous avez toujours la possibilité d'initialiser ou de modifier les hypothèses de distribution.

En règle générale, je préfère la corrélation de Pearson car (a) elle correspond généralement davantage à mes intérêts théoriques; (b) cela permet une comparabilité plus directe des résultats d'une étude à l'autre, car la plupart des études dans ma région mentionnent la corrélation de Pearson; et c) dans de nombreux contextes, la différence entre les coefficients de corrélation de Pearson et de Spearman est minimale.

Cependant, il existe des situations dans lesquelles la corrélation de Pearson sur les variables brutes est trompeuse.

  • Valeurs aberrantes: Les valeurs aberrantes peuvent avoir une grande influence sur les corrélations de Pearson. De nombreuses valeurs aberrantes dans les paramètres appliqués reflètent des échecs de mesure ou d'autres facteurs que le modèle n'est pas censé généraliser. Une option consiste à supprimer ces valeurs aberrantes. Les valeurs aberrantes univariées n'existent pas avec le rho de Spearman car tout est converti en rangs. Ainsi, Spearman est plus robuste.
  • Variables très asymétriques: lors de la corrélation de variables asymétriques, en particulier de variables très asymétriques, un log ou une autre transformation clarifie souvent la relation sous-jacente entre les deux variables (par exemple, la taille du cerveau en fonction du poids corporel des animaux). Dans de tels contextes, il se peut que la métrique brute ne soit pas la métrique la plus significative. Le rho de Spearman a un effet similaire à celui de la transformation en convertissant les deux variables en rangs. Dans cette perspective, le rho de Spearman peut être considéré comme une approche rapide (ou plus positivement, il est moins subjectif), qui vous évite de penser à des transformations optimales.

Dans les deux cas ci-dessus, je conseillerais aux chercheurs d’envisager des stratégies d’ajustement (transformations, élimination / ajustement des valeurs aberrantes, par exemple) avant d’appliquer la corrélation de Pearson ou d’utiliser le rho de Spearman.

Jeromy Anglim
la source
Le problème de la transformation est qu’en général, elle transforme également les erreurs associées à chaque point, et donc le poids. Et cela ne résout pas le problème des valeurs aberrantes.
Skan
11

Mis à jour

La question nous demande de choisir entre la méthode de Pearson et celle de Spearman lorsque la normalité est mise en doute. Limité à cette préoccupation, je pense que le document suivant devrait éclairer la décision de quiconque:

r

r

Si on demande à Spearman et à Pearson de choisir entre une violation de la normalité, l'option de distribution gratuite mérite d'être préconisée, à savoir la méthode de Spearman.


Auparavant ..

La corrélation de Spearman est une mesure de corrélation basée sur les rangs; c'est non paramétrique et ne repose pas sur une hypothèse de normalité.

La distribution d'échantillonnage pour la corrélation de Pearson suppose une normalité; en particulier, cela signifie que même si vous pouvez le calculer, les conclusions basées sur le test de signification peuvent ne pas être correctes.

Comme Rob le souligne dans les commentaires, avec un grand échantillon, ce n'est pas un problème. Avec de petits échantillons cependant, où la normalité est violée, la corrélation de Spearman devrait être préférée.

Mise à jour Passant aux commentaires et aux réponses, il me semble que cela se résume au débat habituel sur les tests non paramétriques et paramétriques. Une grande partie de la littérature, par exemple en biostatistique, ne traite pas de grands échantillons. Je ne suis généralement pas cavalier avec compter sur asymptotiques. C'est peut-être justifié dans ce cas, mais cela ne me semble pas évident.

ars
la source
1
Non, la corrélation de Pearson ne suppose pas la normalité. Il s'agit d'une estimation de la corrélation entre deux variables aléatoires continues et constitue un estimateur cohérent dans des conditions relativement générales. Même les tests basés sur la corrélation de Pearson ne nécessitent pas de normalité si les échantillons sont suffisamment grands en raison du CLT.
Rob Hyndman
2
J'ai l'impression que Pearson est défini tant que les distributions sous-jacentes ont des variances et des covariances finies. Donc, la normalité n'est pas requise. Si les distributions sous-jacentes ne sont pas normales, alors la statistique de test peut avoir une distribution différente, mais il s'agit d'un problème secondaire et non pertinent pour la question à traiter. N'est-ce pas?
2
@Rob: Oui, nous pouvons toujours trouver des solutions pour que les choses fonctionnent à peu près de la même façon. Simplement pour éviter la méthode de Spearman - que la plupart des non-statisticiens peuvent gérer avec une commande standard. Je suppose que mon conseil reste d'utiliser la méthode de Spearman pour les petits échantillons où la normalité est discutable. Pas sûr que ce soit en litige ou pas.
ars
1
@ars. J'utiliserais Spearman si j'étais intéressé par une association monotone plutôt que linéaire, ou s'il y avait des valeurs aberrantes ou des niveaux d'asymétrie élevés. J'utiliserais Pearson pour les relations linéaires à condition qu'il n'y ait pas de valeurs aberrantes. Je ne pense pas que la taille de l'échantillon soit pertinente pour faire le choix.
Rob Hyndman
3
@Rob: OK, merci pour la discussion. Je suis d'accord avec la première partie, mais doute la dernière, et inclure que la taille ne joue qu'un rôle car les asymptotiques normaux ne s'appliquent pas. Par exemple, Kowalski 1972 décrit assez bien l’histoire de ce phénomène et conclut que la corrélation de Pearson n’est pas aussi solide qu’on le pensait. Voir: jstor.org/pss/2346598
ars