Quelle est la robustesse du coefficient de corrélation de Pearson aux violations de la normalité?

20

Les données pour certains types de variables ont tendance à être anormales lorsqu'elles sont mesurées dans des populations particulières (par exemple, les niveaux de dépression dans une population de personnes souffrant d'un trouble dépressif majeur). Étant donné que Pearson suppose la normalité, quelle est la robustesse de la statistique de test dans des conditions de non-normalité?

J'ai un certain nombre de variables pour lesquelles je voudrais des coefficients de corrélation, mais l'asymétrie Z pour certaines de ces variables est significative à p <0,001 (et c'est pour un échantillon relativement petit). J'ai essayé quelques transformations, mais les améliorations des distributions ne sont au mieux que marginales.

Vais-je devoir m'en tenir à des analyses non paramétriques? Et pas seulement pour les corrélations, mais aussi pour d'autres types d'analyses?

Archéoptéryx
la source
Attendez, le coefficient de corrélation de Pearson suppose la normalité? Je ne pense pas que ce soit le cas, et je l'utilise sur des données non normales. Ce n'est tout simplement pas robuste à certaines choses qui se produisent plus souvent dans certaines situations non normales, mais il y a beaucoup de situations non normales où je ne vois aucun problème à utiliser le coefficient de corrélation de Pearson.
Douglas Zare
1
Que la corrélation de Pearson suppose la normalité est ce que de nombreux textes de statistiques affirment. J'ai entendu ailleurs que la normalité est une hypothèse inutile pour le r de Pearson. Lorsque j'exécute les analyses, Pearson et Spearman produisent des résultats relativement similaires.
Archaeopteryx
Le coefficient de corrélation de rang de Spearman est le coefficient de corrélation de Pearson appliqué aux classements non normaux. Je ne sais toujours pas dans quel sens vous pensez que Pearson requiert la normalité. Vous pouvez peut-être ajouter quelques mots supplémentaires si vous l'utilisez sur une distribution normale multivariée.
Douglas Zare
Je l'utilise juste pour de simples corrélations bivariées. Je ne sais pas pourquoi on prétend que la normalité est requise. Les textes de statistiques que j'ai lus indiquent toujours la normalité comme une hypothèse de la corrélation de Pearson et conseillent d'utiliser Spearman pour les conditions dans lesquelles la non-normalité se maintient.
Archaeopteryx

Réponses:

20

Réponse courte: Très non robuste. La corrélation est une mesure de la dépendance linéaire , et lorsqu'une variable ne peut pas être écrite comme une fonction linéaire de l'autre (et a toujours la distribution marginale donnée), vous ne pouvez pas avoir une corrélation parfaite (positive ou négative). En fait, les valeurs de corrélations possibles peuvent être sévèrement restreintes.

Le problème est que, bien que la corrélation de la population soit toujours comprise entre et , la plage exacte pouvant être atteinte dépend fortement des distributions marginales. Une preuve et une démonstration rapides:111

Plage de corrélation atteignable

Si a la fonction de distribution et les fonctions de distribution marginales et , il existe des bornes supérieures et inférieures plutôt agréables pour , appelés bornes de Fréchet. Ce sont (Essayez de le prouver, ce n'est pas très difficile.)H F G H H - ( x , y ) H ( x , y ) H + ( x , y ) , H - ( x , y )(X,Y)HFGH

H(x,y)H(x,y)H+(x,y),
H(x,y)=max(F(x)+G(y)1,0)H+(x,y)=min(F(x),G(y)).

Les bornes sont elles-mêmes des fonctions de distribution. Soit une distribution uniforme. La borne supérieure est la fonction de distribution de et la borne inférieure est la fonction de distribution de .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U(X,Y)=(F(U),G(U))(F-(-U),g-(1-U))

Maintenant, en utilisant cette variante sur la formule de la covariance, nous voyons que nous obtenons la corrélation maximale et minimale lorsque est égal à et , respectivement, c'est-à-dire lorsque est a (respectivement positif ou négatif, ) fonction monotone de .

Cov(X,Oui)=H(X,y)-F(X)g(y)Xy,
HH+H-OuiX

Exemples

Voici quelques exemples (sans preuves):

  1. Lorsque et sont normalement distribués, on obtient le maximum et minimum lorsque a la distribution normale habituelle où deux variables est écrit en fonction linéaire de . Autrement dit, nous obtenons le maximum pour Ici, les limites sont (bien sûr) et , quels que soient les moyens et les variances de etXOui(X,Oui)OuiX

    Oui=μOui+σOuiX-μXσX.
    -11XOui
  2. Lorsque et ont des distributions lognormales, la borne inférieure n'est jamais atteignable, car cela impliquerait que pourrait être écrit pour certains et positif , et ne peut jamais être négatif. Il existe des formules (légèrement laides) pour les limites exactes, mais permettez-moi de donner un cas particulier. Lorsque et ont des distributions lognormales standard (ce qui signifie que lorsqu'elles sont exponentiées, elles sont normales normales), la plage atteignable est . (En général, la limite supérieure est également limitée.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] [ - 0,37 , 1 ]XOuiOuiOui=une-bXunebOuiXOui[-1/e,1][-0,37,1]

  3. Lorsque a une distribution normale standard et a une distribution lognormale standard, les limites de corrélation sont Y ± 1XOui

    ±1e-10,76.

Notez que toutes les limites concernent la corrélation de la population . La corrélation d'échantillon peut facilement s'étendre en dehors des limites, en particulier pour les petits échantillons (exemple rapide: taille d'échantillon de 2).

Estimation des bornes de corrélation

Il est en fait assez facile d'estimer les limites supérieures et inférieures de la corrélation si vous pouvez simuler à partir des distributions marginales. Pour le dernier exemple ci-dessus, nous pouvons utiliser ce code R:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Si nous ne disposons que de données réelles et ne connaissons pas les distributions marginales, nous pouvons toujours utiliser la méthode ci-dessus. Ce n'est pas un problème que les variables soient dépendantes tant que les paires d' observations sont dépendantes. Mais cela aide d'avoir de nombreuses paires d'observation.

Transformer les données

Il est bien sûr possible de transformer les données à distribuer (marginalement) normalement puis de calculer la corrélation sur les données transformées. Le problème est celui de l'interprétabilité. (Et pourquoi utiliser la distribution normale au lieu d'une autre répartition où  peut être une fonction linéaire de ?) Pour les données qui sont à deux variables normalement distribuées, la corrélation a une interprétation bien (sa place est la variance d'une variable expliquée par l'autre ). Ce n'est pas le cas ici.XOuiX

Ce que vous faites vraiment ici, c'est créer une nouvelle mesure de dépendance qui ne dépend pas des distributions marginales; c'est-à-dire que vous créez une mesure de dépendance basée sur la copule . Il existe déjà plusieurs de ces mesures, le ρ de Spearman  et le τ de Kendall  étant les plus connus. (Si vous êtes vraiment intéressé par les concepts de dépendance, ce n'est pas une mauvaise idée d'examiner les copules.)

En conclusion

Quelques réflexions et conseils finaux: Le simple fait de regarder la corrélation a un gros problème: cela vous fait arrêter de penser. En regardant les diagrammes de dispersion, d'autre part, fait souvent , vous commencez à penser. Mon conseil principal serait donc d'examiner les diagrammes de dispersion et d'essayer de modéliser explicitement la dépendance.

Cela dit, si vous avez besoin d'une mesure simple de type corrélation, j'utiliserais simplement le ρ de Spearman  (et l'intervalle de confiance et les tests associés). Sa portée n'est pas restreinte. Mais soyez très conscient de la dépendance non monotone. L' article de Wikipédia sur la corrélation contient quelques bons graphiques illustrant les problèmes potentiels.

Karl Ove Hufthammer
la source
1
+1 Cette très belle contribution répond clairement à plusieurs problèmes récurrents liés aux corrélations. J'apprécie particulièrement les remarques du premier paragraphe de conclusion sur l'arrêt / le démarrage de la réflexion.
whuber
La non-robustesse resterait-elle même asymptotiquement? Dans l'affirmative, le wiki a-t-il tort de dire que "[la distribution t de Student pour une simple transformation de r] est également approximative même si les valeurs observées ne sont pas normales, à condition que les tailles d'échantillon ne soient pas très petites"?
max
5

À quoi ressemblent les distributions de ces variables (au-delà d'être biaisées)? Si la seule non-normalité est l'asymétrie, alors une transformation quelconque doit aider. Mais si ces variables ont beaucoup de grumeaux, alors aucune transformation ne les ramènera à la normalité. Si la variable n'est pas continue, il en va de même.

Quelle est la solidité de la corrélation avec les violations? Jetez un œil au Quatuor Anscombe. Il illustre assez bien plusieurs problèmes.

Quant aux autres types d'analyses, cela dépend de l'analyse. Si les variables asymétriques sont des variables indépendantes dans une régression, par exemple, il peut ne pas y avoir de problème du tout - vous devez regarder les résidus.

Peter Flom - Réintégrer Monica
la source
1
Certaines variables ont également des problèmes de kurtosis, mais l'asymétrie est le plus gros problème. J'ai essayé la racine carrée et les transformations de journal sur les variables du problème, mais elles ne s'améliorent pas beaucoup. En fait, les distributions semblent presque identiques, mais avec une plus grande accumulation de scores.
Archaeopteryx
1
Cela semble très étrange. Pouvez-vous afficher la moyenne, la médiane, l'asymétrie, le kurtosis de la variable en question? Ou (encore mieux) un tracé de densité de celui-ci?
Peter Flom - Réintègre Monica
6
Que la distribution de (X, Y) soit normale ou non bivariée, la corrélation de Pearson est une mesure du degré de linéarité. La distribution de probabilité pour l'estimation de l'échantillon dépendra de la normalité.
Michael R. Chernick
3
Ces variables ne sont pas très asymétriques. Vous pouvez les laisser tels quels.
Peter Flom - Réintègre Monica
3
Ne vous inquiétez pas de l'importance ici. En règle générale, un biais et une kurtose <-2 ou> 2 sont considérés comme nécessitant peut-être une transformation. Mieux encore est de regarder des graphiques, par exemple un tracé normal quantile et un tracé de densité avec noyau pour voir ce qui se passe.
Peter Flom - Réintègre Monica