Les données pour certains types de variables ont tendance à être anormales lorsqu'elles sont mesurées dans des populations particulières (par exemple, les niveaux de dépression dans une population de personnes souffrant d'un trouble dépressif majeur). Étant donné que Pearson suppose la normalité, quelle est la robustesse de la statistique de test dans des conditions de non-normalité?
J'ai un certain nombre de variables pour lesquelles je voudrais des coefficients de corrélation, mais l'asymétrie Z pour certaines de ces variables est significative à p <0,001 (et c'est pour un échantillon relativement petit). J'ai essayé quelques transformations, mais les améliorations des distributions ne sont au mieux que marginales.
Vais-je devoir m'en tenir à des analyses non paramétriques? Et pas seulement pour les corrélations, mais aussi pour d'autres types d'analyses?
la source
Réponses:
Réponse courte: Très non robuste. La corrélation est une mesure de la dépendance linéaire , et lorsqu'une variable ne peut pas être écrite comme une fonction linéaire de l'autre (et a toujours la distribution marginale donnée), vous ne pouvez pas avoir une corrélation parfaite (positive ou négative). En fait, les valeurs de corrélations possibles peuvent être sévèrement restreintes.
Le problème est que, bien que la corrélation de la population soit toujours comprise entre et , la plage exacte pouvant être atteinte dépend fortement des distributions marginales. Une preuve et une démonstration rapides:1- 1 1
Plage de corrélation atteignable
Si a la fonction de distribution et les fonctions de distribution marginales et , il existe des bornes supérieures et inférieures plutôt agréables pour , appelés bornes de Fréchet. Ce sont (Essayez de le prouver, ce n'est pas très difficile.)H F G H H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , y ) , H - ( x , y )( X, Y) H F g H
Les bornes sont elles-mêmes des fonctions de distribution. Soit une distribution uniforme. La borne supérieure est la fonction de distribution de et la borne inférieure est la fonction de distribution de .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U ( X, Y) = ( F-( U) , G-( U) ) ( F-( - U) , G-( 1 - U) )
Maintenant, en utilisant cette variante sur la formule de la covariance, nous voyons que nous obtenons la corrélation maximale et minimale lorsque est égal à et , respectivement, c'est-à-dire lorsque est a (respectivement positif ou négatif, ) fonction monotone de .
Exemples
Voici quelques exemples (sans preuves):
Lorsque et sont normalement distribués, on obtient le maximum et minimum lorsque a la distribution normale habituelle où deux variables est écrit en fonction linéaire de . Autrement dit, nous obtenons le maximum pour Ici, les limites sont (bien sûr) et , quels que soient les moyens et les variances de etX Oui ( X, Y) Oui X
Lorsque et ont des distributions lognormales, la borne inférieure n'est jamais atteignable, car cela impliquerait que pourrait être écrit pour certains et positif , et ne peut jamais être négatif. Il existe des formules (légèrement laides) pour les limites exactes, mais permettez-moi de donner un cas particulier. Lorsque et ont des distributions lognormales standard (ce qui signifie que lorsqu'elles sont exponentiées, elles sont normales normales), la plage atteignable est . (En général, la limite supérieure est également limitée.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]X Oui Oui Oui= a - b X une b Oui X Oui [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]
Lorsque a une distribution normale standard et a une distribution lognormale standard, les limites de corrélation sont Y ± 1X Oui
Notez que toutes les limites concernent la corrélation de la population . La corrélation d'échantillon peut facilement s'étendre en dehors des limites, en particulier pour les petits échantillons (exemple rapide: taille d'échantillon de 2).
Estimation des bornes de corrélation
Il est en fait assez facile d'estimer les limites supérieures et inférieures de la corrélation si vous pouvez simuler à partir des distributions marginales. Pour le dernier exemple ci-dessus, nous pouvons utiliser ce code R:
Si nous ne disposons que de données réelles et ne connaissons pas les distributions marginales, nous pouvons toujours utiliser la méthode ci-dessus. Ce n'est pas un problème que les variables soient dépendantes tant que les paires d' observations sont dépendantes. Mais cela aide d'avoir de nombreuses paires d'observation.
Transformer les données
Il est bien sûr possible de transformer les données à distribuer (marginalement) normalement puis de calculer la corrélation sur les données transformées. Le problème est celui de l'interprétabilité. (Et pourquoi utiliser la distribution normale au lieu d'une autre répartition où peut être une fonction linéaire de ?) Pour les données qui sont à deux variables normalement distribuées, la corrélation a une interprétation bien (sa place est la variance d'une variable expliquée par l'autre ). Ce n'est pas le cas ici.XOui X
Ce que vous faites vraiment ici, c'est créer une nouvelle mesure de dépendance qui ne dépend pas des distributions marginales; c'est-à-dire que vous créez une mesure de dépendance basée sur la copule . Il existe déjà plusieurs de ces mesures, le ρ de Spearman et le τ de Kendall étant les plus connus. (Si vous êtes vraiment intéressé par les concepts de dépendance, ce n'est pas une mauvaise idée d'examiner les copules.)
En conclusion
Quelques réflexions et conseils finaux: Le simple fait de regarder la corrélation a un gros problème: cela vous fait arrêter de penser. En regardant les diagrammes de dispersion, d'autre part, fait souvent , vous commencez à penser. Mon conseil principal serait donc d'examiner les diagrammes de dispersion et d'essayer de modéliser explicitement la dépendance.
Cela dit, si vous avez besoin d'une mesure simple de type corrélation, j'utiliserais simplement le ρ de Spearman (et l'intervalle de confiance et les tests associés). Sa portée n'est pas restreinte. Mais soyez très conscient de la dépendance non monotone. L' article de Wikipédia sur la corrélation contient quelques bons graphiques illustrant les problèmes potentiels.
la source
À quoi ressemblent les distributions de ces variables (au-delà d'être biaisées)? Si la seule non-normalité est l'asymétrie, alors une transformation quelconque doit aider. Mais si ces variables ont beaucoup de grumeaux, alors aucune transformation ne les ramènera à la normalité. Si la variable n'est pas continue, il en va de même.
Quelle est la solidité de la corrélation avec les violations? Jetez un œil au Quatuor Anscombe. Il illustre assez bien plusieurs problèmes.
Quant aux autres types d'analyses, cela dépend de l'analyse. Si les variables asymétriques sont des variables indépendantes dans une régression, par exemple, il peut ne pas y avoir de problème du tout - vous devez regarder les résidus.
la source