Quelle est la corrélation si l'écart-type d'une variable est 0?

15

Si je comprends bien, nous pouvons obtenir la corrélation en normalisant la covariance en utilisant l'équation

ρje,j=cov(Xje,Xj)σjeσj

où est l'écart-type de . Xiσi=E[(Xiμi)2]Xi

Ma préoccupation est que si l'écart-type est égal à zéro? Y a-t-il une condition qui garantit qu'il ne peut pas être nul?

Merci.

chepukha
la source
11
Aucune variable dont l'écart type 0 ne pourrait être corrélé avec une autre variable (non constante). La corrélation est une mesure de la façon dont les valeurs grandes / petites dans une variable correspondent aux valeurs grandes / petites dans une autre variable - si l'une des variables est égale à une constante de probabilité 1 (une conséquence de l'écart-type 0), alors elle peut '' t peut-être indiquer si l’autre variable est petite ou grande. Je ne sais pas quelle est la convention mais il semble que la corrélation devrait être définie comme 0 dans ce cas.
Macro
Merci beaucoup Macro. Je pense que votre idée est la même que la réponse ci-dessous. Cependant, je n'ai pas pu voter pour votre commentaire en raison d'une limitation du nombre de points. Merci.
chepukha
4
Vous avez déjà accepté une réponse et j'écrirai donc juste un commentaire. Si une variable aléatoire a un écart-type σ Y = 0 , alors cov ( X , Y ) = E [ ( X - μ X ) ( Y - μ Y ) ] = 0 pour toute autre variable aléatoire X (puisque avec probabilité ). Ainsi, la définition du coefficient de corrélationYσY=0
cov(X,Y)=E[(XμX)(YμY)]=0
X1 ρ X , Y = cov ( X , Y )(YμY)=01 0ρX,Y=cov(X,Y)σXσYdonne la forme indéterminée . Il est classique de définir pour être égal à dans ce cas, et cela peut être défendu en raison de la valeur limite de comme etc.00 ρX,Y0ρX,YσY0
Dilip Sarwate
6
@Dilip, si c'est une réponse, elle devrait aller comme réponse. Peu importe qu'une réponse soit déjà acceptée.
Andy W
1
@Dilip Le problème avec le formulaire est que même s'il peut être fait pour avoir une valeur définie au moyen d'une opération de limitation, la valeur dépend de la façon dont vous prenez la limite. D'où l'argument selon lequel est incomplet (et peu convaincant). Pouvez-vous citer une source qui adopte cette convention et la soutient avec une raison valable? ρX,Y=000ρX,Y=0
whuber

Réponses:

14

Il est vrai que, si l'un de vos SD est égal à 0, cette équation n'est pas définie. Cependant, une meilleure façon de penser à cela est que si l'un de vos SD est 0, il n'y a pas de corrélation. En termes conceptuels lâches, une corrélation vous indique comment une variable se déplace pendant que l'autre variable se déplace. Un écart-type de 0 implique que la variable ne «se déplace pas». Il faudrait avoir un vecteur d'une constante, comme rep(constant, n_times).

gung - Réintégrer Monica
la source
Merci beaucoup. Je pense que cela a du sens. Il est intéressant de noter que je n'ai vu aucun manuel mentionner ce cas.
chepukha
@gung Est-ce donc une limitation dans la définition du coefficient de corrélation, je veux dire que l'équation de corrélation peut avoir deux valeurs, l'une est celle donnée dans l'équation ci-dessus et 0 lorsque l'écart-type d'une des variables est 0.
prashanth
@prashanth, je suppose.
gung - Rétablir Monica
2

L'autre chose à considérer est les hypothèses sous-jacentes lorsque nous parlons de moyennes et d'écarts-types, et de corrélations.

Si nous parlons d'un échantillon de données, une hypothèse courante est que les données sont (au moins approximativement) normalement distribuées, ou peuvent être transformées telles qu'elles sont (par exemple via une transformation logarithmique). Si vous observez un écart-type de zéro, il y a deux scénarios: soit l'écart-type est en fait non nul, mais très petit, et donc l'ensemble de données que vous avez a des échantillons qui sont tous sur la valeur moyenne (cela pourrait, par exemple, se produire si vous mesurez des données à un niveau de précision grossier); ou le modèle est mal spécifié.

Dans ce deuxième scénario, l'écart type, et par conséquent la corrélation, est une mesure dénuée de sens.

Plus généralement, les distributions sous-jacentes doivent toutes deux avoir des seconds moments finis, et donc des écarts-types non nuls, pour que la corrélation soit un concept valide.

tdc
la source
Il convient de noter que la question initiale concerne les distributions (théoriques) et non les données.
whuber
Si tel est le cas, alors un écart-type de zéro impliquerait une distribution dégénérée avec une mesure uniquement à la moyenne (c'est-à-dire la fonction constante) ... encore une fois, l'écart-type n'a de sens que la distribution sous-jacente est normale. Si l'écart-type est nul, le PDF de la gaussienne n'est pas correctement défini, et donc non autorisé dans le modèle.
tdc
Je suis surpris de l'apparition des gaussiens dans votre commentaire, Tom. Cela semble être une restriction inutile. Exiger l'existence d'un pdf semble également contraignant (après tout, aucune distribution discrète n'a de pdf). Notez également que le SD est bien défini - "significatif" - chaque fois que le deuxième moment est fini, et cela inclut les atomes de probabilité (vos fonctions "delta de Dirac").
whuber
Ok je suis d'accord était probablement trop restrictif, mais c'est généralement ce que les gens entendent par SD. par exemple de Wolfram: "L'écart type peut être défini pour toute distribution avec deux premiers moments finis, mais il est plus courant de supposer que la distribution sous-jacente est normale." Pensez-vous cependant que si l'écart-type = 0 pour l'une des variables, les hypothèses de base qui sous-tendent le concept statistique de corrélation ne sont pas remplies?
tdc
Oui, Tom, votre dernière déclaration est parfaite et je l'accepte volontiers. Cependant, l'idée qu'elle exprime n'apparaît pas très en évidence dans votre réponse; s'il est là, il est enterré dans les remarques sur les distributions normales, les journaux, les fonctions delta et l'accent mis sur les données plutôt que sur les distributions elles-mêmes. BTW, il faut faire attention aux relevés statistiques apparaissant sur le site Wolfram: il est si fortement orienté vers les mathématiques que ses caractérisations sur la pratique statistique peuvent être discutables. Ici, c'est complètement faux: l'utilisation de SD va bien au-delà des paramètres de distribution normale.
whuber
2

Une corrélation est le cosinus de l'angle entre deux vecteurs. Dire que l'écart-type de Y est nul revient à dire que le vecteur Y-moyenne (Y) est nul (ou, plus rigoureusement, qu'il représente zéro dans l'espace vectoriel approprié). La question devient donc "Que peut-on dire de l'angle (cosinus de) entre le vecteur zéro et le vecteur X-mean (X)?". Plus généralement, dans tout espace vectoriel avec un produit intérieur, que signifie l'angle entre le vecteur zéro et un autre vecteur? Il n'y a qu'une seule réponse à cela, à mon avis, et c'est que le concept d '"angle" dans cette situation n'a pas de sens, et donc le concept de corrélation dans cette situation n'a pas de sens.

David Epstein
la source
0

Avertissement, je me rends compte qu'il existe déjà une réponse de qualité acceptée, donc cela devrait être une réponse, mais je n'ai pas les points d'expérience pour le permettre. @Dilip a mentionné que vous pouvez définir la corrélation comme 0 pour la convention, mais cela semble problématique car cela aurait une interprétation très différente d'une corrélation qui est vraiment nulle (avec des SD non nuls). La question d'origine dit "si la SD d'une variable est nulle". Si nous nous arrêtons et pensons à la définition de «variable», nous obtenons un chemin beaucoup plus direct vers la réponse. Une variable avec 0 SD n'est pas du tout une variable, c'est une constante. Donc, dans ce cas, vous n'avez pas deux variables, il n'est donc pas logique du tout de définir une corrélation.

Skye Buckner-Petty
la source
Si vous n'avez pas suffisamment de points à commenter, vous ne devriez pas commenter les réponses.
Michael R. Chernick