De quel type de distribution s'agit-il?

8

J'ai fait face à une distribution limite avec une covariance nulle entre deux variables mais leur corrélation est 1. Existe-t-il une telle distribution? Comment cela s'explique-t-il?


Vous avez raison puis-je avoir besoin de donner plus de détails. OK, X et Y sont des distributions normales bivariées avec des variances et des moyennes différentes (sans n) mais corr = 1- (1 / n), étudions maintenant la distribution limite de Yn | Xn = x.

Behgol
la source
24
Cette distribution est appelée une erreur de calcul .
A QUIT - Anony-Mousse
5
Veuillez donner les détails afin de résoudre la divergence apparente. Quelles sont les circonstances?
Glen_b -Reinstate Monica
Veuillez fournir plus de détails sur la distribution conjointe de Xn et Yn. En particulier, ce qui donne lieu àρn=11/n?
Mico
Malheureusement, je n'ai pas plus de détails. Votre question est une question à laquelle je pensais aussi. Comment ρn dépend de n lorsque les variances sont libres de n? et qu'est-ce que cela signifie exactement?
Behgol
Pourquoi pensez-vous que la covariance est 0?
Juho Kokkala

Réponses:

5

Suite à une clarification du PO, il apparaît que a) nous supposons que les deux variables suivent conjointement une normale bivariée et b) notre intérêt est dans la distribution conditionnelle, qui est alors

YnXn=x  N(μy+σyσxρn(xμx),(1ρn2)σy2)

Ensuite, nous voyons que n, on a ρn1et la variance de la distribution conditionnelle passe à zéro. Intuitivement, si la corrélation va à l'unité, "sachantx"suffit de" savoir y" aussi.

Mais nulle part dans ce qui précède, nous obtenons que Cov(Yn,Xn)est zéro. Même à la limite, la covariance restera égale àCov(Yn,Xn)σyσx.

Notez que la covariance conditionnelle (puis aussi la corrélation conditionnelle) est toujours nulle, car,

Cov(Yn,XnXn=x)=E(YnXnXn=x)E(YXn=x)E(XXn=x)

=xE(YnXn=x)xE(YXn=x)=0

Cela se produit car en examinant Xn=x nous avons transformé l'une des variables aléatoires en constante, et les constantes ne co-varient avec rien.

Alecos Papadopoulos
la source
Merci pour votre réponse. C'est donc une distribution normale sans variance? quelle serait sa forme?
Behgol
@Behgol voir en.wikipedia.org/wiki/Dirac_delta_function
Alecos Papadopoulos
20

Étant donné que la covariance dépend de l'échelle de X et Y et la corrélation ne fait pas (redimensionnée à [1,1]) c'est possible. Par exemple, si la variance diminue vers zéro:

Si X=Y et σx2 est la variance de X, puis limσx20cov(X,Y)=0et .limσx20cor(X,Y)=1

Note 1: quand la corrélation est strictement indéfinie car son dénominateur serait égal à 0.σx2=0

Pieter
la source
Vous avez peut-être raison, je devrais donner plus de détails. OK X et Y sont des distributions normales bivariées avec des variances et des moyennes différentes (sans n) mais corr = 1- (1 / n), étudient maintenant la distribution limite de Yn | Xn = x.
Behgol
La formulation «puisque la covariance dépend de l'échelle» implique que cela est donné dans la question. Cependant, cela semble être plus que ce que la question implique. Il me semble que vous postulez qu'il pourrait en être ainsi, avec des conclusions énoncées. Corrigez-moi si c'est faux.
Nick Cox
18

Pour autant que je puisse voir (peut-être en dehors de certaines circonstances spéciales, mais vous n'en mentionnez aucune), ce n'est pas possible.

La corrélation est la covariance divisée par le produit des deux écarts-types, donc si la covariance est nulle, la corrélation est soit nulle (lorsque les deux écarts-types sont non nuls) ou indéfinie (quand au moins un écart-type est égal à 0). Il ne doit pas être 1 lorsque la covariance est 0.

J'espère que vous avez soit commis une erreur dans votre analyse, soit que votre description n'est pas suffisamment claire pour discerner correctement la situation.

Glen_b -Reinstate Monica
la source
1

Vous rencontrez probablement des difficultés car vous visualisez les données comme étant gaussiennes.

Il est possible que toutes les données représentent le même point (bien qu'il soit redondant) et que vous ayez deux variables avec des noms différents (alias l'un de l'autre) comprenant les données. Cela conduirait à une covariance nulle et à une corrélation de 1 car, fondamentalement, la covariance représente la répartition des données dans l'espace des fonctionnalités, tandis que la corrélation représente à quel point une variable dépend d'une autre, ou le degré d'influence qu'elles ont l'une sur l'autre. Si les données ne sont pas du tout réparties, la covariance doit être nulle.

REMARQUE Cependant, la meilleure chose que vous puissiez faire avec un tel ensemble de données est simplement de prédire tous les points comme ayant la même sortie, ce qui va très probablement donner un biais élevé

RS Nikhil Krishna
la source
2
Il semble y avoir pas mal de choses différentes dans cette réponse, et j'ai du mal à voir la relation. Par exemple, en quoi le paragraphe 1 est-il pertinent? En quoi le paragraphe 3 est-il pertinent? De plus, comment arrivez-vous à une covariance nulle au paragraphe 2?
Richard Hardy
Merci @Richard Hardy de l'avoir signalé. L'une des autres réponses suggérait initialement une solution gaussienne. C'est pourquoi le paragraphe 1. Au paragraphe 3, je donne simplement mon avis sur ce qu'il peut faire avec un tel ensemble de données. Fondamentalement, la covariance représente la répartition des données dans l'espace des fonctionnalités. Si les données ne sont pas réparties sur, la covariance doit être nulle. J'ai également ajouté ceci à la réponse
RS Nikhil Krishna