Indépendance de la moyenne de l'échantillon et de la variance de l'échantillon dans la distribution binomiale

9

Laisser XBinomial(n,p). Nous savons queE[X]=np et Var[X]=np(1-p). Cela signifie-t-il que l' échantillon signifieX¯et la variance de l' échantillons2sont dépendants les uns des autres? Ou cela signifie-t-il simplement que la variance de la population peut être écrite en fonction de la moyenne de la population ?

user6874652
la source

Réponses:

14

X¯ et s2sont des variables aléatoires. Nous pouvons travailler sur leur distribution commune. Essayons le cas non trivial le plus simple possible, celui d'un échantillon de taille2 à partir d'un binôme(1,p)Distribution. Il n'y a que quatre possibilités pour cet échantillon, qui sont présentées sous forme de tableau avec leurs probabilités (calculées à partir de l'indépendance des deux éléments de l'échantillon):

First value | Second value | Mean | Variance | Probability
          0 |            0 |    0 |        0 | (1-p)^2
          0 |            1 |  1/2 |      1/2 | (1-p)p
          1 |            0 |  1/2 |      1/2 | p(1-p)
          1 |            1 |    1 |        0 | p^2

La moyenne prédit parfaitement la variance dans cet exemple. Ainsi, à condition que toutes les probabilités soient non nulles (c'est-à-dire,p est ni 0 ni 1), la moyenne et la variance de l'échantillon ne sont pas indépendantes.

Une question intéressante est de savoir si, dans une famille de distributions, la moyenne détermine la variance, la moyenne de l'échantillon et la variance de l'échantillon peuvent être indépendantes. La réponse est oui: prenez n'importe quelle famille de distributions normales dans laquelle la variance dépend de la moyenne telle que l'ensemble de toutes les normales(μ,μ2)distributions. Peu importe laquelle de ces distributions régit l'échantillon, la moyenne et la variance de l'échantillon seront indépendantes, car c'est le cas pour toute distribution normale.

Cette analyse suggère que des questions sur la structure d’une famille de distributions (qui concernentn, p, μ, et ainsi de suite) n'ont aucune incidence sur les questions d'indépendance des statistiques des échantillons par rapport à un élément donné de la famille.

whuber
la source
Mais c'est peut-être parce que la distribution normale est un cas "spécial"? Je veux dire, il est connu que, pour toute distribution normale, il est vrai que la moyenne de l'échantillon est indépendante de la variance de l'échantillon. Mais que se passe-t-il si nous avons affaire à une distribution qui n'est pas une distribution normale?
user6874652
1
En règle générale, la moyenne et la variance de l'échantillon ne sont pas indépendantes. Peu importe la famille de distributions à laquelle la distribution pourrait appartenir.
whuber
@whuber: Sauf qu'avec N(μ,σ2)la moyenne et la variance de l'échantillon sont indépendantes.
Michael Hardy
@Michael Merci. Je l'ai déjà noté dans le corps de la réponse.
whuber
@whuber: merci pour l'analyse. Pourriez-vous également divulguer le Rcode? Merci beaucoup.
Maximilian
8

La propriété qui, pour un échantillon iid, la moyenne de l'échantillon et la variance de l'échantillon sont indépendants, est une caractérisation de la distribution normale: pour aucune autre distribution une telle propriété ne tient.

Voir Patel, JK et Read, CB (1982). Manuel de la distribution normale , p. 81 dans la 1ère édition de 1982, au chapitre "Caractérisations" (peut avoir changé de page dans la 2ème édition de 1996).

Ainsi, pour toute autre distribution, la moyenne de l'échantillon et la variance de l'échantillon dépendent statistiquement.

Le résultat général concernant la moyenne de l'échantillon et la variance de l'échantillon à partir d'un échantillon iid de toute distribution qui a des moments jusqu'au 3d, est le suivant (en utilisant l'estimateur sans biais pour la variance):

Cov(X¯,s2)=E(X¯s2)-E(X)Var(X)=1nE[X-E(X)]3

En d'autres termes, la covariance entre la moyenne de l'échantillon et la variance de l'échantillon est égale au troisième moment central, divisée par n. Conséquences:

1) À mesure que la taille de l'échantillon augmente, les deux ont tendance à devenir non corrélés.

2) Pour toute distribution dont le troisième moment central est égal à zéro, elles ne sont pas corrélées (bien qu'elles restent dépendantes, pour toutes les distributions sauf la normale). Cela inclut bien sûr toutes les distributions symétriques par rapport à leur moyenne, mais aussi d'autres distributions qui ne sont pas symétriques par rapport à leur moyenne mais qui ont quand même le troisième moment central égal à zéro , voir ce fil .

Alecos Papadopoulos
la source
(+1) Le lien hypertexte est mort pour moi.
COOLSerdash
@COOLSerdash Cela fonctionne pour moi. Il renvoie à une page Amazon, peut-être qui est bloquée pour vous?
Graipher
@COOLSerdash Merci. Comme mentionné, l'hyperlien semble valide. Il suffit de rechercher "Manuel de distribution normale Patel Read".
Alecos Papadopoulos
(+1) Je soupçonnais que cela pourrait être le cas, mais je n'ai jamais vu de déclaration officielle de ce fait. Existe-t-il des distributions non normales pour lesquelles la moyenne et la variance de l'échantillon ne sont pas corrélées?
John Coleman
1
@AlecosPapadopoulos Oui, bien sûr. Si tel est le cas, ce serait un exemple intéressant où non corrélé n'implique pas indépendant. Je n'ai pas travaillé sur tous les détails, mais U(0,1)semble fonctionner.
John Coleman
3

Un cas extrême est Bernoulli(p)=Binomial(1,p). Considérons un échantillon de taille (capital) N:

Ns2=k=1N(Xk-X¯)2=(kXk2)-(2X¯jeXk)+(NX¯2)=(kXk)-2X¯kXk+(nX¯2)depuis Xk=0 ou 1, donc Xk2=Xk=NX¯-2NX¯2+NX¯2=NX¯(1-X¯),donc s2=X¯(1-X¯).
Ainsi quand (minuscule) n est 1,alors la moyenne de l'échantillon détermine la variance de l'échantillon, ils sont donc loin d'être indépendants. Mais la variance de l'échantillon ne détermine pas complètement la moyenne de l'échantillon, car il existe deux valeurs deX¯ qui donnent la même valeur de X¯(1-X¯).

Lorsque les deux np et n(1-p) sont grandes, alors je m'attends à ce que la moyenne et la variance de l'échantillon soient presque indépendantes puisque la distribution est presque normale.

Michael Hardy
la source