Pourquoi la variance d'un échantillon change-t-elle si les observations sont dupliquées?

25

La variance serait une mesure de l'écart. Donc, j'avais pensé que la variance de 3,5est égale à la variance de 3,3,5,5puisque les nombres sont également répartis. Mais ce n'est pas le cas, la variance de 3,5is 2tandis que la variance de 3,3,5,5is 1 1/3.

Cela me laisse perplexe, étant donné l'explication selon laquelle la variance est censée être une mesure de la propagation.

Donc, dans ce contexte, que signifie la mesure de la propagation ?

René Nyffenegger
la source

Réponses:

32

Si vous définissez la variance comme - similaire à la variance de la population mais avec une moyenne d'échantillon pour , vos deux échantillons auraient alors la même variance.sn2=MSE=1nje=1n(Xje-X¯)2μ

La différence est donc uniquement due à la correction de Bessel dans la formule habituelle de la variance de l'échantillon ( , qui ajuste le fait que la moyenne de l' échantillon est plus proche des données que la moyenne de la population, afin de la rendre non biaisée (en prenant la bonne valeur "en moyenne").sn-12=nn-1MSE=nn-11nje=1n(Xje-X¯)2=1n-1je=1n(Xje-X¯)2

L'effet disparaît progressivement avec l'augmentation de la taille de l'échantillon, car passe à 1 en tant que .n-1nn

Il n'y a aucune raison particulière que vous ayez à utiliser l'estimateur sans biais pour la variance, soit dit en passant - est un estimateur parfaitement valide, et dans certains cas peut sans doute avoir des avantages par rapport à la forme la plus courante (l'impartialité n'est pas nécessairement un grand traiter).sn2

La variance elle-même n'est pas directement une mesure de l'écart. Si je double toutes les valeurs de mon ensemble de données, je prétends qu'elles sont deux fois plus «étalées». Mais la variance augmente d'un facteur 4. Donc, le plus souvent, on dit que l'écart-type, plutôt que la variance, est une mesure de l'écart.

sn-1

Dans les petits échantillons, la correction de Bessel rend l'écart-type un peu moins intuitif comme mesure de l'écart en raison de cet effet (la duplication de l'échantillon modifie la valeur). Mais de nombreuses mesures de l'écart conservent la même valeur lors de la duplication de l'échantillon; J'en mentionnerai quelques-uns -

  • sn

  • l'écart moyen (absolu) par rapport à la moyenne

  • l'écart médian (absolu) par rapport à la médiane

  • l'intervalle interquartile (au moins pour certaines définitions des quartiles d'échantillonnage)

Glen_b -Reinstate Monica
la source
3
"Il n'y a pas de raison particulière d'utiliser l'estimateur non biaisé" - en effet, vous ne devriez pas nécessairement estimer quoi que ce soit. La variance en {3, 5}soi est de 1, selon la première formule. Comme vous l'avez souligné, le questionneur a tenté d'estimer la variance d'une population dont il est présumé qu'il s'agit d'un échantillon, mais qui sait si c'est le cas ou non.
Steve Jessop
1

VX=EVX+VEX

La formule de variance d'échantillon habituelle compense cela, et la variance des échelles moyennes de l'échantillon inversement avec la taille de l'échantillon.

À titre d'exemple extrême, la prise d'un échantillon unique montrera toujours une variance d'échantillon de 0, ce qui n'indique évidemment pas une variance de 0 pour la distribution sous-jacente.

2/14/32/314

user80227
la source
2
En confondant les estimateurs avec les statistiques , cette réponse confond, plutôt que clarifie, la question. Veuillez lire la réponse originale de Glen_b dans ce fil. L'argument des deux premiers paragraphes est mystérieux car il semble être sans rapport avec la question.
whuber