Je n'ai pas compris pourquoi N
et N-1
en calculant la variance de la population. Quand utilisons-nous N
et quand utilisons-nous N-1
?
Cliquez ici pour une version plus grande
Il dit que lorsque la population est très importante, il n'y a pas de différence entre N et N-1, mais il ne dit pas pourquoi il y a N-1 au début.
Edit: S'il vous plaît ne confondez pas avec n
et n-1
qui sont utilisés dans l'estimation.
Edit2: Je ne parle pas d'estimation de la population.
variance
population
ilhan
la source
la source
Réponses:
est la taille de la population et n est la taille de l'échantillon. La question demande pourquoi la variance de la population est l'écart quadratique moyen par rapport à la moyenne plutôt que ( N - 1 ) / N = 1 - ( 1 / N ) fois. D'ailleurs, pourquoi s'arrêter là? Pourquoi ne pas multiplier l’écart quadratique moyen par 1 - 2 / N , ou 1 - 17 / N , ou exp ( - 1 / N ) , par exemple?N n ( N- 1 ) / N= 1 - ( 1 / N) 1 - 2 / N 1 - 17 / N exp( - 1 / N)
Il y a en fait une bonne raison de ne pas le faire. N'importe lequel de ces chiffres que je viens de mentionner pourrait très bien servir à quantifier une "propagation typique" au sein de la population. Cependant, sans connaissance préalable de la taille de la population, il serait impossible d'utiliser un échantillon aléatoire pour trouver un estimateur non biaisé d'un tel chiffre. Nous savons que la variance de l' échantillon , qui multiplie l'écart au carré moyen par rapport à la moyenne de l'échantillon par , est un estimateur sans biais de la variance de population habituelle lors d'un échantillonnage avec remplacement. (Il n’ya aucun problème à faire cette correction, car nous savons n !) La variance de l’échantillon serait donc biaisée.( n - 1 ) / n n estimateur de tout multiple de la variance de la population où ce multiple, tel que , n’est pas exactement connu au préalable.1 - 1 / N
Ce problème de biais inconnu pourrait se propager à tous les tests statistiques utilisant la variance de l'échantillon, y compris les tests t et les tests F. En effet, diviser par autre chose que dans la formule de variance de la population nous obligerait à modifier toutes les totalisations statistiques des statistiques t et F (ainsi que de nombreux autres tableaux), mais l'ajustement dépendrait de la taille de la population. Personne ne veut avoir à faire des tables pour chaque N possible ! Surtout quand ce n'est pas nécessaire.N N
la source
Au lieu d'entrer dans les mathématiques, je vais essayer de l'exprimer en termes simples. Si vous avez toute la population à votre disposition, sa variance ( variance de la population ) est calculée avec le dénominateur
N
. De même, si vous n'avez qu'un échantillon et que vous voulez calculer la variance de cet échantillon , vous utilisez le dénominateurN
(n de l'échantillon, dans ce cas). Dans les deux cas, notez que vous n’estimez rien: la moyenne que vous avez mesurée est la moyenne vraie et la variance que vous avez calculée à partir de cette moyenne est la variance vraie.Maintenant, vous n'avez qu'un échantillon et vous voulez déduire de la moyenne inconnue et de la variance dans la population. En d'autres termes, vous voulez des estimations . Vous prenez la moyenne de votre échantillon pour l'estimation de la moyenne de la population (parce que votre échantillon est représentatif), OK. Pour obtenir une estimation de la variance de la population, vous devez prétendre que cette moyenne est en réalité une moyenne de population et qu'elle ne dépend donc plus de votre échantillon depuis le moment où vous l'avez calculée. Pour "montrer" que vous le considérez comme fixe, vous réservez une observation (n'importe quelle) dans votre échantillon pour "confirmer" la valeur de la moyenne: quel que soit l'état de votre échantillon, une observation réservée peut toujours ramener la moyenne à la valeur que vous avez choisie. Nous croyons être insensible aux éventualités d'échantillonnage. Une observation réservée est "-1"
N-1
dans le calcul de l'estimation de la variance.Imaginez que vous connaissiez la moyenne de la population réelle, mais que vous souhaitiez estimer la variance à partir de l'échantillon. Vous allez ensuite substituer cette moyenne vraie à la formule de la variance et appliquer un dénominateur
N
: aucun "-1" n'est nécessaire ici puisque vous connaissez la moyenne vraie, vous ne l'avez pas estimée à partir du même échantillon.la source
N
à la fois N et n.N
est la taille d'une totalité à portée de main, population ou échantillon. Pour calculer la variance de population , vous devez disposer de la population. Si vous n'avez qu'un échantillon, vous pouvez soit calculer la variance de cet échantillon, soit calculer la variance estimée de la population . Pas d'autre moyen.Généralement, quand on a seulement une fraction de la population, c'est-à-dire un échantillon, il faut diviser par n-1. Il y a une bonne raison de le faire, nous savons que la variance de l'échantillon, qui multiplie l'écart au carré moyen par rapport à la moyenne de l'échantillon par (n-1) / n, est un estimateur sans biais de la variance de la population.
Vous pouvez trouver une preuve que l'estimateur de la variance de l'échantillon est non biaisé ici: https://economictheoryblog.com/2012/06/28/latexlatexs2/
En outre, si l'on devait appliquer l'estimateur de la variance de la population, c'est-à-dire la version de l'estimateur de la variance qui divise par n sur un échantillon de au lieu de la population, l'estimation obtenue serait biaisée.
la source
Dans le passé, il a été argumenté que vous devriez utiliser N pour une variance non inférentielle, mais je ne le recommanderais plus. Vous devriez toujours utiliser N-1. Au fur et à mesure que la taille de l'échantillon diminue, N-1 constitue une très bonne correction du fait que la variance de l'échantillon diminue (vous avez plus de chances d'échantillonner près du sommet de la distribution - voir la figure). Si la taille de l'échantillon est vraiment grande, peu importe la quantité significative.
Une explication alternative est que la population est un concept théorique impossible à atteindre. Par conséquent, utilisez toujours N-1 car, quoi que vous fassiez, vous estimez, au mieux, la variance de la population.
En outre, vous allez voir N-1 pour les estimations de la variance à partir de maintenant. Vous ne rencontrerez probablement jamais ce problème ... sauf lors d’un test où votre enseignant peut vous demander de faire la distinction entre un mesure de la variance non inférentielle. Dans ce cas, n'utilisez pas la réponse de whuber ou la mienne, reportez-vous à la réponse de tnphns.
Notez que dans cette figure, la variance doit être proche de 1. Regardez combien elle varie avec la taille de l'échantillon lorsque vous utilisez N pour estimer la variance. (c'est le "biais" mentionné ailleurs)
la source
La variance de population est la somme des écarts au carré de toutes les valeurs de la population divisée par le nombre de valeurs de la population. Lorsque nous estimons la variance d'une population à partir d'un échantillon, nous rencontrons toutefois le problème suivant: les écarts des valeurs de l'échantillon par rapport à la moyenne de l'échantillon sont en moyenne un peu inférieurs aux écarts de ces valeurs de l'échantillon par rapport à ( inconnu) vraie population moyenne. Cela se traduit par une variance calculée à partir de l'échantillon légèrement inférieure à la variance réelle de la population. L'utilisation d'un diviseur n-1 au lieu de n corrige cette sous-estimation.
la source