La formule de calcul de la variance a au dénominateur:
Je me suis toujours demandé pourquoi. Cependant, lire et regarder quelques bonnes vidéos sur le "pourquoi", il semble que soit un bon estimateur non biaisé de la variance de la population. Alors que sous-estime et surestime la variance de la population.n ( n - 2 )
Ce que je suis curieux de savoir, c’est que c’est à l’ère de l’absence d’ordinateurs que ce choix a été fait exactement? Existe-t-il une preuve mathématique qui le prouve ou est-ce purement empirique et les statisticiens ont-ils fait BEAUCOUP de calculs à la main pour trouver la "meilleure explication" de l'époque?
Comment les statisticiens ont-ils imaginé cette formule au début du 19e siècle à l'aide d'ordinateurs? Manuel ou il y a plus que ce qui est à l'oeil?
la source
Réponses:
La correction s'appelle la correction de Bessel et a une preuve mathématique. Personnellement, on m'a appris la méthode la plus simple: utiliser c'est comment corriger le biais de (voir ici ).E [ 1n−1 E[1n∑n1(xi−x¯)2]
Vous pouvez également expliquer la correction basée sur le concept de degrés de liberté, la simulation n’est pas strictement nécessaire.
la source
La plupart des preuves que j'ai vues sont assez simples pour que Gauss (quelle que soit sa manière de le faire) a probablement trouvé cela assez facile à prouver.
J'ai cherché une dérivation sur CV à laquelle je pourrais vous associer (il existe un certain nombre de liens vers des preuves hors site, dont au moins une dans les réponses ici), mais je n'en ai pas trouvé ici dans un CV. quelques recherches, donc par souci d’exhaustivité, je vais vous en donner une simple. Compte tenu de sa simplicité, il est facile de voir comment les gens commenceraient à utiliser ce que l’on appelle habituellement la correction de Bessel .
Cela prend comme connaissances supposées et suppose que les premières propriétés de variance de base sont connues.E(X2)=Var(X)+E(X)2
la source
Selon le livre World of Mathematics de Weisstein, il a été prouvé pour la première fois par Gauss en 1823. La référence est le volume 4 de Gauss 'Werke, qui peut être lu à l' adresse https://archive.org/details/werkecarlf04gausrich . Les pages pertinentes semblent être 47-49. Il semblerait que Gauss ait enquêté sur la question et proposé une preuve. Je ne lis pas le latin, mais il y a un résumé en allemand dans le texte. Les pages 103-104 expliquent ce qu'il a fait (Edit: j'ai ajouté une traduction approximative):
d'où il semblerait qu'il était notoire que la variance de l'échantillon est une estimation biaisée de la variance de la population. L'article ajoute que la différence entre les deux est généralement ignorée car ce n'est pas important si la taille de l'échantillon est suffisante. Puis il dit:
Donc, si c’est bien la première fois que la correction est trouvée, il semblerait qu’elle ait été trouvée grâce à un calcul astucieux de Gauss, mais les gens étaient déjà conscients qu’une correction était nécessaire, de sorte que quelqu'un aurait peut-être pu la trouver empiriquement . Ou peut-être les auteurs précédents ne se sont-ils pas souciés de trouver la réponse exacte, car ils travaillaient de toute façon avec des ensembles de données assez volumineux.
Résumé: manuel, mais les gens savaient déjà que dans le dénominateur n’était pas tout à fait correct.n
la source
Pour moi, l'intuition est que
C'est,
Prouver réellement l'équation ci-dessus prend un peu d'algèbre (cette algèbre est très similaire à la réponse de @ Glen_b ci-dessus). Mais si cela est vrai, nous pouvons réorganiser pour obtenir:
Pour moi, un autre élément d'intuition est que l'utilisation de au lieu de introduit un biais. Et ce biais est exactement égal à .X¯ μ E[(X¯−μ)2]=σ2n
la source
La plupart des réponses l'ont déjà expliqué, mais à part celles-ci, il y a une illustration simple que l'on pourrait trouver utile:
Supposons que et que les trois premiers chiffres sont:n=4
Maintenant, le quatrième nombre peut être n'importe quoi puisqu'il n'y a pas de contraintes. Considérons maintenant la situation dans laquelle on vous donne et , alors si les trois premiers nombres sont: le quatrième nombre doit être .ˉ x = 6 8 , 4 , 6 6n=4 x¯=6 8,4,6 6
Cela signifie que si vous connaissez valeurs et , alors la valeur n'a aucune liberté. Ainsi, nous donne un estimateur non biaisé.ˉ x n t h n - 1n−1 x¯ nth n−1
la source