Je suis un noob en statistiques, alors pourriez-vous m'aider ici.
Ma question est la suivante: que signifie réellement la variance groupée ?
Lorsque je recherche une formule pour la variance groupée sur Internet, je trouve beaucoup de littérature utilisant la formule suivante (par exemple ici: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
Mais que calcule-t- il réellement ? Parce que lorsque j'utilise cette formule pour calculer ma variance groupée, cela me donne une mauvaise réponse.
Par exemple, considérez ces «échantillon parent»:
La variance de cet échantillon parent est , et sa moyenne est .
Supposons maintenant que je divise cet échantillon parent en deux sous-échantillons:
- Le premier sous-échantillon est 2,2,2,2,2 avec une moyenne et une variance .
- Le deuxième sous-échantillon est 8,8,8,8,8 avec une moyenne et une variance .
Maintenant, clairement, l'utilisation de la formule ci-dessus pour calculer la variance regroupée / parent de ces deux sous-échantillons produira zéro, car et . Alors, que calcule réellement cette formule ?
D'un autre côté, après une longue dérivation, j'ai trouvé que la formule qui produit la variance pool / parent correcte est:
Dans la formule ci-dessus, et .d 2 = ¯ x 2 - ˉ x p
J'ai trouvé une formule similaire avec la mienne, par exemple ici: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html et également sur Wikipedia. Bien que je dois admettre qu'ils ne ressemblent pas exactement aux miens.
Encore une fois, que signifie réellement la variance groupée? Cela ne devrait-il pas signifier la variance de l'échantillon parent des deux sous-échantillons? Ou je me trompe complètement ici?
Merci d'avance.
EDIT 1: Quelqu'un dit que mes deux sous-échantillons ci-dessus sont pathologiques car ils ont une variance nulle. Eh bien, je pourrais vous donner un exemple différent. Considérez cet exemple parent:
La variance de cet échantillon parent est , et sa moyenne est .
Supposons maintenant que je divise cet échantillon parent en deux sous-échantillons:
- Le premier sous-échantillon est 1,2,3,4,5 avec une moyenne et une variance .
- Le deuxième sous-échantillon est 46,47,48,49,50 avec une moyenne et une variance .
Maintenant, si vous utilisez la «formule de la littérature» pour calculer la variance groupée, vous obtiendrez 2,5, ce qui est complètement faux, car la variance parent / groupée devrait être de 564,7. Au lieu de cela, si vous utilisez "ma formule", vous obtiendrez une réponse correcte.
Veuillez comprendre, j'utilise ici des exemples extrêmes pour montrer aux gens que la formule est vraiment fausse. Si j'utilise des "données normales" qui n'ont pas beaucoup de variations (cas extrêmes), les résultats de ces deux formules seront très similaires et les gens pourraient ignorer la différence en raison d'une erreur d'arrondi, pas parce que la formule elle-même est faux.
Réponses:
En termes simples, la variance groupée est une estimation (non biaisée) de la variance au sein de chaque échantillon, sous l'hypothèse / contrainte que ces variances sont égales.
Ceci est expliqué, motivé et analysé en détail dans l'entrée Wikipedia pour la variance groupée .
Il n'évalue pas la variance d'un nouveau "méta-échantillon" formé en concaténant les deux échantillons individuels, comme vous le supposiez. Comme vous l'avez déjà découvert, l'estimation nécessite une formule complètement différente.
la source
La variance groupée est utilisée pour combiner ensemble les variances de différents échantillons en prenant leur moyenne pondérée, pour obtenir la variance "globale". Le problème avec votre exemple est qu'il s'agit d'un cas pathologique, puisque chacun des sous-échantillons a une variance égale à zéro. Un tel cas pathologique a très peu en commun avec les données que nous rencontrons habituellement, car il y a toujours une certaine variabilité et s'il n'y a pas de variabilité, nous ne nous soucions pas de ces variables car elles ne portent aucune information. Vous devez noter qu'il s'agit d'une méthode très simple et qu'il existe des moyens plus complexes d'estimer la variance dans les structures de données hiérarchiques qui ne sont pas sujettes à de tels problèmes.
En ce qui concerne votre exemple dans l'édition, il montre qu'il est important d'énoncer clairement vos hypothèses avant de commencer l'analyse. Disons que vous avez points de données dans k groupes, nous le dénoterions comme x 1 , 1 , x 2 , 1 , … , x n - 1 , k , x n , k , où le i -ème indice de x i , j représente les cas et jn k x1,1,x2,1,…,xn−1,k,xn,k i xi,j j -th index représente les index de groupe. Il existe plusieurs scénarios possibles, vous pouvez supposer que tous les points proviennent de la même distribution (pour simplifier, supposons une distribution normale),
vous pouvez supposer que chacun des sous-échantillons a sa propre moyenne
ou, sa propre variance
ou, chacun d'eux a ses propres paramètres distincts
Selon vos hypothèses, une méthode particulière peut, ou peut ne pas être adéquate pour analyser les données.
Dans le premier cas, vous ne seriez pas intéressé à estimer les variances intra-groupe, car vous supposeriez qu'elles sont toutes identiques. Néanmoins, si vous agrégiez la variance globale des variances de groupe, vous obtiendriez le même résultat qu'en utilisant la variance groupée puisque la définition de la variance est
Dans le second cas, les moyennes diffèrent, mais vous avez une variance commune. Cet exemple est le plus proche de votre exemple dans l'édition. Dans ce scénario, la variance regroupée estimerait correctement la variance globale, alors que si la variance estimée sur l'ensemble de données, vous obtiendriez des résultats incorrects, car vous ne teniez pas compte du fait que les groupes ont des moyennes différentes.
Dans le troisième cas, il n'est pas logique d'estimer la variance «globale», car vous supposez que chacun des groupes a sa propre variance. Vous pouvez toujours être intéressé par l'obtention de l'estimation pour l'ensemble de la population, mais dans ce cas, à la fois (a) le calcul des variances individuelles par groupe et (b) le calcul de la variance globale à partir de l'ensemble de données, peut vous donner des résultats trompeurs . Si vous avez affaire à ce type de données, vous devriez penser à utiliser un modèle plus compliqué qui tient compte de la nature hiérarchique des données.
Le quatrième cas est le plus extrême et assez similaire au précédent. Dans ce scénario, si vous vouliez estimer la moyenne et la variance mondiales, vous auriez besoin d'un modèle différent et d'un ensemble d'hypothèses différent. Dans ce cas, vous supposeriez que vos données sont de structure hiérarchique, et en plus des moyennes et des variances intra-groupe, il existe une variance commune de niveau supérieur, par exemple en supposant le modèle suivant
la source
Le problème est que si vous concaténez simplement les échantillons et estimez sa variance, vous supposez qu'ils proviennent de la même distribution et ont donc la même moyenne. Mais nous sommes en général intéressés par plusieurs échantillons avec des moyennes différentes. Est-ce que ça a du sens?
la source
Le cas d'utilisation de la variance groupée est lorsque vous avez deux échantillons de distributions qui:
Dans ce cas, prendre la variance groupée vous donnerait une meilleure estimation de la variance de l'erreur de mesure que de prendre la variance d'un seul échantillon.
la source
Grâce à la variance groupée, nous n'essayons pas d'estimer la variance d'un plus grand échantillon, en utilisant des échantillons plus petits. Par conséquent, les deux exemples que vous avez donnés ne font pas exactement référence à la question.
La variance groupée est nécessaire pour obtenir une meilleure estimation de la variance de la population, à partir de deux échantillons qui ont été prélevés au hasard dans cette population et qui produisent des estimations de variance différentes.
Par exemple, vous essayez d'évaluer la variance des habitudes de tabagisme des hommes à Londres. Vous échantillonnez deux fois, 300 hommes de Londres. Vous finissez par obtenir deux écarts (probablement un peu différents!). Maintenant que vous avez effectué un échantillonnage aléatoire équitable (au mieux de vos capacités! Car un véritable échantillonnage aléatoire est presque impossible), vous avez tous les droits de dire que les deux variances sont de véritables estimations ponctuelles de la variance de la population (les hommes de Londres dans ce cas).
Mais comment est-ce possible? soit deux estimations ponctuelles différentes !! Ainsi, nous allons de l'avant et trouvons une estimation ponctuelle commune qui est la variance groupée. Il ne s'agit que de la moyenne pondérée de deux estimations ponctuelles, où les poids sont le degré de liberté associé à chaque échantillon.
J'espère que cela clarifie.
la source