Que signifie «réellement» la variance groupée?

15

Je suis un noob en statistiques, alors pourriez-vous m'aider ici.

Ma question est la suivante: que signifie réellement la variance groupée ?

Lorsque je recherche une formule pour la variance groupée sur Internet, je trouve beaucoup de littérature utilisant la formule suivante (par exemple ici: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

S_{p}^{2} = \frac{S_{1}^{2} (n_{1} - 1) + S_{2}^{2} (n_{2} - 1)}{n_{1} + n_{2} - 2}

$\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation}$

Mais que calcule-t- il réellement ? Parce que lorsque j'utilise cette formule pour calculer ma variance groupée, cela me donne une mauvaise réponse.

Par exemple, considérez ces «échantillon parent»:

2, 2, 2, 2, 2, 8, 8, 8, 8, 8

$\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation}$

La variance de cet échantillon parent est $S^2_p=10$ , et sa moyenne est $\bar{x}_p=5$ .

Supposons maintenant que je divise cet échantillon parent en deux sous-échantillons:

Le premier sous-échantillon est 2,2,2,2,2 avec une moyenne $\bar{x}_1=2$ et une variance $S^2_1=0$ .
Le deuxième sous-échantillon est 8,8,8,8,8 avec une moyenne $\bar{x}_2=8$ et une variance $S^2_2=0$ .

Maintenant, clairement, l'utilisation de la formule ci-dessus pour calculer la variance regroupée / parent de ces deux sous-échantillons produira zéro, car et . Alors, que calcule réellement cette formule ? $S_1=0$ $S_2=0$

D'un autre côté, après une longue dérivation, j'ai trouvé que la formule qui produit la variance pool / parent correcte est:

S_{p}^{2} = \frac{S_{1}^{2} (n_{1} - 1) + n_{1} d_{1}^{2} + S_{2}^{2} (n_{2} - 1) + n_{2} d_{2}^{2}}{n_{1} + n_{2} - 1}

$\begin{equation} \label{eq:smartpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + n_1 d_1^2 + S_2^2 (n_2-1) + n_2 d_2^2} {n_1 + n_2 - 1} \end{equation}$

Dans la formule ci-dessus, et . $d_1=\bar{x_1}-\bar{x}_p$ $d_2=\bar{x_2}-\bar{x}_p$

J'ai trouvé une formule similaire avec la mienne, par exemple ici: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html et également sur Wikipedia. Bien que je dois admettre qu'ils ne ressemblent pas exactement aux miens.

Encore une fois, que signifie réellement la variance groupée? Cela ne devrait-il pas signifier la variance de l'échantillon parent des deux sous-échantillons? Ou je me trompe complètement ici?

Merci d'avance.

EDIT 1: Quelqu'un dit que mes deux sous-échantillons ci-dessus sont pathologiques car ils ont une variance nulle. Eh bien, je pourrais vous donner un exemple différent. Considérez cet exemple parent:

1, 2, 3, 4, 5, 46, 47, 48, 49, 50

$\begin{equation} \label{eq:parentsample2} 1,2,3,4,5,46,47,48,49,50 \end{equation}$

La variance de cet échantillon parent est , et sa moyenne est . $S^2_p=564.7$ $\bar{x}_p=25.5$

Supposons maintenant que je divise cet échantillon parent en deux sous-échantillons:

Le premier sous-échantillon est 1,2,3,4,5 avec une moyenne et une variance . $\bar{x}_1=3$ $S^2_1=2.5$
Le deuxième sous-échantillon est 46,47,48,49,50 avec une moyenne et une variance . $\bar{x}_2=48$ $S^2_2=2.5$

Maintenant, si vous utilisez la «formule de la littérature» pour calculer la variance groupée, vous obtiendrez 2,5, ce qui est complètement faux, car la variance parent / groupée devrait être de 564,7. Au lieu de cela, si vous utilisez "ma formule", vous obtiendrez une réponse correcte.

Veuillez comprendre, j'utilise ici des exemples extrêmes pour montrer aux gens que la formule est vraiment fausse. Si j'utilise des "données normales" qui n'ont pas beaucoup de variations (cas extrêmes), les résultats de ces deux formules seront très similaires et les gens pourraient ignorer la différence en raison d'une erreur d'arrondi, pas parce que la formule elle-même est faux.

variance mean pooling Hanciong
la source

Quelques liens connexes pour vous aider: stats.stackexchange.com/q/214834/3277 , stats.stackexchange.com/q/12330/3277 , stats.stackexchange.com/q/43159/3277 .

ttnphns

13

En termes simples, la variance groupée est une estimation (non biaisée) de la variance au sein de chaque échantillon, sous l'hypothèse / contrainte que ces variances sont égales.

Ceci est expliqué, motivé et analysé en détail dans l'entrée Wikipedia pour la variance groupée .

Il n'évalue pas la variance d'un nouveau "méta-échantillon" formé en concaténant les deux échantillons individuels, comme vous le supposiez. Comme vous l'avez déjà découvert, l'estimation nécessite une formule complètement différente.

Jake Westfall
la source

L'hypothèse «d'égalité» (c'est-à-dire que la même population a réalisé ces échantillons) n'est pas nécessaire en général pour définir ce qu'elle est - «regroupée». Mutualisé signifie simplement moyen, omnibus (voir mon commentaire à Tim).

ttnphns

@ttnphns Je pense que l'hypothèse d'égalité est nécessaire pour donner à la variance groupée une signification conceptuelle (que le PO a demandée) qui va au-delà de la simple description verbale de l'opération mathématique qu'elle effectue sur les variances d'échantillon. Si les variances de la population ne sont pas supposées égales, on ne sait pas de quoi nous pourrions considérer la variance groupée comme une estimation. Bien sûr, nous pourrions simplement penser à cela comme étant une fusion des deux variances et en rester là, mais ce n'est guère éclairant en l'absence de toute motivation pour vouloir combiner les variances en premier lieu.

Jake Westfall

Jake, je ne suis pas en désaccord avec cela, étant donné la question spécifique du PO, mais je voulais parler de la définition du mot "groupé", c'est pourquoi j'ai dit "en général".

ttnphns

@JakeWestfall Votre réponse est la meilleure réponse à ce jour. Je vous remercie. Bien que je ne sois toujours pas clair sur une chose. Selon Wikipedia, la variance groupée est une méthode d'estimation de la variance de plusieurs populations différentes lorsque la moyenne de chaque population peut être différente , mais on peut supposer que la variance de chaque population est la même .

Hanciong

@JakeWestfall: Donc, si nous calculons la variance groupée de deux populations différentes avec des moyens différents, que calcule-t-il réellement? Parce que la première variance mesure la variation par rapport à la première moyenne, et la deuxième variance est par rapport à la deuxième moyenne. Je ne sais pas quelles informations supplémentaires peuvent être obtenues en les calculant.

Hanciong

10

La variance groupée est utilisée pour combiner ensemble les variances de différents échantillons en prenant leur moyenne pondérée, pour obtenir la variance "globale". Le problème avec votre exemple est qu'il s'agit d'un cas pathologique, puisque chacun des sous-échantillons a une variance égale à zéro. Un tel cas pathologique a très peu en commun avec les données que nous rencontrons habituellement, car il y a toujours une certaine variabilité et s'il n'y a pas de variabilité, nous ne nous soucions pas de ces variables car elles ne portent aucune information. Vous devez noter qu'il s'agit d'une méthode très simple et qu'il existe des moyens plus complexes d'estimer la variance dans les structures de données hiérarchiques qui ne sont pas sujettes à de tels problèmes.

En ce qui concerne votre exemple dans l'édition, il montre qu'il est important d'énoncer clairement vos hypothèses avant de commencer l'analyse. Disons que vous avez points de données dans groupes, nous le dénoterions comme , où le -ème indice de représente les cas et $n$ $k$ $x_{1,1},x_{2,1},\dots,x_{n-1,k},x_{n,k}$ $i$ $x_{i,j}$ $j$ -th index représente les index de groupe. Il existe plusieurs scénarios possibles, vous pouvez supposer que tous les points proviennent de la même distribution (pour simplifier, supposons une distribution normale),

\begin{matrix} (1) & x_{i, j} \sim N (μ, σ^{2}) \end{matrix}

$x_{i,j} \sim \mathcal{N}(\mu, \sigma^2) \tag{1}$

vous pouvez supposer que chacun des sous-échantillons a sa propre moyenne

\begin{matrix} (2) & x_{i, j} \sim N (μ_{j}, σ^{2}) \end{matrix}

$x_{i,j} \sim \mathcal{N}(\mu_j, \sigma^2) \tag{2}$

ou, sa propre variance

\begin{matrix} (3) & x_{i, j} \sim N (μ, σ_{j}^{2}) \end{matrix}

$x_{i,j} \sim \mathcal{N}(\mu, \sigma^2_j) \tag{3}$

ou, chacun d'eux a ses propres paramètres distincts

\begin{matrix} (4) & x_{i, j} \sim N (μ_{j}, σ_{j}^{2}) \end{matrix}

$x_{i,j} \sim \mathcal{N}(\mu_j, \sigma^2_j) \tag{4}$

Selon vos hypothèses, une méthode particulière peut, ou peut ne pas être adéquate pour analyser les données.

Dans le premier cas, vous ne seriez pas intéressé à estimer les variances intra-groupe, car vous supposeriez qu'elles sont toutes identiques. Néanmoins, si vous agrégiez la variance globale des variances de groupe, vous obtiendriez le même résultat qu'en utilisant la variance groupée puisque la définition de la variance est

V a r (X) = \frac{1}{n - 1} \sum_{i} (x_{i} - μ)^{2}

$\mathrm{Var}(X) = \frac{1}{n-1} \sum_i (x_i - \mu)^2$

$n-1$ $n_1 + n_2 - 1$

Dans le second cas, les moyennes diffèrent, mais vous avez une variance commune. Cet exemple est le plus proche de votre exemple dans l'édition. Dans ce scénario, la variance regroupée estimerait correctement la variance globale, alors que si la variance estimée sur l'ensemble de données, vous obtiendriez des résultats incorrects, car vous ne teniez pas compte du fait que les groupes ont des moyennes différentes.

Dans le troisième cas, il n'est pas logique d'estimer la variance «globale», car vous supposez que chacun des groupes a sa propre variance. Vous pouvez toujours être intéressé par l'obtention de l'estimation pour l'ensemble de la population, mais dans ce cas, à la fois (a) le calcul des variances individuelles par groupe et (b) le calcul de la variance globale à partir de l'ensemble de données, peut vous donner des résultats trompeurs . Si vous avez affaire à ce type de données, vous devriez penser à utiliser un modèle plus compliqué qui tient compte de la nature hiérarchique des données.

Le quatrième cas est le plus extrême et assez similaire au précédent. Dans ce scénario, si vous vouliez estimer la moyenne et la variance mondiales, vous auriez besoin d'un modèle différent et d'un ensemble d'hypothèses différent. Dans ce cas, vous supposeriez que vos données sont de structure hiérarchique, et en plus des moyennes et des variances intra-groupe, il existe une variance commune de niveau supérieur, par exemple en supposant le modèle suivant

\begin{matrix} (5) & \begin{aligned} x_{i, j} & \sim N (μ_{j}, σ_{j}^{2}) \\ μ_{j} & \sim N (μ_{0}, σ_{0}^{2}) \\ σ_{j}^{2} & \sim I G (α, β) \end{aligned} \end{matrix}

$\begin{align} x_{i,j} &\sim \mathcal{N}(\mu_j, \sigma^2_j) \\ \mu_j &\sim \mathcal{N}(\mu_0, \sigma^2_0) \\ \sigma^2_j &\sim \mathcal{IG}(\alpha, \beta) \end{align} \tag{5}$

$\mu_j,\sigma^2_j$

Tim
la source

J'ai mis à jour ma question avec un exemple différent. Dans ce cas, la réponse de la "formule de la littérature" est toujours fausse. Je comprends que nous avons généralement affaire à des "données normales" où il n'y a pas de cas extrême comme mon exemple ci-dessus. Cependant, en tant que mathématiciens, ne devriez-vous pas vous soucier de la formule qui est en effet correcte, au lieu de celle qui s'applique dans le "problème quotidien / commun"? Si une formule est fondamentalement erronée, elle doit être jetée, surtout s'il existe une autre formule qui tient dans tous les cas, pathologique ou non.

Hanciong

En fait, vous avez dit qu'il existe des moyens plus complexes d'estimer la variance. Pourriez-vous me montrer ces façons? Merci

Hanciong

2

Tim, la variance groupée n'est pas la variance totale de "l'échantillon combiné". En statistiques, "regroupé" signifie une moyenne pondérée (lorsque nous parlons de quantités moyennes telles que les variances, les poids étant les n ) ou simplement une somme (lorsque nous parlons de sommes telles que des éparpillements, des sommes de carrés). Veuillez reconsidérer votre terminologie (choix des mots) dans la réponse.

ttnphns

1

Bien que hors du sujet actuel, voici une question intéressante sur le concept de variance "commun". stats.stackexchange.com/q/208175/3277

ttnphns

1

Hanciong. J'insiste sur le fait que le concept de «pooled variance» en général et même spécifiquement de «pooled variance» ne nécessite, en général, aucune hypothèse telle que: les groupes sont issus de populations présentant des variances égales. La mise en commun est simplement un mélange (moyenne pondérée ou sommation). C'est en ANOVA et dans des circonstances similaires que nous ajoutons cette hypothèse statistique.

ttnphns

1

Le problème est que si vous concaténez simplement les échantillons et estimez sa variance, vous supposez qu'ils proviennent de la même distribution et ont donc la même moyenne. Mais nous sommes en général intéressés par plusieurs échantillons avec des moyennes différentes. Est-ce que ça a du sens?

ZHU
la source

0

Le cas d'utilisation de la variance groupée est lorsque vous avez deux échantillons de distributions qui:

peut avoir des moyens différents, mais
que vous attendez d'avoir une vraie variance égale .

$n$ $m$

Dans ce cas, prendre la variance groupée vous donnerait une meilleure estimation de la variance de l'erreur de mesure que de prendre la variance d'un seul échantillon.

Misha
la source

Merci pour votre réponse, mais je ne comprends toujours pas une chose. Les premières données vous donnent la variance par rapport à la longueur du nez d'Alice, et les secondes données vous donne la variance par rapport à la longueur du nez de Bob. Si vous calculez un écart groupé à partir de ces données, qu'est-ce que cela signifie réellement? Étant donné que la première variance mesure la variation par rapport à celle d'Alice et la seconde par rapport à celle de Bob, quelles informations supplémentaires pouvons-nous obtenir en calculant leur variance groupée? Ce sont des nombres complètement différents.

Hanciong

0

Grâce à la variance groupée, nous n'essayons pas d'estimer la variance d'un plus grand échantillon, en utilisant des échantillons plus petits. Par conséquent, les deux exemples que vous avez donnés ne font pas exactement référence à la question.

La variance groupée est nécessaire pour obtenir une meilleure estimation de la variance de la population, à partir de deux échantillons qui ont été prélevés au hasard dans cette population et qui produisent des estimations de variance différentes.

Par exemple, vous essayez d'évaluer la variance des habitudes de tabagisme des hommes à Londres. Vous échantillonnez deux fois, 300 hommes de Londres. Vous finissez par obtenir deux écarts (probablement un peu différents!). Maintenant que vous avez effectué un échantillonnage aléatoire équitable (au mieux de vos capacités! Car un véritable échantillonnage aléatoire est presque impossible), vous avez tous les droits de dire que les deux variances sont de véritables estimations ponctuelles de la variance de la population (les hommes de Londres dans ce cas).

Mais comment est-ce possible? soit deux estimations ponctuelles différentes !! Ainsi, nous allons de l'avant et trouvons une estimation ponctuelle commune qui est la variance groupée. Il ne s'agit que de la moyenne pondérée de deux estimations ponctuelles, où les poids sont le degré de liberté associé à chaque échantillon.

J'espère que cela clarifie.

Sameer Saurabh
la source

Que signifie «réellement» la variance groupée?

Réponses: