La moyenne d'un ensemble de moyennes sera-t-elle toujours la même que la moyenne obtenue à partir de l'ensemble des données brutes?

11

Si j'ai calculé la moyenne de 4 ensembles de données (qui ont des tailles d'échantillon différentes), puis-je alors obtenir une "moyenne globale" en calculant la "moyenne des moyennes"? Si oui, cette «moyenne des moyens» sera-t-elle la même que si j'avais combiné les données des 4 ensembles et calculé la moyenne?

user66429
la source
3
L'avez-vous essayé dans les deux sens ;-)? (No.)
gung - Réintégrer Monica

Réponses:

14

Non, les moyennes des moyennes des sous-ensembles ne sont pas les mêmes que la moyenne de l'ensemble. Ce ne sera la même valeur que si les sous-ensembles ont la même taille d'échantillon. Si vous voulez la moyenne de la population, multipliez chaque moyenne par la taille de l'échantillon dont elle est issue pour obtenir le total de la population, puis divisez par le nombre total de points de données (taille de la population).

Voir l' exemple des moyennes au bâton sur le paradoxe de Simpson pour une bonne illustration de la raison pour laquelle la moyenne des moyennes ne fonctionne généralement pas.

Bill le lézard
la source
2

Essayons et voyons si nous pouvons le découvrir. L'exemple suivant est codé R, ce qui est gratuit et vous permettra de reproduire l'exemple, mais j'espère que le code s'explique de lui-même:

group1 = c(1,2,3)
group2 = c(4,5,6,7,8,9)
mean(group1)
#  2
mean(group2)
#  6.5
mean(c(group1, group2))
#  5
mean(c(mean(group1), mean(group2)))
#  4.25

Donc, ce que nous voyons, c'est que vous pouvez certainement calculer la moyenne des moyennes, mais la moyenne des moyennes et la moyenne de toutes les données brutes ne correspondent pas. Nous pouvons également essayer une moyenne pondérée en utilisant la suggestion de @ BilltheLizard d'utiliser la taille de l'échantillon de chaque groupe comme poids (les poids sont indiqués avec l' wargument):

weighted.mean(c(mean(group1), mean(group2)), w=c(3,6))
#  5

Cela nous donne maintenant la même réponse.

gung - Réintégrer Monica
la source
1

En général, si vous avez un ensemble dem groupes de tailles respectives n1,...,nm et signifie x¯1,...,x¯m alors la moyenne globale de l'échantillon de toutes les données est:

x¯=k=1mnknx¯kn=i=1mnk.

Ainsi, la moyenne globale est toujours une moyenne pondérée des moyennes des échantillons des groupes. Dans le cas spécial où tous les groupes sont de la même taille ( ), tous les poids seront les mêmes et ainsi, la moyenne globale de l'échantillon sera la moyenne des moyennes de l'échantillon du groupe.n1==nm

Ben - Réintègre Monica
la source
0

Je veux juste donner un exemple (extrême): si nous avons un taux de réussite de (1/10000) dans un échantillon, et un taux de réussite de (1/2) dans un autre exemple, alors hititotalihititotali. Dans le premier cas (moyenne des moyennes), nous avons un taux de réussite "moyen" de 0,5001 / 2 tandis que dans le second cas (moyenne des totaux) nous avons 3/10003, et ces deux nombres ne sont pas les mêmes. Que ce soit plus approprié ou correct dépend de votre cas d'utilisation.

échange_informations
la source