Variance de la moyenne pondérée supérieure à la moyenne non pondérée

8

Un de mes critiques demande pourquoi j'ai utilisé des données non pondérées, au lieu de données pondérées. J'ai discuté de la question avec un statisticien et sa réponse allait dans le sens de

Si vous avez des observations indépendantes et que vous prenez la moyenne globale, sa variance est toujours inférieure à la variance d'une moyenne pondérée comme estimateur. ... Les intervalles de confiance seront donc élargis!

Depuis, j'ai trouvé la question suivante sur ce site Web, et d'après ce que je comprends, ils suggèrent que l'écart devrait être le même. Quelqu'un peut-il, s'il vous plaît, avec un esprit plus doué statistiquement que le mien, s'il vous plaît confirmer la réponse du statisticien et expliquer en termes simples la théorie, ou avec un exemple concret.

user08041991
la source
Si les "poids" sont en fait des fréquences d'observation ou de population, alors ils doivent être utilisés, car les nombres non pondérés n'ont pas de sens. La citation de votre statisticien est probablement vraie pour une population avec une distribution unimodale, bien qu'elle ne soit pas nécessairement vraie en général.
Henry
Il serait assez facile de fournir un exemple concret avec plus de contexte. Que représentent les poids? Parlez-vous de la variance de la moyenne de l'échantillon? Les échantillons proviennent-ils d'une population finie? Avec ou sans remplacement?
Henry
Disons que nous avons collecté une série de mesures de fréquence cardiaque à partir d'un échantillon de personnes dans un hôpital. Un facteur de pondération peut ensuite être appliqué à chaque individu pour mettre à l'échelle les mesures afin de refléter les estimations nationales ou la population - en comparant une série de facteurs de confusion (par exemple, l'âge, la taille, le poids, etc.).
user08041991
La question à laquelle vous vous connectez concerne les pondérations de fréquence. C'est ça que tu as?
mdewey
2
La moyenne de n valeurs Xje est la moyenne pondérée X¯=jewjeXje avec des poids wje=1/n. Quand leXje sont des règles de variance de base indépendantes
(1)Var(X¯)=jewje2Var(Xje).
Quand en plus le Xje ont tous la même variance σ2, cela simplifie wje2 fois σ2. Puisque les poids sont positifs et totalisent l'unité,(1) est minimisé uniquement lorsque wje=1/n. En ce sens, le statisticien a raison. Cette conclusion générale est indépendante de toute autre propriété de la distribution desXje, comme l'unimodalité.
whuber

Réponses:

5

Votre question liée concerne l'utilisation de pondérations comme raccourci pour traiter la variance par point de données pondérée de manière égale dans laquelle certains points de données se produisent plusieurs fois.

@whuber a abordé dans un commentaire la situation dans laquelle les variances de tous les points de données sont égales. Je vais donc aborder la situation dans laquelle ils ne sont pas égaux. C'est dans cette situation que la moyenne pondérée optimale produit une variance inférieure à la moyenne non pondérée, c'est-à-dire également pondérée.

La moyenne pondérée, en utilisant des poids wje, équivaut à Σje=1nwjeXje, et a une variance = Σje=1nwje2Vuner(Xje). Nous souhaitons donc minimiserΣje=1nwje2Vuner(Xje), sujet à Σje=1nwje=1 et wje0 pour tous i.

Les conditions de Karush-Kuhn-Tucker, qui sont nécessaires et suffisantes pour un minimum global pour ce problème, étant donné qu'il s'agit d'un problème de programmation quadratique convexe, conduisent à une solution de forme fermée, à savoir:

L'optimale wje=[1/Vuner(Xje)]/Σj=1n[1/Vuner(Xj)] pour 1 = 1 .. n.

La variance de la moyenne pondérée optimale correspondante = 1/Σje=1n[1/Vuner(Xje)].

En revanche, une pondération égale signifie wje=1npour tout i, où n est le nombre de points de données. Comme l'a souligné whuber, des poids égaux sont optimaux si toutes les variances de points de données sont égales, ce qui peut être vu à partir de la formule ci-dessuswje. Cependant, comme le montre cette formule, des poids égaux ne sont pas optimaux si les variances des points de données ne sont pas toutes égales, et entraînent en effet une variance plus grande (de la moyenne pondérée) que les poids optimaux. La variance de la moyenne pondérée de façon égale, c'est-à-dire la variance de la moyenne pondérée en utilisant des poids égaux =1n2Σje=1nVuner(Xje).

Voici quelques exemples de résultats numériques:

  1. Il y a deux points de données, ayant des variances respectivement de 1 et 4. La moyenne non pondérée a une variance = 1,25. La moyenne pondérée utilisant les poids optimaux de 0,8 et 0,2 respectivement, a une variance = 0,8, qui est bien sûr inférieure à 1,25.
  2. Il y a trois points de données, ayant des variances respectivement de 1, 4 et 9. La moyenne non pondérée a une variance = 1,5556. La moyenne pondérée utilisant les poids optimaux de 0,7347, 0,1837, 0,0816 respectivement, a une variance = 0,7347, qui est bien sûr inférieure à 1,5556.

Bien sûr, il est possible que la moyenne pondérée présente une variance plus grande que la moyenne non pondérée, si les poids sont mal choisis. En choisissant le poids de 1 sur le point de données présentant la plus grande variance et de 0 pour tous les autres points de données, la moyenne pondérée aurait la variance = la plus grande variance de tout point de données. Cet exemple extrême serait le résultat de la maximisation plutôt que de la minimisation du problème d'optimisation que j'ai exposé.

Mark L. Stone
la source
Je suis confus au sujet de votre référence à des points de données individuels présentant une variance (par exemple, il y a deux points de données, ayant respectivement des variances de 1 et 4), pouvez-vous expliquer?
edstatsuser
Dire un point de données Xje a une variance particulière est raccourci pour dire que Xjeest tiré d'une population (variable aléatoire) qui présente cette variance. Ainsi, les différents points de données peuvent être tirés de différentes populations, car il ne s'agit pas d'un échantillonnage iid.
Mark L. Stone
0

Voici un exemple simple utilisant le 1nje(Xje-1njXj)2 et 1kwkjewje(Xje-1kwkjwjXj)2 formes de la variance:

Supposons que votre population ait des mesures 20,30,40,50.

  • Non pondérée, la moyenne est 35 et la variance est 125
  • Avec des poids respectifs 1000,4000,3000,2000 la moyenne pondérée est 36 et la variance pondérée est 84
  • Avec des poids respectifs 3000,2000,1000,4000 la moyenne pondérée est 36 et la variance pondérée est 164

Cet exemple est conforme à mon commentaire selon lequel la citation de votre statisticien est probablement vraie pour une population avec une distribution unimodale, bien qu'elle ne soit pas nécessairement vraie en général.

Je suppose que le fait est que si vous citez la moyenne pondérée, vous devriez probablement l'associer à la variance pondérée. Si en fait votre moyenne est le résultat de l'échantillon, l'erreur type de la moyenne de l'échantillon pondéré est un calcul plus compliqué.

Henri
la source
Cette réponse semble confondre la variance d'un échantillon (ou population finie) avec la variance de la distribution d'échantillonnage de la moyenne (ou moyenne pondérée). Par conséquent, il comprend des déclarations qui ne semblent pas être vraies et peuvent être trompeuses.
whuber