Un de mes critiques demande pourquoi j'ai utilisé des données non pondérées, au lieu de données pondérées. J'ai discuté de la question avec un statisticien et sa réponse allait dans le sens de
Si vous avez des observations indépendantes et que vous prenez la moyenne globale, sa variance est toujours inférieure à la variance d'une moyenne pondérée comme estimateur. ... Les intervalles de confiance seront donc élargis!
Depuis, j'ai trouvé la question suivante sur ce site Web, et d'après ce que je comprends, ils suggèrent que l'écart devrait être le même. Quelqu'un peut-il, s'il vous plaît, avec un esprit plus doué statistiquement que le mien, s'il vous plaît confirmer la réponse du statisticien et expliquer en termes simples la théorie, ou avec un exemple concret.
la source
Réponses:
Votre question liée concerne l'utilisation de pondérations comme raccourci pour traiter la variance par point de données pondérée de manière égale dans laquelle certains points de données se produisent plusieurs fois.
@whuber a abordé dans un commentaire la situation dans laquelle les variances de tous les points de données sont égales. Je vais donc aborder la situation dans laquelle ils ne sont pas égaux. C'est dans cette situation que la moyenne pondérée optimale produit une variance inférieure à la moyenne non pondérée, c'est-à-dire également pondérée.
La moyenne pondérée, en utilisant des poidswje , équivaut à Σni = 1wjeXje , et a une variance = Σni = 1w2jeVa r (Xje) . Nous souhaitons donc minimiserΣni = 1w2jeVa r (Xje) , sujet à Σni = 1wje= 1 et wje≥ 0 pour tous i.
Les conditions de Karush-Kuhn-Tucker, qui sont nécessaires et suffisantes pour un minimum global pour ce problème, étant donné qu'il s'agit d'un problème de programmation quadratique convexe, conduisent à une solution de forme fermée, à savoir:
L'optimalewje= [ 1 / Va r (Xje) ] /Σnj = 1[ 1 / Va r (Xj) ] pour 1 = 1 .. n.
La variance de la moyenne pondérée optimale correspondante =1 /Σni = 1[ 1 / Va r (Xje) ] .
En revanche, une pondération égale signifiewje=1n pour tout i, où n est le nombre de points de données. Comme l'a souligné whuber, des poids égaux sont optimaux si toutes les variances de points de données sont égales, ce qui peut être vu à partir de la formule ci-dessuswje . Cependant, comme le montre cette formule, des poids égaux ne sont pas optimaux si les variances des points de données ne sont pas toutes égales, et entraînent en effet une variance plus grande (de la moyenne pondérée) que les poids optimaux. La variance de la moyenne pondérée de façon égale, c'est-à-dire la variance de la moyenne pondérée en utilisant des poids égaux =1n2Σni = 1Va r (Xje) .
Voici quelques exemples de résultats numériques:
Bien sûr, il est possible que la moyenne pondérée présente une variance plus grande que la moyenne non pondérée, si les poids sont mal choisis. En choisissant le poids de 1 sur le point de données présentant la plus grande variance et de 0 pour tous les autres points de données, la moyenne pondérée aurait la variance = la plus grande variance de tout point de données. Cet exemple extrême serait le résultat de la maximisation plutôt que de la minimisation du problème d'optimisation que j'ai exposé.
la source
Voici un exemple simple utilisant le1n∑je(Xje-1n∑jXj)2 et 1∑kwk∑jewje(Xje-1∑kwk∑jwjXj)2 formes de la variance:
Supposons que votre population ait des mesures20 , 30 , 40 , 50 .
Cet exemple est conforme à mon commentaire selon lequel la citation de votre statisticien est probablement vraie pour une population avec une distribution unimodale, bien qu'elle ne soit pas nécessairement vraie en général.
Je suppose que le fait est que si vous citez la moyenne pondérée, vous devriez probablement l'associer à la variance pondérée. Si en fait votre moyenne est le résultat de l'échantillon, l'erreur type de la moyenne de l'échantillon pondéré est un calcul plus compliqué.
la source