Comment "additionner" un écart type?

68

J'ai une moyenne mensuelle pour une valeur et un écart-type correspondant à cette moyenne. Je calcule maintenant la moyenne annuelle comme étant la somme des moyennes mensuelles. Comment puis-je représenter l'écart type de la moyenne cumulée?

Par exemple, en considérant la production d'un parc éolien:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

On peut dire que le parc éolien produit en moyenne 10 358 MWh par an, mais quel est l'écart type correspondant à ce chiffre?

klonq
la source
3
Une discussion faisant suite à une réponse maintenant supprimée a révélé une ambiguïté possible dans cette question: recherchez-vous le SD des moyennes mensuelles ou voulez-vous récupérer le SD de toutes les valeurs d'origine à partir desquelles ces moyennes ont été construites? Cette réponse a également souligné à juste titre que si vous souhaitez utiliser cette dernière option, vous aurez besoin du nombre de valeurs impliquées dans chacune des moyennes mensuelles.
whuber
1
Un commentaire sur une autre réponse supprimée indiquait qu'il est étrange de calculer une moyenne comme une somme : vous voulez sûrement dire que vous faites la moyenne des moyennes mensuelles. Mais si vous voulez estimer la moyenne de toutes les données d'origine, une telle procédure n'est généralement pas bonne: une moyenne pondérée est nécessaire. Et bien sûr, il n’est pas possible de donner une bonne réponse à votre question sur le "DS pour la moyenne cumulée" tant que l’on ne sait pas ce qu’est la "moyenne cumulée" et ce qu’elle est censée représenter. S'il vous plaît clarifier cela pour nous.
whuber
@whuber, j'ai ajouté un exemple pour clarifier. Mathématiquement, je pense que la somme des moyennes est égale à la moyenne mensuelle. 12.
klonq
2
Oui, klonq, c’est une demande très raisonnable. Cependant, ces réponses ont été supprimées par leur propriétaire et non par la communauté. Pour préserver leur valeur, j'ai tenté ici de relayer (mon point de vue) les idées clés qui se dégagent de ces réponses et de leurs commentaires. En passant, vos dernières modifications sont très utiles: les gens aiment voir des exemples de données.
whuber
1
Bienvenue sur le site, @ Hayden. Ce n'est pas une réponse à la question du PO. Utilisez uniquement le champ "Votre réponse" pour fournir des réponses. Si vous avez une question complémentaire, cliquez sur le bouton [ASK QUESTION]en haut de la page et posez-la là, nous pouvons vous aider correctement. Puisque vous êtes nouveau ici, vous voudrez peut-être faire notre tour , qui contient des informations pour les nouveaux utilisateurs.
gung - Rétablir Monica

Réponses:

67

Réponse courte: vous faites la moyenne des variances ; alors vous pouvez prendre la racine carrée pour obtenir l’ écart type moyen .


Exemple

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

Et puis l' écart type moyen estsqrt(53,964) = 232


A partir de la somme des variables aléatoires normalement distribuées :

Si et sont des variables aléatoires indépendantes normalement distribuées (et donc conjointement conjointement), leur somme est également normalement distribuéeXY

... la somme de deux variables aléatoires indépendantes normalement distribuées est normale, sa moyenne étant la somme des deux moyennes et sa variance étant la somme des deux variances

Et de la distribution de somme normale de Wolfram Alpha :

Étonnamment, la distribution d'une somme de deux variables et indépendantes normalement distribuées avec des moyennes et des variances et , est une autre distribution normaleXY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

qui a moyen

μX+Y=μX+μY

et la variance

σX+Y2=σX2+σY2

Pour vos données:

  • somme: 10,358 MWh
  • variance: 647,564
  • écart-type: 804.71 ( sqrt(647564) )

entrez la description de l'image ici

Donc, pour répondre à votre question:

  • Comment "additionner" un écart type ?
  • Vous les additionnez de manière quadratique:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Conceptuellement, vous additionnez les variances, puis utilisez la racine carrée pour obtenir l'écart type.


Parce que j'étais curieux, je voulais connaître la puissance moyenne mensuelle moyenne et son écart type . Par induction, nous avons besoin de 12 distributions normales qui:

  • somme au moyenne de 10,358
  • somme à un écart de 647,564

Ce serait 12 distributions mensuelles moyennes de:

  • moyenne de 10,358/12 = 863.16
  • variance de 647,564/12 = 53,963.6
  • écart type de sqrt(53963.6) = 232.3

entrez la description de l'image ici

Nous pouvons vérifier nos distributions moyennes mensuelles en les additionnant 12 fois, pour voir si elles correspondent à la distribution annuelle:

  • Moyenne: 863.16*12 = 10358 = 10,358( correcte )
  • Variance: 53963.6*12 = 647564 = 647,564( correcte )

Remarque : je laisse le soin à une personne connaissant les mathématiques ésotériques du Latex de convertir les images de ma formule et de les formula codeconvertir au format stackexchange.

Edit : J'ai déplacé le court, au point, répondre en haut. Parce que je devais refaire cela aujourd'hui, mais je voulais vérifier que les écarts étaient en moyenne .

Ian Boyd
la source
3
Tout cela semble supposer que les mois ne sont pas corrélés - cette hypothèse a-t-elle été explicite n'importe où? Aussi, pourquoi devons-nous intégrer la distribution normale? Si nous ne parlons que de variance, cela semble inutile - par exemple, voir ma réponse ici
Macro
1
@Marco Parce que je pense mieux en images et que tout est plus facile à comprendre.
Ian Boyd
2
@Marco En outre, je pense que cette question a commencé sur le site stats.stackexchange (maintenant disparu). Un mur de formules est moins accessible que des traitements plus simples, graphiques et moins rigoureux.
Ian Boyd
2
Je doute que cela soit correct. Imaginez deux ensembles de données avec chacun une seule mesure. La variance de chaque ensemble est 0, mais l'ensemble des deux mesures a une variance supérieure à 0 si les points de données diffèrent.
Njol
1
@Njol, je pense que c'est pourquoi nous supposons que toutes les variables ont une distribution normale. Et nous pouvons le faire ici, car nous parlons de mesure physique. Dans votre exemple, les deux variables ne sont pas normalement distribuées.
tworec
11

C'est une vieille question, mais la réponse acceptée n'est pas correcte ni complète. L'utilisateur souhaite calculer l'écart-type sur 12 mois, l'écart moyen et l'écart-type étant déjà calculés sur chaque mois. En supposant que le nombre d'échantillons de chaque mois soit identique, il est alors possible de calculer la moyenne et la variance de l'échantillon sur l'année à partir des données de chaque mois. Pour simplifier, supposons que nous ayons deux ensembles de données:

X={x1,....xN}

Y={y1,....,yN}

avec des valeurs connues d'échantillon moyen et de variance d'échantillon, , , , .μxμyσx2σy2

Maintenant, nous voulons calculer les mêmes estimations pour

Z={x1,....,xN,y1,...,yN} .

Considérez que , sont calculés comme :μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

Pour estimer la moyenne et la variance par rapport à l'ensemble total, nous devons calculer:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

Donc, si vous avez la variance sur chaque sous-ensemble et que vous voulez la variance sur l'ensemble, vous pouvez calculer la moyenne des variances de chaque sous-ensemble si elles ont toutes la même moyenne. Sinon, vous devez ajouter la variance de la moyenne de chaque sous-ensemble.

Supposons qu'au cours du premier semestre de l'année, nous produisions exactement 1000 MWh par jour et dans les secondes qui suivent, nous en produisions 2000 MWh par jour. La moyenne et la variance de la production d’énergie dans la première moitié et la seconde moitié sont respectivement de 1000 et 2000 pour la moyenne et la variance est de 0 pour les deux moitiés. Maintenant, il y a deux choses différentes qui pourraient nous intéresser:

1- Nous voulons calculer la variance de la production d'énergie sur l'année entière : ensuite, en calculant la moyenne des deux variances, nous arrivons à zéro, ce qui n'est pas correct car l'énergie journalière sur toute l'année n'est pas constante. Dans ce cas, nous devons ajouter la variance de toutes les moyennes de chaque sous-ensemble. Mathématiquement, dans ce cas, la variable aléatoire d’intérêt est la production d’énergie par jour. Nous avons des statistiques d'échantillon sur des sous-ensembles et nous voulons calculer les statistiques d'échantillon sur une période plus longue.

2- Nous voulons calculer la variance de la production d'énergie par an: En d'autres termes, nous nous intéressons à la quantité de production d'énergie qui change d'une année à l'autre. Dans ce cas, la moyenne de la variance donne la réponse correcte, qui est 0, car chaque année, nous produisons exactement 1 500 MW en moyenne. Mathématiquement, dans ce cas, la variable d'intérêt aléatoire est la moyenne de la production d'énergie par jour, où le calcul de la moyenne est effectué sur l'ensemble de l'année.

Hooman
la source
1

Je pense que ce qui peut vous intéresser est l’ erreur type plutôt que l’écart type.

L'erreur type de la moyenne (SEM) est l'écart type de l'estimation de la moyenne de la population par la moyenne de l'échantillon, ce qui vous donnera une mesure de la qualité de votre estimation annuelle en MWh.

n

s=s12+s22++s12212×n
Matteo
la source
1

Je voudrais souligner encore une fois l’inexactitude de la réponse acceptée. Le libellé de la question prête à confusion.

La question a Moyenne et StdDev de chaque mois, mais on ignore quel type de sous-ensemble est utilisé. Est-ce la moyenne d'une éolienne de toute la ferme ou la moyenne journalière de toute la ferme? Si c'est la moyenne journalière pour chaque mois, vous ne pouvez pas additionner la moyenne mensuelle pour obtenir la moyenne annuelle car ils n'ont pas le même dénominateur. Si c'est la moyenne de l'unité, la question devrait indiquer

On peut dire que chaque année, chaque éolienne du parc éolien produit 10 358 MWh, ...

Au lieu de

On peut dire que le parc éolien produit en moyenne 10 358 MWh par an, ...

De plus, l' écart-type ou variance est la comparaison avec la moyenne de l'ensemble. Il ne contient aucune information concernant la moyenne de l'ensemble.

Exemple de variance

L'image n'est pas forcément très correcte mais elle traduit l'idée générale. Imaginons la sortie d'un parc éolien comme dans l'image. Comme vous pouvez le constater, la variance "locale" n’a rien à voir avec la variance "globale", peu importe comment vous les ajoutez ou les multipliez. Vous ne pouvez pas prédire la variance de l'année avec une variance de 2 semestres. Ainsi, dans la réponse acceptée, alors que le calcul de la somme est correct, la division par 12 pour obtenir le nombre mensuel ne signifie rien. . Sur les trois sections, la première et la dernière section sont erronées, la seconde est correcte.

Encore une fois, c'est une très mauvaise application, veuillez ne pas la suivre sinon cela vous causerait des ennuis. Juste calculé pour le tout, en utilisant la sortie totale annuelle / mensuelle de chaque unité comme points de données, selon que vous souhaitiez un nombre annuel ou mensuel, cela devrait être la bonne réponse. Vous voulez probablement quelque chose comme ça. Ce sont mes nombres générés aléatoirement. Si vous avez les données, le résultat dans la cellule O2 devrait être votre réponse.

entrez la description de l'image ici

Tam Le
la source
Merci beaucoup pour l'image qui m'a beaucoup aidé à comprendre pourquoi la réponse acceptée est incomplète et peut même être fausse. Vous l'avez très bien expliqué, merci!
Kay
Cela montre le danger de voter. Les personnes qui votent sont celles qui ne connaissent pas la réponse. Par opposition à la codification, les personnes qui votent sont celles qui font fonctionner le code, plus le vote est élevé, meilleure est la réponse. Pour les statistiques / mathématiques, plus de votes signifie seulement que c'est plus attrayant.
Tam Le