Pourquoi l'écart-type est-il défini comme le carré de la variance et non comme le carré de la somme des carrés sur N?

16

Aujourd'hui, j'ai enseigné une classe d'introduction à la statistique et un étudiant m'a posé une question que je reformule ici: "Pourquoi l'écart type est-il défini comme le carré de la variance et non comme le carré de la somme des carrés sur N?"

Nous définissons la variance de la population: σ2=1N(xiμ)2

Et écart type: σ=σ2=1N(xiμ)2 .

L'interprétation que nous pouvons donner à σ est qu'il donne l'écart moyen des unités de la population de la moyenne de la population de X .

Cependant, dans la définition du sd, nous divisons le sqrt de la somme des carrés par N . L'élève pose la question de savoir pourquoi nous ne divisons pas le carré du volume des carrés parNplace. On arrive ainsi à la formule concurrente:

σnew=1N(xiμ)2.
L'élève a soutenu que cette formule ressemble davantage à un écart «moyen» de la moyenne qu'à la division parN comme dansσ.

Je pensais que cette question n'était pas stupide. Je voudrais donner une réponse à l'étudiant qui va plus loin que de dire que le sd est défini comme sqrt de la variance qui est la déviation quadratique moyenne. Autrement dit, pourquoi l'élève devrait-elle utiliser la bonne formule et ne pas suivre son idée?

Cette question concerne un fil plus ancien et les réponses fournies ici . Les réponses vont dans trois directions:

  1. σ est la déviation quadratique moyenne (RMS), et non la déviation "typique" de la moyenne (c'est-à-dire,σnew ). Ainsi, il est défini différemment.
  2. Il a de belles propriétés mathématiques.
  3. De plus, le sqrt ramènerait les "unités" à leur échelle d'origine. Cependant, ce serait également le cas pour σnew , qui se divise par N place.

Les deux points 1 et 2 sont des arguments en faveur du sd comme RMS, mais je ne vois pas d'argument contre l'utilisation de σnew . Quels seraient les bons arguments pour convaincre les élèves du niveau d'introduction de l'utilisation de la distance RMS moyenne σ de la moyenne?

tomka
la source
2
Je pense que la question même "Pourquoi l'écart-type est défini comme ..." est difficile à répondre. Les définitions ne sont que des conventions d'étiquetage arbitraires. Ils n'ont pas à se conformer au pourquoi .
ttnphns
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Serait-ce que ce qui se trouve à l'intérieur des parenthèses s'est en quelque sorte perdu dans la question?
ttnphns
1
Mais sd sert une série d'objectifs; il doit y avoir une meilleure motivation que celle définie comme ça. Cela serait utile, en particulier pour enseigner aux étudiants de premier cycle. Je peux imaginer une motivation dans le sens de l'inégalité de Tchebychev (min. De proportion de cas dans le domaine de +/- un facteur constant de sd).
tomka
2
Je ne peux pas répondre parce que votre Q est en attente, mais essayez ceci: Imaginez que vous observez les valeurs 1 et 3 dans des proportions à peu près égales (jetez une pièce, H=3 , T=1 ). Une «distance typique» des observations à partir de la moyenne devrait être quelque chose comme 1. Avec votreSSE/nformule, considérons ce qui arrive à cette mesure de distance typique pourntrès, très grand. Dans chaque cas|xix¯|sera proche de 1, donc leur somme de carrés sera proche den. Le numérateur sera proche den pour que votre formule devienne de plus en plus petite à mesure quenaugmente, même si la distance typique de la moyenne ne change pas.
Glen_b -Reinstate Monica
1
@whuber J'ai fait une autre mise à jour et j'espère que le point que je soulève est plus clair maintenant. Remarque Je demande ici des conseils pédagogiques en plus de poser une question sur les fondements de la statistique. Je ne suggère pas une formule alternative, mais j'ai donné un exemple tiré d'une situation en classe d'une bonne question d'un élève à laquelle je n'avais pas de réponse immédiate. Si vous êtes d'accord, je vous prie de bien vouloir suspendre la question maintenant.
tomka

Réponses:

12

Il y a au moins trois problèmes de base qui peuvent être facilement expliqués aux débutants:

  1. La «nouvelle» SD n'est même pas définie pour des populations infinies. (On pourrait le déclarer toujours égal à zéro dans de tels cas, mais cela ne le rendrait pas plus utile.)

  2. La nouvelle SD ne se comporte pas comme une moyenne devrait le faire avec un échantillonnage aléatoire.

  3. Bien que la nouvelle SD puisse être utilisée avec toute la rigueur mathématique pour évaluer les écarts par rapport à une moyenne (dans les échantillons et les populations finies), son interprétation est inutilement compliquée.

1. L'applicabilité de la nouvelle SD est limitée

Le point (1) pourrait être rappelé, même à ceux qui ne connaissent pas l'intégration, en soulignant que, comme la variance est clairement une moyenne arithmétique (des écarts au carré), elle a une extension utile aux modèles de populations "infinies" pour lesquels la l'intuition de l'existence d'une moyenne arithmétique est toujours valable. Par conséquent, sa racine carrée - la SD habituelle - est parfaitement bien définie dans de tels cas également, et tout aussi utile dans son rôle de (réexpression non linéaire) d'une variance. Cependant, la nouvelle SD divise cette moyenne par le grand arbitraire , rendant problématique sa généralisation au-delà des populations finies et des échantillons finis: que faut-il1/N être pris pour égal dans de tels cas?1/N

2. Le nouveau SD n'est pas une moyenne

Toute statistique digne du nom «moyenne» devrait avoir la propriété de converger vers la valeur de la population à mesure que la taille d'un échantillon aléatoire de la population augmente. Tout multiple fixe de SD aurait cette propriété, car le multiplicateur s'appliquerait à la fois au calcul de l'échantillon SD et de la population SD. (Bien qu'elle ne contredit pas directement l'argument avancé par Alecos Papadopoulos, cette observation suggère que l'argument n'est que tangentiel aux vrais problèmes.) Cependant, la "nouvelle" SD, étant égale à fois l'habituel, converge évidemment vers0dans tous les cas à mesure que la taille de l'échantillonNaugmente. Par conséquent,bien que pour toute taille d'échantillon fixeN,la nouvelle SD (interprétée de manière appropriée) soit une mesure de variation parfaitement adéquate autour de la moyenne,elle ne peut pas à juste titre être considérée comme unemesureuniverselleapplicable, avec la même interprétation, pour toutes les tailles d'échantillon, et elle ne peut pas non plus correctement être appelé une «moyenne» dans tout sens utile.1/N0NN

3. La nouvelle SD est compliquée à interpréter et à utiliser

Envisagez de prélever des échantillons de (disons) taille . La nouvelle SD dans ces cas est 1 / N=4fois l'habituel SD. Il bénéficie donc d'interprétations comparables, comme un analogue de la règle 68-95-99 (environ 68% des données devraient se situer dansdeuxnouvelles SD de la moyenne, 95% d'entre elles dansquatrenouvelles SD de la moyenne,etc.; et les versions des inégalités classiques telles que celles de Chebychev (pas plus de1/k2des données peuvent se trouver à plus de2knouveaux SD de leur moyenne); et le théorème de la limite centrale peut être reformulé de manière analogue en termes de nouveau SD (on divise par1/N=1/21/k22k fois la nouvelle SD afin de standardiser la variable). Ainsi, dans ce sens spécifique et clairement contraint,il n'y a rien de mal à la proposition de l'étudiant. La difficulté, cependant, est que ces énoncés contiennent tous - de manière très explicite - des facteurs deN. Bien qu'il n'y ait aucun problème mathématique inhérent à cela, cela complique certainement les déclarations et l'interprétation des lois les plus fondamentales de la statistique.N=2


Il est à noter que Gauss et d'autres ont à l'origine paramétré la distribution gaussienne par , en utilisant efficacement2σ fois la SD pour quantifier la propagation d'une variable aléatoire normale. Cette utilisation historique démontre la pertinence et l'efficacité de l'utilisation d'autresmultiplesfixesde la SD à sa place.2

whuber
la source
Merci - une question de retour (concernant votre point 2): est-ce que ne converge pas vers0lorsqueNgrandit, alors que11N0N évidemment? 1N
tomka
2
Nous comparons la SD de l'échantillon à fois la SD de l'échantillon (la "nouvelle SD"). À mesure queNgrandit, l'écart-type de l'échantillon se rapproche d'uneconstante(généralement) non nulleégale à l'écart-type de la population. Donc1/1/NN fois l'échantillon SD converge vers zéro. 1/N
whuber
C'est du matériel standard - consultez n'importe quel manuel rigoureux de statistiques mathématiques (qui, pour être honnête, ne serait pas accessible à la plupart des débutants). Cependant, les résultats importants pour ma réponse découlent d'une déclaration plus faible et intuitivement évidente. Fixons un nombre et soit σ la population SD. Considérez la chance que l'échantillon SD se situe entre σ / A et A σ . Il suffit que cette chance passe à zéro lorsque la taille de l'échantillon N augmente. Cela montre à lui seul que 1 / A>1σσ/AAσN1/N times the sample SD converges to 0 almost surely, demonstrating point (2) in the answer.
whuber
+1, plus it is not scale-invariant etc, (a condition necessary for a moment of this form)
Nikos M.
@Nikos Thank you, but what is not scale invariant? Both SD/N and SD change when the data are rescaled.
whuber
5

Assume that your sample contains only two realizations. I guess an intuitive measure of dispersion would be the average absolute deviation (AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

So we would want other measures of dispersion at the same level of units of measurement to be "close" to the above.

The sample variance is defined as

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call it q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

SDσ2=|x1x2|2=AAD

Since we want to "stay as close as possible" to the intuitive measure, we should use SD.

ADDENDUM
Let's consider now a sample of size n We have

nAAD=i=1n|xix¯|

and

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

we can write the right-hand side of the variance expression as

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

Then the dispersion measure qn will be

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

Now think informally: note that ji|xix¯||xjx¯| contains n2n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2: this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

Continuing are informal thinking, the first term gives us n "terms in the 2nd power", while the second term gives us n1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any n, as well as for the case when n.

Alecos Papadopoulos
la source
1
Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).
whuber
2
@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!
Alecos Papadopoulos