Aujourd'hui, j'ai enseigné une classe d'introduction à la statistique et un étudiant m'a posé une question que je reformule ici: "Pourquoi l'écart type est-il défini comme le carré de la variance et non comme le carré de la somme des carrés sur N?"
Nous définissons la variance de la population:
Et écart type: .
L'interprétation que nous pouvons donner à est qu'il donne l'écart moyen des unités de la population de la moyenne de la population de .
Cependant, dans la définition du sd, nous divisons le sqrt de la somme des carrés par . L'élève pose la question de savoir pourquoi nous ne divisons pas le carré du volume des carrés parplace. On arrive ainsi à la formule concurrente:
Je pensais que cette question n'était pas stupide. Je voudrais donner une réponse à l'étudiant qui va plus loin que de dire que le sd est défini comme sqrt de la variance qui est la déviation quadratique moyenne. Autrement dit, pourquoi l'élève devrait-elle utiliser la bonne formule et ne pas suivre son idée?
Cette question concerne un fil plus ancien et les réponses fournies ici . Les réponses vont dans trois directions:
- est la déviation quadratique moyenne (RMS), et non la déviation "typique" de la moyenne (c'est-à-dire, ). Ainsi, il est défini différemment.
- Il a de belles propriétés mathématiques.
- De plus, le sqrt ramènerait les "unités" à leur échelle d'origine. Cependant, ce serait également le cas pour , qui se divise par place.
Les deux points 1 et 2 sont des arguments en faveur du sd comme RMS, mais je ne vois pas d'argument contre l'utilisation de . Quels seraient les bons arguments pour convaincre les élèves du niveau d'introduction de l'utilisation de la distance RMS moyenne de la moyenne?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Serait-ce que ce qui se trouve à l'intérieur des parenthèses s'est en quelque sorte perdu dans la question?Réponses:
Il y a au moins trois problèmes de base qui peuvent être facilement expliqués aux débutants:
La «nouvelle» SD n'est même pas définie pour des populations infinies. (On pourrait le déclarer toujours égal à zéro dans de tels cas, mais cela ne le rendrait pas plus utile.)
La nouvelle SD ne se comporte pas comme une moyenne devrait le faire avec un échantillonnage aléatoire.
Bien que la nouvelle SD puisse être utilisée avec toute la rigueur mathématique pour évaluer les écarts par rapport à une moyenne (dans les échantillons et les populations finies), son interprétation est inutilement compliquée.
1. L'applicabilité de la nouvelle SD est limitée
Le point (1) pourrait être rappelé, même à ceux qui ne connaissent pas l'intégration, en soulignant que, comme la variance est clairement une moyenne arithmétique (des écarts au carré), elle a une extension utile aux modèles de populations "infinies" pour lesquels la l'intuition de l'existence d'une moyenne arithmétique est toujours valable. Par conséquent, sa racine carrée - la SD habituelle - est parfaitement bien définie dans de tels cas également, et tout aussi utile dans son rôle de (réexpression non linéaire) d'une variance. Cependant, la nouvelle SD divise cette moyenne par le grand arbitraire , rendant problématique sa généralisation au-delà des populations finies et des échantillons finis: que faut-il1/ √N−−√ être pris pour égal dans de tels cas?1/N−−√
2. Le nouveau SD n'est pas une moyenne
Toute statistique digne du nom «moyenne» devrait avoir la propriété de converger vers la valeur de la population à mesure que la taille d'un échantillon aléatoire de la population augmente. Tout multiple fixe de SD aurait cette propriété, car le multiplicateur s'appliquerait à la fois au calcul de l'échantillon SD et de la population SD. (Bien qu'elle ne contredit pas directement l'argument avancé par Alecos Papadopoulos, cette observation suggère que l'argument n'est que tangentiel aux vrais problèmes.) Cependant, la "nouvelle" SD, étant égale à fois l'habituel, converge évidemment vers0dans tous les cas à mesure que la taille de l'échantillonNaugmente. Par conséquent,bien que pour toute taille d'échantillon fixeN,la nouvelle SD (interprétée de manière appropriée) soit une mesure de variation parfaitement adéquate autour de la moyenne,elle ne peut pas à juste titre être considérée comme unemesureuniverselleapplicable, avec la même interprétation, pour toutes les tailles d'échantillon, et elle ne peut pas non plus correctement être appelé une «moyenne» dans tout sens utile.1/N−−√ 0 N N
3. La nouvelle SD est compliquée à interpréter et à utiliser
Envisagez de prélever des échantillons de (disons) taille . La nouvelle SD dans ces cas est 1 / √N=4 fois l'habituel SD. Il bénéficie donc d'interprétations comparables, comme un analogue de la règle 68-95-99 (environ 68% des données devraient se situer dansdeuxnouvelles SD de la moyenne, 95% d'entre elles dansquatrenouvelles SD de la moyenne,etc.; et les versions des inégalités classiques telles que celles de Chebychev (pas plus de1/k2des données peuvent se trouver à plus de2knouveaux SD de leur moyenne); et le théorème de la limite centrale peut être reformulé de manière analogue en termes de nouveau SD (on divise par √1/N−−√=1/2 1/k2 2k fois la nouvelle SD afin de standardiser la variable). Ainsi, dans ce sens spécifique et clairement contraint,il n'y a rien de mal à la proposition de l'étudiant. La difficulté, cependant, est que ces énoncés contiennent tous - de manière très explicite - des facteurs de √N−−√ . Bien qu'il n'y ait aucun problème mathématique inhérent à cela, cela complique certainement les déclarations et l'interprétation des lois les plus fondamentales de la statistique.N−−√=2
Il est à noter que Gauss et d'autres ont à l'origine paramétré la distribution gaussienne par , en utilisant efficacement √2–√σ fois la SD pour quantifier la propagation d'une variable aléatoire normale. Cette utilisation historique démontre la pertinence et l'efficacité de l'utilisation d'autresmultiplesfixesde la SD à sa place.2–√
la source
Assume that your sample contains only two realizations. I guess an intuitive measure of dispersion would be the average absolute deviation (AAD)
So we would want other measures of dispersion at the same level of units of measurement to be "close" to the above.
The sample variance is defined as
To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call itq
i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,
Since we want to "stay as close as possible" to the intuitive measure, we should useSD .
ADDENDUMn We have
Let's consider now a sample of size
and
we can write the right-hand side of the variance expression as
Then the dispersion measureqn will be
Now think informally: note that∑j≠i|xi−x¯||xj−x¯| contains n2−n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2 : this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be
Continuing are informal thinking, the first term gives usn "terms in the 2nd power", while the second term gives us n−1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.n , as well as for the case when n→∞ .
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any
la source