Pourquoi prenons-nous la racine carrée de la variance pour créer un écart-type?

26

Désolé si cela a été répondu ailleurs, je n'ai pas pu le trouver.

Je me demande pourquoi nous prenons la racine carrée , en particulier, de la variance pour créer l'écart type? De quoi s'agit-il de prendre la racine carrée qui produit une valeur utile?

Dave
la source
Étroitement liés: stats.stackexchange.com/questions/35123/…
Sycorax dit de rétablir Monica
2
Considérez l'écart-type comme une norme vectorielle euclidienne, puis la variance comme le carré. Cette définition de la variance et de l'écart-type se révèle avoir des propriétés analytiques utiles.
theideasmith

Réponses:

44

Dans un certain sens, c'est une question banale, mais dans un autre, elle est en fait assez profonde!

  • Comme d' autres l' ont mentionné, la racine carrée implique a les mêmes unités que .Stdev(X)X

  • En prenant la racine carrée vous donne une homogénéité absolue aka l' évolutivité absolue . Pour toute variable scalaire et aléatoire , nous avons: L'homogénéité absolue est une propriété requise d'une norme . L'écart type peut être interprété comme une norme (sur l'espace vectoriel de variables aléatoires moyennes nulles) de la même manière que est la norme euclidienne standard dans une dimension tridimensionnelle. espace. L'écart type est une mesure de la distance entre une variable aléatoire et sa moyenne.αX

    Stdev[αX]=|α|Stdev[X]
    x2+y2+z2

Écart type et normeL2

Cas de dimension finie:

Dans un espace vectoriel à dimensions, la norme euclidienne standard alias la norme est définie comme:nL2

x2=ixi2

Plus largement, la -norm prend la ème racine pour obtenir l'absolu homogénéité: .p xp=(i|xi|p)1ppαxp=(i|αxi|p)1p=|α|(i|xi|p)1p=|α|xp

Si vous avez des poids la somme pondérée est également une norme valide. De plus, c'est l'écart type si représente des probabilités etqiixi2qiqiE[x]ixiqi=0

Cas de dimension infinie:

Dans un espace de Hilbert de dimension infinie, nous pouvons également définir la norme :L2

X2=ωX(ω)2dP(ω)

Si est une variable aléatoire moyenne nulle et est la mesure de probabilité, quel est l'écart type? C'est la même chose: .XPωX(ω)2dP(ω)

Sommaire:

Prendre la racine carrée signifie que l'écart-type satisfait l'homogénéité absolue , une propriété requise d'une norme .

Sur un espace de variables aléatoires, est un produit interne et le norme induite par ce produit intérieur . Ainsi, l'écart-type est la norme d'une variable aléatoire dégradée: C'est une mesure de la distance à la moyenne à .X,Y=E[XY]X 2 = X2=E[X2] Stdev[X]=X-E[X]2E

Stdev[X]=XE[X]2
E[X]X

(Point technique: alors que est une norme, l'écart-type n'est pas une norme sur les variables aléatoires en général car une exigence pour un espace vectoriel normé est si et seulement si . Un écart type de 0 ne fait pas ' t implique que la variable aléatoire est l'élément zéro.)E[X2]E[(XE[X])2]x=0x=0x=0x=0

Matthew Gunn
la source
1
Cette réponse est vraiment au cœur du problème, ce qui la rend plus informative que celle actuellement acceptée.
00prometheus
26

La variance de est définie comme , il s'agit donc d'une attente d'une différence au carré entre X et sa valeur attendue.XV(X)=E(XE(X))2

Si est temps en secondes, est en secondes, mais est dans et est de nouveau en secondes.XXE(X)V(X)seconds2V(X)

HStamper
la source
Ah je vois, c'est juste annuler le changement d'échelle qui résultait de la quadrature des différences, dans le calcul de la variance?
Dave
11
À droite - mais changez de dimensions , pas d'échelle.
Jean-François Corbett
Mais ce n'est pas comme s'il y avait un seul terme: il y en a plusieurs et chacun au pouvoir 2, apporte plus ou moins que d'autres termes. Mais quand nous prenons la racine carrée, nous négligeons en quelque sorte cette différence, n'est-ce pas? Nous n'obtiendrions pas le numérateur initial, somme de toutes les différences de cette façon. Ne serait-il pas préférable de prendre une racine carrée de chaque terme individuel?
parsecer
On dirait que vous pensez à l'estimation , basée sur un échantillon. Dans ce cas, si vous le faisiez, les différences seraient nulles: . V^i=1n(xix¯)=i=1nxii=1nxi=0
HStamper
@EricMittman Sauf que , pas , auquel cas vous obtiendrez l' erreur absolue moyenne . unea2=|a|a
Dougal
6

La réponse simple est que les unités sont à la même échelle que la moyenne. Exemple: j'estime que la moyenne des élèves du secondaire est de 160 cm avec un écart-type (ET) de 20 cm. Il est intuitivement plus facile de se faire une idée de la variation avec le SD que de la variance de 400 cm ^ 2.

Optimiste
la source
0

En termes plus simples, l'écart-type est conçu pour nous donner un nombre positif qui en dit long sur la diffusion de nos données à propos de sa moyenne.

Si nous devions simplement additionner les distances de tous les points à la moyenne, alors les points dans les directions positive et négative se combineraient d'une manière qui aurait tendance à revenir vers la moyenne et nous perdrions des informations sur la propagation. C'est pourquoi nous mesurons d'abord la variance, de sorte que toutes les distances soient préservées en tant que quantités positives via la quadrature et qu'elles ne s'annulent pas. En fin de compte, nous voulons une valeur positive qui représente les unités avec lesquelles nous avons commencé - cela a déjà été commenté ci-dessus - nous prenons donc la racine carrée positive.

DC_Beardly
la source
-3

C'est une stupidité historique que nous continuons en raison de la paresse intellectuelle. Ils ont choisi de quadriller les différences par rapport à la moyenne afin de se débarrasser du signe moins. Ensuite, ils ont pris la racine carrée pour la porter à une échelle similaire à la moyenne.

Quelqu'un devrait générer de nouvelles statistiques, calculer la variance et l'écart-type en utilisant un module ou des valeurs absolues de déviance par rapport à la moyenne. Cela permettrait de se débarrasser de toute cette quadrature et de prendre ensuite l'entreprise racine carrée.

Asir Ajmal
la source
1
Nous l'avons déjà, sous la forme de l'écart absolu moyen (ou médian), des normes L1, etc. Cependant, le principal avantage de l'approche traditionnelle est que, contrairement aux valeurs absolues, elle est différenciable, ce qui vous permet de minimiser et de maximiser analytiquement les choses.
Matt Krause
1
Vous ne fournissez pas de justification substantielle de votre position, veuillez fournir un argument mathématique clairement présenté. La somme des valeurs absolues est très différente de la racine carrée de la somme des carrés. Ce dernier met l'accent sur la contribution des valeurs extrêmes, qui est une propriété utile. De plus, SSQ est au cœur des méthodes analytiques des moindres carrés. Veuillez prendre le temps de développer les problèmes de développement durable et de comparer les alternatives afin que les lecteurs puissent comprendre votre point de vue. .
ReneBt
(-1) Il est trop facile de lire des expressions comme «stupidité historique» et «paresse intellectuelle» comme étant auto-référentielles.
whuber