L'utilisation de l'écart-type repose-t-elle sur l'hypothèse d'une distribution normale?

10

Je me demande si l'écart-type a toujours été construit sur l'hypothèse d'une distribution normale. En d'autres termes, si l'échantillon n'est pas distribué normalement, l'utilisation de l'écart-type doit-elle être considérée comme une erreur?

Dougal
la source
3
Une distribution uniforme a un écart type, comment cela pourrait-il être une "erreur"?

Réponses:

18

Non. L'utilisation de l'écart-type ne suppose pas la normalité.

La variance d'une variable aléatoire est définie comme . Tant que la variance existe, l'écart type existe également. L'écart type est la racine carrée de la variance.Var(X)=E[(X-E[X])2]

Vous pouvez utiliser la variance ou l'écart-type chaque fois que les deux existent. L'écart apparaît dans d'innombrables situations.Var(X)

Il y a des théorèmes spéciaux, des lemmes etc ... mais pour le cas spécial où suit la distribution normale.X

Une utilisation courante de l'écart-type qui dépend de la normalité:

Si suit la distribution normale, il y a alors une probabilité d'environ 95% que X tombe dans les deux écarts-types de la moyenne.XX

Cette affirmation est vraie si suit la distribution normale (et plusieurs autres) mais ce n'est pas vrai en général.X

Une utilisation courante de la variance qui ne dépend pas de la normalité:

Soit une variable aléatoire avec une moyenne E [ X ] = μ et une variance Var ( X ) = σ 2 . Définir X i pour i = 1 , ... , n comme des variables aléatoires indépendantes, chacune après la distribution identique à X .XE[X]=μVar(X)=σ2Xjeje=1,,nX

Définissez la moyenne de l'échantillon sur la base de observations: ˉ X n = 1n

X¯n=1nje=1nXje

D'après le théorème de la limite centrale, converge vers une variable aléatoire normalement distribuée de moyenne μ et de variance σ 2X¯nμ . (Plus précisémentσ2n converge en distribution versN(0,σ2)commen.)n(X¯n-μ)N(0,σ2)n

L'implication pratique est que la moyenne de l'échantillon pour les grands n peut être traitée comme une variable aléatoire normalement distribuée dont la variance σ 2X¯nn est une fonction de la variance deX. (RappelVar(X)=σ2.) Et ce résultat ne nécessite pas queXsoit normal. (Il faut cependant unninférieurpour bien fonctionner siXest plus proche dans un certain sens de la distribution normale.)σ2nXVar(X)=σ2XnX

Le théorème de la limite centrale est un outil omniprésent qui utilise la variance de et n'a pas besoin de X pour suivre la distribution normale.XX

Matthew Gunn
la source
4
L'inégalité de Chebyshev n'est pas spécifique à la variance: une version tout aussi utile existe pour chaque moment absolu avec une puissance supérieure à . Je suggérerais donc de chercher ailleurs les raisons pour lesquelles le DS est important et (presque) universel, comme le rôle unique joué par la variance dans le théorème de limite centrale. 1
whuber
@whuber Ouais, j'avais commencé à écrire un exemple CLT (et maintenant je l'ai ajouté). Le CLT est une raison extrêmement pratique de se soucier de la variance.
Matthew Gunn
1
+1. Mais notez que bien que la variance (avec la moyenne) donne une description complète dans le cas normal, pour la distribution non normale, cela pourrait ne plus être le cas, et d'autres d3scripteurs des données pourraient être beaucoup mieux
kjetil b halvorsen
2

S2σ^ML2Vuner[Xje]

Zen
la source