La question que je veux poser est la suivante: comment la proportion d'échantillons à moins de 1 écart-type de la moyenne d'une distribution normale varie-t-elle à mesure que le nombre de variables augmente?
(Presque) tout le monde sait que dans une distribution normale unidimensionnelle, 68% des échantillons se trouvent dans un écart-type de la moyenne. Et en 2, 3, 4, ... dimensions? Je sais que ça devient moins ... mais de combien (précisément)? Il serait pratique d'avoir un tableau montrant les chiffres pour 1, 2, 3 ... 10 dimensions, ainsi que 1, 2, 3 ... 10 SD. Quelqu'un peut-il pointer vers une telle table?
Un peu plus de contexte - j'ai un capteur qui fournit des données sur jusqu'à 128 canaux. Chaque canal est soumis à un bruit électrique (indépendant). Lorsque je sens un objet d'étalonnage, je peux faire la moyenne d'un nombre suffisant de mesures et obtenir une valeur moyenne sur les 128 canaux, ainsi que 128 écarts-types individuels.
MAIS ... en ce qui concerne les lectures instantanées individuelles, les données ne répondent pas autant à 128 lectures individuelles qu'à une seule lecture d'une quantité vectorielle (jusqu'à) 128 dimensonales. C'est certainement la meilleure façon de traiter les quelques lectures critiques que nous prenons (généralement 4-6 sur 128).
Je veux avoir une idée de ce qui est une variation "normale" et de ce qui est "aberrant" dans cet espace vectoriel. Je suis sûr d'avoir vu un tableau comme celui que j'ai décrit qui s'appliquerait à ce genre de situation - quelqu'un peut-il en indiquer un?
Réponses:
Prenons : chaque X i est N normal ( 0 , 1 ) et les X i sont indépendants - je suppose que c'est ce que vous voulez dire avec des dimensions plus élevées.X=(X1,…,Xd)∼N(0,I) Xi N(0,1) Xi
Vous diriez que est à 1 sd près de la moyenne lorsque | | X | | < 1 (la distance entre X et sa valeur moyenne est inférieure à 1). Maintenant | | X | | 2 = X 2 1 + ⋯ + X 2 d ∼ χ 2 ( d ) donc cela se produit avec la probabilité P ( ξ < 1 ) où ξ ∼ χ 2 ( d )X ||X||<1 ||X||2=X21+⋯+X2d∼χ2(d) P(ξ<1) ξ∼χ2(d) . Vous pouvez le trouver dans de bonnes tables carrées chi ...
Voici quelques valeurs:
Et pour 2 sd:
Vous pouvez obtenir ces valeurs dans R avec commads comme
pchisq(1,df=1:10)
,pchisq(4,df=1:10)
, etc.Post Scriptum Comme l'a souligné le cardinal dans les commentaires, on peut estimer le comportement asymptotique de ces probabilités. Le CDF d'une variable est F dχ2(d)
oùγ(s,y)=∫y0ts-1e-tdt
Lorsque est un entier, une intégration répétée par parties montre que P ( s , y ) = e - y ∞ ∑ k = s y ks
qui est la queue du CDF de la distribution de Poisson.
Or cette somme est dominée par son premier terme (merci beaucoup au cardinal): pour les grandss. On peut l'appliquer lorsquedest pair: P(ξ<x)=P(d/2,x/2)∼1P(s,y)∼yss!e−y s d
pour les grandsdpairs, l'avant-dernière équivalence en utilisant la formule de Stirling. De cette formule, nous voyons que la décroissance asymptotique est très rapide lorsquedaugmente.
la source