Pourquoi le chi carré est-il utilisé lors de la création d'un intervalle de confiance pour la variance?

15

C'est une question très fondamentale. Pourquoi utilisons-nous une distribution chi carré? Quelle est la signification de cette distribution? Pourquoi cette distribution est-elle utilisée pour créer un intervalle de confiance pour la variance?

Chaque endroit où je cherche une explication sur google présente ce fait, expliquant quand utiliser le chi, mais sans expliquer pourquoi utilise et pourquoi il ressemble à ça.

Un grand merci à tous ceux qui peuvent m'orienter dans la bonne direction et c'est vraiment comprendre pourquoi j'utilise le chi lorsque je crée un intervalle de confiance pour la variance.

nafrtiti
la source
4
Vous l'utilisez car - lorsque les données sont normales - . (Cela fait deQune quantité cruciale)Q=(n-1)s2σ2χn-12Q
Glen_b -Reinstate Monica
2
Voir aussi stats.stackexchange.com/questions/15711/… et ses liens.
Nick Cox
1
Pour ceux qui sont intéressés par les applications de ou d' autres recherches sur , vous voulez faire attention à la distinction entre un χ 2 ( « chi-carré ») la distribution et une χ distribution ( « chi ») (il est le racine carrée d'un χ 2 , sans surprise). χ2χ2χχ2
whuber

Réponses:

23

Réponse rapide

La raison en est que, en supposant que les données sont iid et , et en définissant ˉ XXiN(μ,σ2) lors de la formation des intervalles de confiance, la distribution d'échantillonnage associée à la variance de l'échantillon (S2, rappelez-vous, une variable aléatoire!) Est une distribution du chi carré (S2(N-1)/σ2χ2n-1), tout comme la distribution d'échantillonnage associée à la moyenne de l'échantillon est une distribution normale standard ((ˉX-μ)

X¯=NXiNS2=N(X¯Xi)2N1
S2S2(N1)/σ2χn12) quand vous connaissez la variance, et avec un t-étudiant quand vous ne le savez pas (( ˉ X -μ)(X¯μ)n/σZ(0,1)(X¯μ)n/STn1 ).

Longue réponse

Tout d'abord, nous allons prouver que suit une distribution khi carré avec N - 1S2(N1)/σ2N1 degrés de liberté. Après cela, nous verrons comment cette preuve est utile lors de la dérivation des intervalles de confiance pour la variance, et comment la distribution du chi carré apparaît (et pourquoi elle est si utile!). Commençons.

La preuve

Pour cela, vous devez peut-être vous habituer à la distribution du chi carré dans cet article Wikipedia . Cette distribution n'a qu'un seul paramètre: les degrés de liberté, , et se trouve avoir une fonction de génération de moment (MGF) donnée par: m χ 2 ν ( t ) = ( 1 - 2 t ) - 1ν Si nous pouvons montrer que la distribution de S 2 (N-1) / σ 2 a une fonction de génération de moment comme celle-ci, mais avecν

mχν2(t)=(12t)ν/2.
S2(N1)/σ2, nous avons alors montré que S 2 ( N - 1 ) / σ 2 suit une distribution khi carré avec N - 1 degrés de liberté. Pour le montrer, notez deux faits:ν=N1S2(N1)/σ2N1
  1. Si nous définissons, Z

    Y=(XiX¯)2σ2=Zi2,
    , c'est-à-dire les variables aléatoires normales standard, la fonction de génération de moment de Y est donnée par m Y ( t )ZiN(0,1)Y La MGF deZ2est donnée par m Z 2 ( t )
    mY(t)=E[etY]=E[etZ12]×E[etZ22]×...E[etZN2]=mZi2(t)×mZ22(t)×...mZN2(t).
    Z2
    mZ2(t)=f(z)exp(tz2)dz=(12t)1/2,
    où j'ai utilisé le PDF de la norme normale, et, par conséquent, mY(t)=(1-2tf(z)=ez2/2/2π ce quiimplique que Y suit une distribution chi carré avec N degrés de liberté.
    mY(t)=(12t)N/2,
    YN
  2. Si et Y 2 sont indépendants et se répartissent chacun sous la forme d'une distribution chi carré mais avec ν 1 et ν 2 degrés de liberté, alors W = YY1Y2ν1ν2W=Y1+Oui2ν1+ν2W

N-1

(N1)S2=n(X¯μ)+(Xiμ)2,
σ2
(N-1)S2σ2+(X¯-μ)2σ2/N=(Xje-μ)2σ2.
NS2(N-1)/σ2N-1

Calcul de l'intervalle de confiance pour la variance.

L1L2

P(L1σ2L2)=1-α.
S2(N-1)
L1S2(N-1)σ2S2(N-1)L2S2(N-1).
S2(N-1)/σ2N-1
L1S2(N1)σ2S2(N1)S2(N1)σ2S2(N1)L1,σ2S2(N1)L2S2(N1)S2(N1)L2S2(N1)σ2,
P(S2(N1)L2S2(N1)σ2S2(N1)L1)=1α.
S2(N1)/σ2χ2(N1)
S2(N1)L2N1pχ2(x)dx=(1α)/2   ,N1S2(N1)L1pχ2(x)dx=(1α)/2  
(we integrate up to N1 because the expected value of a chi-squared random variable with N1 degrees of freedom is N1) or, equivalently,
0S2(N1)L2pχ2(x)dx=α/2,S2(N1)L1pχ2(x)dx=α/2.
Calling χα/22=S2(N1)L2 and χ1α/22=S2(N1)L1, where the values χα/22 and χ1α/22 can be found in chi-square tables (in computers mainly!) and solving for L1 and L2,
L1=S2(N1)χ1α/22,L2=S2(N1)χα/22.
Hence, your confidence interval for the variance is
C.I.=(S2(N1)χ1α/22,S2(N1)χα/22).
Néstor
la source
1
Simply because S2 does not follow a centered chi-square distribution, while S2(N1)/σ2 does and, therefore, its easier to work with. Are you asking for a derivation for that? (i.e., you want someone to show you that S2(N1)/σ2 follows a chi-square distribution with N1 degrees of freedom?)
Néstor
4
Il serait utile de modifier cette réponse pour inclure l' hypothèse très forte mais non affirmée que la variance de l'échantillon suit une distribution khi-deux lorsque les données sous-jacentes sont indépendantes et suivent une distribution normale . Contrairement à la théorie de la distribution de la moyenne de l'échantillon, où en pratique sa distribution d'échantillonnage sera approximativement de précision Normale à raisonnable dans de nombreuses situations, ce même comportement asymptotique a tendance à ne pas se produire avec la variance de l'échantillon (jusqu'à ce que la taille des échantillons devienne extrêmement grande).
whuber
1
Oops. So, so true! This actually came from a problem solution that I handed out to some students, where I state on the question all these assumptions. I edited the answer now.
Néstor
1
@user34756 The reason we don't use the distribution of S2 directly is that its distribution depends on the value of a parameter. You may find it useful to investigate the use of pivotal quantities in constructing confidence intervals.
Glen_b -Reinstate Monica
1
Isn't f(z)=ez2/2 instead of f(z)=ez2 ?
Benoît Legat