Test du chi carré à deux échantillons

10

Cette question est extraite du livre de Van der Vaart Asymptotic Statistics, p. 253. # 3:

Supposons que et sont des vecteurs multinomiaux indépendants avec des paramètres et . Sous l'hypothèse nulle que montre queXmYn(m,a1,,ak)(n,b1,,bk)ai=bi

i=1k(Xm,imc^i)2mc^i+i=1k(Yn,inc^i)2nc^i
a la . où .χk12c^i=(Xm,i+Yn,i)/(m+n)

J'ai besoin d'aide pour commencer. Quelle est la stratégie ici? J'ai pu combiner les deux sommets en:

i=1k(mYn,inXm,i)2mn(m+n)c^i

mais cela ne fonctionnera pas avec le CLT car c'est une combinaison pondérée de et . Je ne sais pas si c'est le bon chemin. Aucune suggestion?XmYn

EDIT: si alors c'est assez facile parce que nous obtenonsm=n

mYnnXmmn(m+n)=YnXm(m+n)

où le numérateur peut être vu comme une somme de différences de variables multinomiales afin que nous puissions appliquer CLT puis le terminer avec le théorème 17.2 de ce même chapitre. Cependant, je ne peux pas comprendre comment faire en sorte que cela fonctionne dans cette situation avec différentes tailles d'échantillon. De l'aide?(1,a1,,ak)

Un lien vers le chapitre 17 de Google Livres de van der Vaart

bdeonovic
la source

Réponses:

6

D'abord une notation. Soit et la séquence catégorielle associée à et , c'est-à-dire . Soit . Considérez les binerisations où est le Delta de Kronecker. Nous avons donc{Xt}1,,m{Yt}1,,nXmYnPr{Xt=i}=ai,Pr{Yt=i}=biN=n+m

Xi=(X1,i,,XN,i)=(δi,X1,,δi,Xn,0,,0)Yi=(Y1,i,,YN,i)=(0,,0,δi,Y1,,δi,Yn)
δi,j1i=j
Xm,i=t=1NXt,i=t=1mδi,XtYn,i=t=1NYt,i=t=1nδi,Yt

Nous commençons maintenant la preuve. Nous combinons d'abord les deux sommets de la statistique de test. Notez que Nous pouvons donc écrire la statistique de test comme

Xm,imc^i=(n+m)Xm,im(Xm,i+Yn,i)n+m=nXm,imYn,in+mYn,inc^i=(n+m)Yn,in(Xm,i+Yn,i)n+m=mYn,inXm,in+m
S=i=1k(Xm,imc^i)2mc^i+i=1k(Yn,inc^i)2nc^i=i=1k(nXm,imYn,i)2(n+m)2mc^i+i=1k(nXm,imYn,i)2(n+m)2nc^i=i=1k(nXm,imYn,i)2nm(n+m)c^i

Notez ensuite que avec le propriétés suivantes

nXm,imYn,i=t=1NnXt,imYt,i=Zi
E[Zi]=nE[Xm,i]mE[Yn,i]=nmainmai=0Var[Zi]=Var[nXm,imYn,i]=n2Var[Xm,i]m2Var[Yn,i]Note Xm,i and Yn,i are independent=n2mai(1ai)+m2nai(1ai)=nm(n+m)ai(1ai)Cov[Zi,Zj]=E[ZiZj]E[Zi]E[Zj]=E[(nXm,imYn,i)(nXm,jmYn,j)]=n2(maiaj+m2aiaj)2n2m2aiaj+m2(naiaj+n2aiaj)=nm(n+m)aiaj

et donc par CLT multivarié, nous avons où le e élément de , . Puisque Par Slutsky, nous avons où est la matrice d'identité ,

1nm(n+m)Z=nXmmYnnm(n+m)DN(0,Σ)
(i,j)Σσij=ai(δijaj)c^=(c^1,,c^k)p(a1,,ak)=a
nXmmYnnm(n+m)c^DN(0,Ikaa)
Ikk×ka=(a1,,ak) . Puisque a la valeur propre 0 de multiplicité 1 et la valeur propre 1 de multiplicité , par le théorème de mappage continu (ou voir Lemme 17.1, Théorème 17.2 de van der Vaart) nous avonsIkaak1
i=1k(nXm,imYn,i)2nm(n+m)c^iDχk12
bdeonovic
la source