Comment définir une région de rejet lorsqu'il n'y a pas d'UMP?

13

Considérons le modèle de régression linéaire

y=Xβ+u ,

uN(0,σ2I) ,

E(uX)=0 .

Soit vs .H 1 : σ 2 0σ 2H0:σ02=σ2H1:σ02σ2

On peut en déduire que , où . Et est la notation typique de la matrice de l'annihilateur, , où est la variable dépendante régressé sur .Dim(X)=n×kMXMXy= y y yXyTMXyσ2χ2(nk)dim(X)=n×kMXMXy=y^y^yX

Le livre que je lis déclare ce qui suit: entrez la description de l'image ici

J'ai déjà demandé quels critères utiliser pour définir une région de rejet (RR), voir les réponses à cette question , et la principale était de choisir le RR qui a rendu le test le plus puissant possible.

Dans ce cas, l'alternative étant une hypothèse composite bilatérale, il n'y a généralement pas de test UMP. De plus, par la réponse donnée dans le livre, les auteurs ne montrent pas s'ils ont fait une étude de la puissance de leur RR. Néanmoins, ils ont choisi un RR à deux queues. Pourquoi, puisque l'hypothèse ne détermine pas «unilatéralement» le RR?

Edit: Cette image est dans le manuel de solution de ce livre comme solution pour l'exercice 4.14.

Un vieil homme dans la mer.
la source
Veuillez ajouter une référence au livre. Connexes: valeur P dans un test bilatéral avec distribution nulle asymétrique .
Scortchi - Réintégrer Monica
@Scortchi merci pour le lien. Puis-je vous poser une question sur cette question? Trouvez-vous cela intéressant? J'essaie d'évaluer si je fais des questions intéressantes, ou si je dois orienter mes intérêts vers d'autres domaines ...
Un vieil homme dans la mer.
Bien sûr, tout le monde ne trouve pas la théorie intéressante, mais certaines personnes le font (y compris moi) et nous avons presque 2k qs étiquetésmathematical-statistics . Donc, un bon q. OMI. C'est un peu large mais je pense qu'une bonne réponse passerait en revue diverses approches et considérations, et un exemple motivant aide beaucoup. (J'aurais choisi un exemple aussi simple que possible - des tests sur la variance d'une distribution normale avec une moyenne connue, ou la moyenne d'une distribution exponentielle.) [BTW J'oublie souvent de voter sur qs quand je les commente .]
Scortchi - Réintégrer Monica
@Scortchi merci pour vos commentaires. Parfois, je ne suis pas sûr de bien structurer la question, car je suis moi-même en train d'étudier cela.
Un vieil homme dans la mer.
2
Vous devez définirMX
Taylor

Réponses:

7

Il est plus facile de commencer par étudier le cas où les coefficients de régression sont connus et l'hypothèse nulle donc simple. Alors la statistique suffisante est , où est le résiduel; sa distribution sous le zéro est également un chi carré mis à l'échelle par & avec des degrés de liberté égaux à la taille de l'échantillon . z σ 2 0 nT=z2zσ02n

Notez le rapport des probabilités sous & et confirmez que c'est une fonction croissante de pour tout : σ = σ 2 T σ 2 > σ 1σ=σ1σ=σ2Tσ2>σ1

La fonction du rapport de vraisemblance log est , et directement proportionnelle à avec un gradient positif lorsque .Tσ2>σ1

(σ2;T,n)(σ1;T,n)=n2[log(σ12σ22)+Tn(1σ121σ22)]
Tσ2>σ1

Ainsi, selon le théorème de Karlin-Rubin, chacun des tests vs & vs est uniformément le plus puissant. Il n'y a clairement pas de test UMP de contre . Comme discuté ici , effectuer les deux tests unilatéraux et appliquer une correction de comparaisons multiples conduit au test couramment utilisé avec des régions de rejet de taille égale dans les deux queues, et c'est tout à fait raisonnable lorsque vous allez prétendre que ou que lorsque vous rejetez le null.H A : σ < σ 0 H 0 : σ = σ 0 H A : σ < σ 0 H 0 : σ = σ 0 H A : σ σ 0 σ > σ 0 σ < σ 0H0:σ=σ0HA:σ<σ0H0:σ=σ0HA:σ<σ0H0:σ=σ0HA:σσ0σ>σ0σ<σ0

Trouvez ensuite le rapport des probabilités sous , l'estimation de la probabilité maximale de , & : σ σ = σ 0σ=σ^σσ=σ0

Comme , la statistique de test du rapport de vraisemblance log estσ^2=Tn

(σ^;T,n)(σ0;T,n)=n2[log(nσ02T)+Tnσ021]

Il s'agit d'une statistique fine pour quantifier dans quelle mesure les données prennent en charge sur . Et les intervalles de confiance formés en inversant le test du rapport de vraisemblance ont la propriété intéressante que toutes les valeurs de paramètres à l'intérieur de l'intervalle ont une probabilité plus élevée que celles à l'extérieur. La distribution asymptotique de deux fois le rapport log-vraisemblance est bien connue, mais pour un test exact, vous n'avez pas besoin d'essayer de déterminer sa distribution - utilisez simplement les probabilités de queue des valeurs correspondantes de dans chaque queue.HA:σσ0H0:σ=σ0T

Si vous ne pouvez pas avoir un test uniformément le plus puissant, vous voudrez peut-être celui qui est le plus puissant contre les alternatives les plus proches de la valeur nulle. Trouvez la dérivée de la fonction log-vraisemblance par rapport à - la fonction score:σ

d(σ;T,n)dσ=Tσ3nσ

L'évaluation de son amplitude à donne un test localement le plus puissant de vs . Parce que la statistique de test est limitée ci-dessous, avec de petits échantillons, la région de rejet peut être confinée à la queue supérieure. Encore une fois, la distribution asymptotique du score au carré est bien connue, mais vous pouvez obtenir un test exact de la même manière que pour le TLR.σ0H0:σ=σ0HA:σσ0

Une autre approche consiste à limiter votre attention aux tests impartiaux, à savoir ceux pour lesquels la puissance sous n'importe quelle alternative dépasse la taille. Vérifiez que votre statistique suffisante a une distribution dans la famille exponentielle; alors pour un test de taille , si ou , sinon , vous pouvez trouver le test sans biais le plus puissant en résolvant αϕ(T)=1T<c1T>c2ϕ(T)=0

E(ϕ(T))=αE(Tϕ(T))=αET

Un graphique permet de montrer le biais dans le test des zones de queue égales et comment il se produit:

Graphique de puissance du test par rapport aux alternatives

Aux valeurs de un peu plus de la probabilité accrue que les statistiques de test tombent dans le rejet de rejet de la queue supérieure ne compense pas la probabilité réduite de sa chute dans la région de rejet de la queue inférieure et la puissance de la test tombe en dessous de sa taille.σσ0

Être impartial est bon; mais il ne va pas de soi qu'avoir une puissance légèrement inférieure à la taille sur une petite région de l'espace des paramètres au sein de l'alternative est si mauvais qu'il exclut complètement un test.

Deux des tests bilatéraux ci-dessus coïncident (dans ce cas, pas en général):

Le LRT est UMP parmi les tests non biaisés. Dans les cas où cela n'est pas vrai, le TLR peut toujours être asymptotiquement impartial.

Je pense que tous, même les tests unilatéraux, sont admissibles, c'est-à-dire qu'il n'y a pas de test plus puissant ou aussi puissant sous toutes les alternatives - vous ne pouvez rendre le test plus puissant contre les alternatives dans un sens qu'en le rendant moins puissant contre les alternatives dans l'autre direction. Au fur et à mesure que la taille de l'échantillon augmente, la distribution du chi carré devient de plus en plus symétrique, et tous les tests bilatéraux finiront par être sensiblement les mêmes (une autre raison d'utiliser le test simple à queue égale).

Avec l'hypothèse nulle composite, les arguments deviennent un peu plus compliqués, mais je pense que vous pouvez obtenir pratiquement les mêmes résultats, mutatis mutandis. Notez que l'un mais pas l'autre des tests unilatéraux est UMP!

Scortchi - Réintégrer Monica
la source
Merci Scortchi pour votre réponse. J'ai encore quelques doutes, cependant. Premièrement, pourriez-vous élaborer un peu plus sur la phrase suivante? «Appliquer une correction de comparaisons multiples conduit au test couramment utilisé avec des régions de rejet de taille égale dans les deux queues, et c'est tout à fait raisonnable lorsque vous allez prétendre que σ> σ0 ou que σ <σ0 lorsque vous rejetez le null.» Aussi pourquoi dites-vous que c'est raisonnable? Je pense que c'est le cœur de ma question si je ne me trompe pas. ;)
Un vieil homme dans la mer.
J'ai lu ce paragraphe de votre réponse liée, mais je ne l'ai pas bien compris «Le doublement de la valeur p unilatérale la plus basse peut être considéré comme une correction de comparaisons multiples pour effectuer deux tests unilatéraux.» Je vous serais reconnaissant de bien vouloir l'expliquer un peu plus. ;)
Un vieil homme dans la mer.
Voir correction de Bonferroni . Si vous effectuez deux tests de taille distincts, l' erreur de type I au niveau de la famille n'est pas supérieure à , et lorsque les régions de rejet sont disjointes, c'est exactement . Je voulais souligner que le test des zones de queue égales peut être vu de cette façon parce que les gens semblent parfois penser que les seules raisons de l'utiliser sont la facilité de calcul et l'approximation des autres tests. En fait, chaque test a sa propre logique: je ne dirais donc pas que c'était le cœur de votre question; c'est une question de chevaux pour les cours. α αα/2αα
Scortchi - Réintégrer Monica
1

Dans ce cas, l'alternative étant une hypothèse composite bilatérale, il n'y a généralement pas de test UMP.

Je ne sais pas si c'est vrai en général. Certes, beaucoup de résultats classiques (Neymon-Pearson, Karlin-Rubin) sont basés sur une hypothèse simple ou unilatérale, mais il existe des généralisations à l'hypothèse composite bilatérale. Vous pouvez trouver quelques notes à ce sujet ici , et plus de discussion dans le manuel ici .

Pour votre problème en particulier, je ne sais pas si un test UMP existe ou non. Mais intuitivement, il semble que sous une perte de 0-1, un test unilatéral sera probablement inadmissible, et donc la classe de test admissible sera tous les tests bilatéraux. Donner la classe de tests bilatéraux, le but est de trouver celui avec la plus grande puissance, ce qui devrait se produire automatiquement en choisissant des quantiles autour du mode unique du . (Tout cela est basé sur l'intuition).χ2

Greenparker
la source
3
Il n'y a clairement pas de test uniformément le plus puissant dans ce cas en raison de l'existence de différents tests les plus puissants contre des alternatives particulières dans des directions différentes de . Pour un «meilleur» test défini en termes de puissance, vous devez rechercher le test uniformément le plus puissant de tous les tests non biaisés ou de tous les tests invariants ; ou pour un test localement le plus puissant; ou quelque chose comme ça - et peut-être finir par se contenter d'un test admissible. σ0
Scortchi - Réintégrer Monica