Le rejet de l'hypothèse utilisant la valeur p équivaut-il à une hypothèse n'appartenant pas à l'intervalle de confiance?

29

Tout en dérivant formellement l'intervalle de confiance d'une estimation, je me suis retrouvé avec une formule qui ressemble de très près à la façon dont la valeur de est calculée.p

D'où la question: sont-ils formellement équivalents? Ie rejette une hypothèse avec une valeur critique équivalente à n'appartenant pas à l'intervalle de confiance avec une valeur critique ?H0=0α0α

Jorge Leitao
la source
2
@f coppens: oui, si deux tests sont utilisés, avec des statistiques différentes, vous vous retrouvez avec deux intervalles de confiance différents. Mais je pense que l'OP a découvert un fait fondamental: à la fois l'intervalle de confiance et la valeur p sont obtenus à partir de la distribution de la même statistique, de sorte que les deux peuvent être utilisés pour décider de rejeter l'hypothèse nulle ou non.
StijnDeVuyst
1
@StijnDeVuyst: L'intervalle Clopper / Pearon pour une proportion et l'intervalle Sterne pour une proportion sont tous deux dérivés de la distribution binomiale de même taille (le p est inconnu car ils trouvent un intervalle de confiance pour p). La différence entre Clopper / Pearson et Sterne est due à l'asymétrie de la densité binomiale. L'intervalle Sterne essaie de minimiser la largeur de l'intervalle et Clopper_pearson essaie de garder la symétrie (mais en raison de l'asymétrie du binôme, cela ne peut être trouvé qu'approximativement).
6
Pas en général, non. Considérons les cas où la largeur de l'intervalle est fonction de la valeur estimée du paramètre, tandis que pour le test, la largeur de l'intervalle est fonction de l'hypothèse. Un exemple évident serait de tester un binôme p. Utilisons la normale d'env. pour plus de simplicité (bien que la forme de l'argument ne repose pas sur elle). Considérons n = 10 et un nul de p = 0,5. Imaginez observer 2 têtes; le nul n'est pas rejeté (parce que "2" est à l'intérieur d'un intervalle de 95% environ 0,5) mais le CI pour p n'inclut pas 0,5 (parce que le CI est plus étroit que la largeur de l'intervalle sous le nul.
Glen_b -Reinstate Monica
4
Ou si vous avez besoin qu'il soit suffisamment grand pour que la normale approximative soit bonne, essayez 469 têtes en 1000 lancers, pour H0 p = 0,5; encore une fois, l'IC à 95% pour p n'inclut pas 0,5 mais le test à 5% ne rejette pas, car la largeur d'intervalle correspondante sous H0 est plus large que sous l'alternative (c'est de cela que vous faites l'IC à partir).
Glen_b -Reinstate Monica
4
@Glen_b: Il semble que cette nouvelle question stats.stackexchange.com/questions/173005 donne un exemple de la situation que vous décriviez ici.
amibe dit Réintégrer Monica le

Réponses:

32

Oui et non.

D'abord le "oui"

Ce que vous avez observé, c'est que lorsqu'un test et un intervalle de confiance sont basés sur la même statistique, il y a une équivalence entre eux: on peut interpréter la valeur comme la plus petite valeur de α pour laquelle la valeur nulle du paramètre serait être inclus dans l' intervalle de confiance 1 - α .pα1α

Soit un paramètre inconnu dans l'espace des paramètres Θ R , et que l'échantillon x = ( x 1 , , x n ) X nR n soit une réalisation de la variable aléatoire X = ( X 1 , , X n ) . Pour simplifier, définir un intervalle de confiance I α ( X ) comme un intervalle aléatoire tel que sa probabilité de couverture P θθΘRx=(x1,,xn)XnRnX=(X1,,Xn)Iα(X) (Vous pouvez également considérer des intervalles plus généraux, où la probabilité de couverture est limitée par ou approximativement égale à 1 - α . Le raisonnement est analogue.)

Pθ(θIα(X))=1αfor all α(0,1).
1α

Considérons un test bilatéral de l'hypothèse ponctuelle nulle contre l'alternative H 1 ( θ 0 ) : θ θ 0 . Soit λ ( θ 0 , x ) la valeur de p du test. Pour tout α ( 0 , 1 ) , H 0 ( θ 0 ) est rejeté au niveau α siH0(θ0):θ=θ0H1(θ0):θθ0λ(θ0,x)α(0,1)H0(θ0)α . Larégion de rejet deniveau α est l'ensemble de x qui conduit au rejet de H 0 ( θ 0 ) : R α ( θ 0 ) = { xR n : λ ( θ 0 , x ) α } .λ(θ0,x)αα xH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

Considérons maintenant une famille de tests bilatéraux avec des valeurs de p , pour θ Θ . Pour une telle famille, nous pouvons définir une région de rejet inversée Q α ( x ) = { θ Θ : λ ( θ , x ) α } .λ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

Pour tout fixe , H 0 ( θ 0 ) est rejeté si xR α ( θ 0 ) , ce qui se produit si et seulement si θ 0Q α ( x ) , c'est-à-dire xR α ( θ 0 ) θ 0Q α ( x ) . Si le test est basé sur une statistique de test avec une distribution nulle absolument continue complètement spécifiée, alorsθ0H0(θ0)xRα(θ0)θ0Qα(x)

xRα(θ0)θ0Qα(x).
sous H 0 ( θ 0 ) . Alors P θ 0 ( XR α ( θ 0 ) ) = P θ 0 ( λ ( θ 0 , X ) α ) = α . Puisque cette équation est valable pour tout θ 0Θλ(θ0,X)U(0,1)H0(θ0)
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α.
θ0Θet puisque l'équation ci-dessus implique que il s'ensuit que l'ensemble aléatoire Q α ( x ) couvre toujours le vrai paramètre θ 0 avec probabilité α . Par conséquent, en laissant Q C α ( x ) désigner le complément de Q
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
Qα(x)θ0αQαC(x) , pour tout θ 0Θ nous avons P θ 0 ( θ 0Q C α ( X ) ) = 1 - α , ce qui signifie que le complément de la région de rejet inversé est unintervalle de confiance 1 - α pour θ .Qα(x)θ0Θ
Pθ0(θ0QαC(X))=1α,
1αθ

zθx¯σ=1H0(θ)(x¯,θ)R0.05(0.9)=(,1.52)(0.281,)I0.05(1/2)=Q0.05C(1/2)=(0.120,1.120)entrez la description de l'image ici

(Une grande partie de cela est tirée de ma thèse de doctorat .)

Maintenant pour le "non"

θX

Ce phénomène est lié à des problèmes liés à l'imbrication de tels intervalles, ce qui signifie que l'intervalle de 94% peut être plus court que l'intervalle de 95%. Pour en savoir plus à ce sujet, voir la section 2.5 de mon récent article (à paraître dans Bernoulli).

Et un deuxième "non"

θ0=0

Et parfois "oui" n'est pas une bonne chose

Comme l'a souligné f coppens dans un commentaire, les intervalles et les tests ont parfois des objectifs quelque peu contradictoires. Nous voulons des intervalles courts et des tests avec une puissance élevée, mais l'intervalle le plus court ne correspond pas toujours au test avec la puissance la plus élevée. Pour quelques exemples de cela, voir cet article (distribution normale multivariée), ou ceci (distribution exponentielle), ou la section 4 de ma thèse .

Les Bayésiens peuvent aussi dire oui et non

Il y a quelques années, j'ai posé ici une question sur la question de savoir si une équivalence d'intervalle de test existe également dans les statistiques bayésiennes. La réponse courte est qu'en utilisant le test d'hypothèse bayésienne standard, la réponse est "non". En reformulant un peu le problème des tests, la réponse peut cependant être «oui». (Mes tentatives pour répondre à ma propre question se sont finalement transformées en papier !)

MånsT
la source
2
Bonne réponse (+1) et (vous le faites partiellement), il peut être bon de souligner que parfois les intervalles de confiance et les tests d'hypothèse ont des objectifs (potentiellement) contradictoires: on essaie de trouver un intervalle de confiance `` aussi petit que possible '' tout en pour tester les hypothèses, on essaie de trouver une région critique «aussi puissante que possible».
@fcoppens: Merci pour la suggestion! J'ai mis à jour ma réponse avec quelques lignes à ce sujet.
MånsT
Bonne thèse! Avez-vous également travaillé sur l'intervalle Sterne?
@fcoppens: Oui, j'ai fait un peu de travail à l'intervalle Sterne, principalement dans cet article
MånsT
7
T1=(p^p)/p^(1p^)/nT2=(p^p)/p(1p)/n
2

αα

Björn
la source