Tests d'hypothèses. Pourquoi centrer la distribution d'échantillonnage sur H0?

9

Une valeur de p est la probabilité d'obtenir une statistique au moins aussi extrême que celle observée dans les données d'échantillon en supposant que l'hypothèse nulle ( ) est vraie.H0

Graphiquement, cela correspond à l'aire définie par la statistique de l'échantillon sous la distribution d'échantillonnage que l'on obtiendrait en supposant :H0

centre h0

Cependant, parce que la forme de cette distribution supposée est en fait basée sur les données de l'échantillon, le centrer sur me semble un choix étrange. Si l'on devait plutôt utiliser la distribution d'échantillonnage de la statistique, c'est-à-dire centrer la distribution sur la statistique de l'échantillon, alors le test d'hypothèse correspondrait à l'estimation de la probabilité de compte tenu des échantillons.μ0
μ0

centre h1

Dans ce cas, la valeur de p est la probabilité d'obtenir une statistique au moins aussi extrême que compte tenu des données au lieu de la définition ci-dessus.μ0

De plus, une telle interprétation a l'avantage de bien correspondre au concept d'intervalles de confiance:
un test d'hypothèse avec un niveau de signification équivaudrait à vérifier si situe dans l' intervalle de confiance de la distribution d'échantillonnage.αμ0(1α)

CI2 95

Je pense donc que centrer la distribution sur pourrait être une complication inutile. Y a-t-il des justifications importantes pour cette étape que je n'ai pas considérées?μ0

matti
la source
2
Veuillez nous dire quelle sera la distribution d'échantillonnage si vous ne supposez pas . (Réponse: vous ne pouvez pas, sauf dans les exemples de manuels où l'hypothèse alternative spécifie une distribution unique.)H0
whuber
Je ne sais pas si je comprends bien la demande, mais dans l'exemple ci-dessus, ce serait la distribution d'échantillonnage de la moyenne. J'ai maintenant ajouté un chiffre à la question qui montre cette distribution avec un intervalle de confiance à 95% / zone qui devrait également aider à illustrer la relation avec les intervalles de confiance.
matti
2
Vous n'avez aucun moyen de connaître la distribution d'échantillonnage de la moyenne. Pour le savoir, vous devez connaître la vraie moyenne: mais c'est précisément la quantité que vous essayez de tester! Votre logique est complètement circulaire.
whuber
1
J'ai compris que c'était votre sens. En général, tant que vous ne connaissez pas - ou ne supposez pas - les vrais paramètres de la distribution, vous ne pouvez connaître la distribution d'aucune propriété de l'échantillon. (En fait, si vous pouviez déduire la distribution de n'importe quelle propriété d'échantillon sans supposer la connaissance des paramètres, ce serait la preuve qu'elle ne vous donne aucune information sur les paramètres!)
whuber
1
Je ne peux pas, car il semble que vous n'utilisez pas de termes comme «moyenne», «estimée» ou même «H0» dans leur sens statistique habituel. Je suis complètement perdu pour comprendre même quelle est votre question. La seule chose qui est claire est qu'elle repose sur une mauvaise compréhension du test d'hypothèse nulle, mais vos réponses à mes commentaires n'ont fourni aucune indication utile de ce que pourrait être ce malentendu.
whuber

Réponses:

5

Supposons que est un échantillon tiré d'une distribution normale avec une moyenne inconnue et une variance connue . L'échantillon moyen est donc normal avec la moyenne et la variance . Sur ce point, je pense qu'il ne peut y avoir aucune possibilité de désaccord.X=(X1,X2,,Xn)μσ2X¯μσ2/n

Maintenant, vous proposez que notre statistique de test soit Droite? MAIS CE N'EST PAS UNE STATISTIQUE . Pourquoi? Parce que est un paramètre inconnu . Une statistique est une fonction de l'échantillon qui ne dépend d'aucun paramètre inconnu. Par conséquent, une hypothèse doit être faite à propos de pour que soit une statistique. Une telle hypothèse consiste à écrire sous lequel qui est une statistique.

Z=X¯μσ/nNormal(0,1).
μμZ
H0:μ=μ0,vs.H1:μμ0,
ZH0=X¯μ0σ/nNormal(0,1),

En revanche, vous proposez d'utiliser lui-même. Dans ce cas, identique, et ce n'est même pas une variable aléatoire, encore moins distribuée normalement. Il n'y a rien à tester.μ=X¯Z=0

heropup
la source
1
Je vous remercie. C'est très simple et maintenant je me demande vraiment comment j'aurais pu manquer ça avant. Tout ce qui serait laissé comme excuse pour le deuxième cas présenté est de s'appuyer sur le calcul de l'intervalle de confiance. Cependant, comme la marge d'erreur y est explicitement ajoutée / soustraite de l'estimation moyenne ou ponctuelle, l'utilisation de cette estimation devient une étape qui devrait être justifiée.
matti
12

Cependant, comme la forme de cette distribution supposée est en fait basée sur les données de l'échantillon, le centrer sur H0 me semble un choix étrange.

Ce n'est en fait pas vrai. La forme de cette distribution supposée vient de l'acceptation de comme vrai.H0L'échantillon n'est pas directement impliqué dans cela, sauf par certaines hypothèses.Utiliser directement l'échantillon n'est pas suffisant. Vous avez également besoin de l'hypothèse nulle pour tenir.

Si l'on devait plutôt utiliser la distribution d'échantillonnage de la statistique, c'est-à-dire centrer la distribution sur la statistique de l'échantillon, le test d'hypothèse correspondrait à l'estimation de la probabilité de H0 compte tenu des échantillons.

La question est: comment estimez-vous la probabilité de quelque chose que vous supposez être vrai. Dans notre cas, si vous supposez que est vrai, il est vain d'essayer d'estimer la probabilité que soit vrai.H0H0

Je pense donc que centrer la distribution sur H0 est une complication inutile.

Vous n'avez pas deux distributions là-bas, il n'y en a qu'une, celle supposée être votre vérité fondamentale, alias celle qui vient avec . Il existe cependant une distribution d'échantillonnage dérivée de l'échantillon, mais celle-ci n'est pas impliquée dans les hypothèses que vous utilisez.H0

Un bon exercice serait d'essayer de reproduire la même logique avec une distribution asymétrique. Prenez la distribution du chi carré comme dans le test d'indépendance du chi carré. Pouvez-vous le reproduire? Je pense que la réponse est non.

rapaio
la source
" Ce n'est en fait pas vrai. La forme de cette distribution supposée vient d'accepter H0 comme vrai. L'échantillon n'est pas directement impliqué dans cela, sauf par certaines hypothèses. " Mais dans le cas du test t pour un échantillon présenté ci-dessus, le la statistique de test inclut le SEM et la moyenne de l'échantillon et dépend donc des données de l'échantillon. De plus, les degrés de liberté qui déterminent la hauteur des queues dépendent de la taille de l'échantillon.
t=x¯μ0sn
matti
1
Ma formulation était trompeuse. J'essayais de dire que vous pouvez utiliser toutes les informations dont vous disposez, également l'échantillon lui-même, mais ce n'est pas suffisant. Pour évaluer les valeurs de p et avoir une distribution, vous devez également supposer l'hypothèse nulle. Je reformule aussi dans le post.
rapaio
1
... Prenons par exemple votre formule pour , elle utilise dont je suppose qu'elle est la valeur de l'hypothèse nulletμ0H0:μ=μ0
rapaio
2

D'après ce que je comprends, vous soutenez qu'il est plus logique de «retourner» et .H0H1

Je trouve utile de considérer le test d'hypothèse comme une preuve par contradiction. Nous supposons que est vrai, puis montrons que les preuves indiquent qu'une telle hypothèse est erronée, justifiant ainsi le rejet de en faveur de .H0H0H1

Cela fonctionne parce que lorsque nous supposons H0et centrer notre distribution là-bas, nous pouvons déterminer la probabilité / improbabilité de notre observation. Par exemple, siH0:μ=0 contre. H1:μ0 et nous déterminons à partir de nos tests qu'il y a moins de 5% de chances que la vraie moyenne μ est en fait égal à 0, nous pouvons rejeter H0 avec une confiance de 95%.

L'inverse n'est pas nécessairement vrai. Disons que nous faisons une expérience et déterminons qu'il y a en fait 30% de chances que l'hypothèse nulle soit toujours valable. Nous ne pouvons pas rejeter la nullité, mais nous ne l’acceptons pas non plus . Cette situation ne montre pas queH0 (le nul) est vrai, mais que nous n'avons pas les preuves pour prouver qu'il est faux.

Imaginez maintenant si nous renversions cette situation. Disons que nous supposonsH1 et constater que, compte tenu de nos résultats, la probabilité de H0est de 5% ou moins, qu'est-ce que cela signifie? Bien sûr, nous pouvons rejeter le nul, mais pouvons-nous nécessairement accepterH1? Il est difficile de justifier l'acceptation de ce que nous pensions être vrai au début.

Montrant cela H0est faux n'est pas le résultat que nous recherchons; nous voulons plaider en faveur deH1. En faisant le test de la manière que vous décrivez, nous montrons que nous n'avons pas de preuves pour dire queH1 est faux, ce qui est subtilement différent de l'argument H1 est vrai.

Bryan Goggin
la source
Étant donné que le test d'hypothèse ne nous permet pas d'éliminer complètement l'incertitude, je ne le verrais pas comme une preuve . Je n'ai peut-être pas suffisamment expliqué mon point de vue, mais je demande essentiellement une raison logique plutôt que sémantique de déplacer la distribution d'échantillonnage versH0.
matti
Et en général, H1 est assez vague (mu! = 0), ce qui rend les calculs de vraisemblance problématiques. Bien que je suppose que c'est souvent une bonne incitation pour les gens à devenir bayésiens. :)
Hao Ye