Si la distribution de la statistique de test est bimodale, la valeur p signifie-t-elle quelque chose?

12

La valeur P est définie comme la probabilité d'obtenir une statistique de test au moins aussi extrême que ce qui est observé, en supposant que l'hypothèse nulle est vraie. En d'autres termes,

P(Xt|H0)
Mais que se passe-t-il si la statistique de test est bimodale dans la distribution? la valeur p signifie-t-elle quelque chose dans ce contexte? Par exemple, je vais simuler des données bimodales dans R:
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

entrez la description de l'image ici

Et supposons que nous observons une valeur statistique de test de 60. Et ici, nous savons d'après l'image que cette valeur est très peu probable . Donc, idéalement, je voudrais une procédure statistique que j'utilise (disons, la valeur p) pour révéler cela. Mais si nous calculons la valeur de p telle que définie, nous obtenons une valeur de p assez élevée

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

Si je ne connaissais pas la distribution, je conclurais que ce que j'ai observé est simplement par hasard. Mais nous savons que ce n'est pas vrai.

Je suppose que la question que je me pose est la suivante: pourquoi, lors du calcul de la valeur de p, calculons-nous la probabilité des valeurs "au moins aussi extrêmes" que celles observées? Et si je rencontre une situation comme celle que j'ai simulée ci-dessus, quelle est la solution alternative?

Alby
la source
7
Bienvenue dans le monde merveilleux des tests de signification d'hypothèse nulle! Sérieusement: je ne peux honnêtement pas penser à une statistique de test qui a une distribution bimodale sous l'hypothèse nulle (qui est celle qui nous intéresse dans NHST). Donc +1 pour une question intéressante, mais je doute de sa pertinence pratique ... à moins que vous n'ayez un exemple précis en tête?
Stephan Kolassa
1
Je suis d'accord avec @StephanKolassa; il existe certainement des distributions de données bimodales, mais quelle est la statistique de test?
Peter Flom - Réintègre Monica
7
Je ne serais pas d'accord avec la caractérisation des valeurs de p suggérée par la première formule. Le sens correct de «au moins aussi extrême» dans la théorie de Neyman-Pearson est en termes de vraisemblance relative et non en termes de classement habituel des réels (comme indiqué dans la formule). Les deux sont équivalents dans de nombreuses situations de test standard mais diffèrent fortement lorsque la distribution d'échantillonnage est bimodale. Cette distinction résoudra donc la question de manière satisfaisante, je pense.
whuber
@whuber Pouvez-vous nous en dire un peu plus, peut-être avec un exemple simple?
Szabolcs
2
@Szabolcs Soit une distribution Beta et pour soit un mélange égal de et ( ). Le PDF de est uniforme tandis que le PDF de, disons, est bimodal avec des pics à . Supposons que . La région de rejet pour le test LR de vs compose de deux intervalles loin des extrêmes - un autour de ( de θ , θ ) θ 1 F θ ( x ) G θ ( x ) G θ ( - x ) x Gθ(θ,θ)θ1Fθ(x)Gθ(x)Gθ(x)x[1,1]F1F2±1/2XFθH0:XF1 HA:XF21 / 2 - 1 / 2 θ = 2±11/2et l'autre autour de parce que les preuves de sont les plus fortes. 1/2θ=2
whuber

Réponses:

5

Ce qui rend une statistique de test «extrême» dépend de votre alternative, qui impose un ordre (ou au moins un ordre partiel) sur l'espace d'échantillonnage - vous cherchez à rejeter les cas les plus cohérents (au sens où ils sont mesurés par une statistique de test) avec l'alternative.

Lorsque vous ne pas vraiment avoir une alternative pour vous donner quelque chose à un être plus compatible avec, vous êtes essentiellement à gauche avec la possibilité de donner l'ordre, le plus souvent vu dans le test exact de Fisher. Là, la probabilité des résultats (les tableaux 2x2) sous les ordres nuls la statistique de test (de sorte que «extrême» est «faible probabilité»).

Si vous étiez dans une situation où l'extrême gauche (ou l'extrême droite, ou les deux) de votre distribution nulle bimodale était associée au type d'alternative qui vous intéressait, vous ne chercheriez pas à rejeter une statistique de test de 60. Mais si vous êtes dans une situation où vous n'avez pas d'alternative comme celle-là, alors 60 est inhabituel - il y a peu de chances; une valeur de 60 est incompatible avec votre modèle et vous conduirait à rejeter.

[Certains considéreraient cela comme une différence centrale entre les tests d'hypothèse de Fisherian et de Neyman-Pearson. En introduisant une alternative explicite et un rapport de probabilités, une faible probabilité sous le zéro ne vous obligera pas nécessairement à rejeter dans un cadre Neyman-Pearson (tant qu'il fonctionne relativement bien par rapport à l'alternative), tandis que pour Fisher, vous n'avez pas vraiment d'alternative, et la probabilité sous le zéro est la chose qui vous intéresse.]

Je ne suggère pas que l'une ou l'autre approche soit bonne ou mauvaise ici - vous allez de l'avant et déterminez vous-même le type d'alternatives contre lesquelles vous recherchez le pouvoir, que ce soit une approche spécifique, ou tout ce qui est assez improbable sous le nul. Une fois que vous savez ce que vous voulez, le reste (y compris ce que signifie «au moins aussi extrême») en découle à peu près.

Glen_b -Reinstate Monica
la source