Valeur de p dans un test bilatéral avec distribution nulle asymétrique

Ma situation est la suivante: je veux, à travers une étude de Monte-Carlo, comparer les valeurs de de deux tests différents pour la signification statistique d'un paramètre estimé (null est "aucun effet - le paramètre est nul", et l' alternative implicite est " paramètre n'est pas nul "). Le test A est le "test t indépendant à deux échantillons standard pour l'égalité des moyennes" , avec des variances égales sous le zéro. $p$

Test B Je me suis construit. Ici, la distribution nulle utilisée est une distribution discrète générique asymétrique . Mais j'ai trouvé le commentaire suivant dans Rohatgi & Saleh (2001, 2nd ed, p. 462)

"Si la distribution n'est pas symétrique, la valeur n'est pas bien définie dans le cas bilatéral, bien que de nombreux auteurs recommandent de doubler la valeur unilatérale " $p$ $p$ .

Les auteurs n'en discutent pas davantage et ne commentent pas la "suggestion de nombreux auteurs" de doubler la valeur unilatérale . (Cela crée la question «doubler la valeur de quel côté? Et pourquoi ce côté et pas l'autre?) $p$ $p$

Je n'ai pu trouver aucun autre commentaire, opinion ou résultat sur toute cette affaire. Je comprends qu'avec une distribution asymétrique bien que l'on puisse considérer un intervalle symétrique autour de l'hypothèse nulle en ce qui concerne la valeur du paramètre, on n'aura pas la deuxième symétrie habituelle, celle de l'allocation de masse de probabilité. Mais je ne comprends pas pourquoi cela rend la valeur de "pas bien définie". Personnellement, en utilisant un intervalle symétrique autour de l'hypothèse nulle pour les valeurs de l'estimateur je ne vois aucune définition $p$ problème de dire "la probabilité que la distribution nulle produise des valeurs égales aux limites de, ou en dehors de cet intervalle est XX". Le fait que la masse de probabilité d'un côté sera différente de la masse de probabilité de l'autre côté ne semble pas causer de problèmes, du moins pour mes besoins. Mais il est plutôt plus probable qu'improbable que Rohatgi & Saleh savent quelque chose que je ne sais pas.

Voici donc ma question: dans quel sens la valeur est (ou peut être) "pas bien définie" dans le cas d'un test bilatéral lorsque la distribution nulle n'est pas symétrique? $p$

Une note peut-être importante: j'aborde la question davantage dans un esprit pêcheur, je n'essaie pas d'obtenir une règle de décision stricte au sens de Neyman-Pearson. Je laisse à l'utilisateur du test le soin d' utiliser les informations de valeur côté de toute autre information pour faire des inférences. $p$

hypothesis-testing p-value Alecos Papadopoulos
la source

En plus des approches basées sur la vraisemblance ("Fisherian") et LR (NP), une autre méthode considère comment obtenir des intervalles de confiance courts et les utilise pour les tests d'hypothèses. Cela se fait dans l'esprit de la théorie de la décision (et en utilisant ses méthodes), où la longueur est incluse dans la fonction de perte. Pour les distributions symétriques unimodales de la statistique de test, les intervalles les plus courts possibles sont évidemment obtenus en utilisant des intervalles symétriques (essentiellement "doubler la valeur de p" des tests unilatéraux). Les intervalles les plus courts dépendent du paramétrage: ils ne peuvent donc pas être Fisherian.

whuber

Je me demandais si les réponses publiées ici seraient également applicables aux distributions bêta. Merci.

JLT

@JLT: Oui, pourquoi pas?

Scortchi - Réintégrer Monica

Réponses:

Si nous regardons le test exact 2x2, et considérons que c'est notre approche, ce qui est "plus extrême" pourrait être directement mesuré par la "probabilité plus faible". (Agresti [1] mentionne un certain nombre d'approches de divers auteurs pour calculer deux valeurs de p à queue uniquement pour ce cas du test exact de Fisher 2x2, dont cette approche est l'une des trois spécifiquement discutées comme «les plus populaires».)

Pour une distribution continue (unimodale), vous trouvez simplement le point dans l'autre queue avec la même densité que votre valeur d'échantillon, et tout avec une probabilité égale ou inférieure dans l'autre queue est compté dans votre calcul de la valeur de p.

Pour les distributions discrètes qui sont monotones non croissantes dans les queues, c'est à peu près aussi simple. Vous comptez tout avec une probabilité égale ou inférieure à celle de votre échantillon, ce qui, étant donné les hypothèses que j'ai ajoutées (pour que le terme "queues" corresponde à l'idée), donne un moyen de le résoudre.

Si vous êtes familier avec les intervalles HPD (et encore une fois, nous avons affaire à l'unimodalité), c'est essentiellement comme prendre tout en dehors d'un intervalle HPD ouvert qui est limité d'une seule queue par votre statistique d'échantillon.

entrez la description de l'image ici

[Pour réitérer - c'est la probabilité sous le nul que nous assimilons ici.]

Donc, au moins dans le cas unimodal, il semble assez simple d'émuler le test exact de Fisher et de parler toujours des deux queues.

Cependant, vous n'aviez peut-être pas l'intention d'invoquer l'esprit du test exact de Fisher de cette façon.

Donc, pensant en dehors de cette idée de ce qui fait que quelque chose est `` aussi ou plus extrême '' pendant un moment, allons un peu plus vers la fin de Neyman-Pearson. Cela peut aider (avant de tester!) À définir la définition d'une région de rejet pour un test effectué à un niveau générique (je ne veux pas dire que vous devez littéralement en calculer un, juste comment vous le calculeriez). Dès que vous le faites, la façon de calculer deux valeurs de p à queue pour votre cas devrait devenir évidente. $\alpha$

Cette approche peut être utile même si l'on effectue un test en dehors du test de rapport de vraisemblance habituel. Pour certaines applications, il peut être difficile de comprendre comment calculer les valeurs de p dans les tests de permutation asymétrique ... mais cela devient souvent beaucoup plus simple si vous pensez d'abord à une règle de rejet.

Avec les tests F de variance, j'ai remarqué que la "valeur p à double queue" peut donner des valeurs p assez différentes à ce que je considère comme la bonne approche. [Peu importe le groupe que vous appelez "échantillon 1", ou si vous mettez la variance la plus grande ou la plus petite dans le numérateur.]

[1]: Agresti, A. (1992),
A Survey of Exact Inference for Contingency Tables
Statistical Science , vol. 7 , n ° 1. (février), pp. 131-153.

Glen_b -Reinstate Monica
la source

ctd ... Si nous faisons un test de rapport de vraisemblance, le rapport de vraisemblance est toujours unilatéral, mais si nous construisons un test bilatéral équivalent basé sur une statistique, alors nous nous tournons toujours vers des rapports de vraisemblance plus petits pour localiser "plus extrême"

Glen_b -Reinstate Monica

Le doublement de la valeur p unilatérale pourrait être défendu comme une correction de Bonferroni pour la réalisation de deux tests unilatéraux. Après tout, après un test bilatéral, nous sommes généralement très enclins à considérer tout doute émis sur la vérité du nul comme favorisant une autre hypothèse dont la direction est déterminée par les données.

Scortchi - Réintégrer Monica

@Alecos c'est assez simple pour justifier un choix symétrique! J'ai du mal à voir comment vous liriez ce que j'ai écrit comme suggérant qu'un choix symétrique n'était en aucune façon une chose valable à faire (ce choix est couvert par la discussion que j'ai donnée sur la règle de rejet - vous pouvez facilement construire un symétrique règle de rejet). La première partie de ma réponse répondait à la partie de la question sur Fisher. Si vous posez des questions sur Fisher, ne devrais-je pas discuter de ce qu'il semble que Fisher pourrait faire, sur la base de ce qu'il a fait dans des circonstances similaires? Vous semblez interpréter ma réponse comme disant plus qu'elle ne l'est.

Glen_b -Reinstate Monica

@Alecos En particulier, je ne préconise pas les approches Fisher ou Neyman Pearson (qu'il s'agisse de tests de rapport de vraisemblance ou simplement de tests d'hypothèses plus généralement), et vous ne devriez pas non plus me considérer comme essayant de suggérer que tout ce que j'ai omis pourrait être faux . Je ne fais que discuter d'un certain nombre de choses que vous sembliez soulever dans votre question.

Glen_b -Reinstate Monica

En fin de compte, oui. L'astuce de l'approche de Fisher est qu'elle donne un moyen très sensé d'arriver à une valeur p sans même avoir d'alternative. Mais si vous avez des alternatives spécifiques d'intérêt, vous pouvez cibler votre région de rejet plus ou moins précisément sur ces alternatives en déclarant les parties de l'espace d'échantillonnage où les alternatives auront tendance à placer vos échantillons comme région de rejet. Une statistique de test, T, est un moyen pratique d'y parvenir, essentiellement en associant un nombre unique à chaque point (en nous donnant un «plus extrême» tel que mesuré par T). ... ctd

Glen_b -Reinstate Monica

$S$ $T$ $S$ $T=|S|$

$t=\min(\Pr_{H_0}(S<s),\Pr_{H_0}(S>s))$ $S$ $2t$

$S$ $S$ $T=f_S(S)$ $X$ $1.66$ $-1.66$

p = Pr (X > 1.66) + Pr (X < - 1.66) = 0.048457 + 0.048457 = 0.09691.

$p=\Pr(X > 1.66) +\Pr(X<-1.66)=0.048457+0.048457=0.09691.$

Y

$Y$

e^{1.66} = 5.2593

$\mathrm{e}^{1.66}=5.2593$

0.025732

$0.025732$

= e^{- 3.66}

$=\mathrm{e}^{-3.66}$

p = Pr (Y > 5.2593) + Pr (Y < 0.025732) = 0.048457 + 0.00012611 = 0.04858.

$p=\Pr(Y>5.2593) +\Pr(Y<0.025732)=0.048457+0.00012611=0.04858.$

\begin{aligned} p = 2 t & = 2 min (Pr (X < 1.66), Pr (X > 1.66)) \\ = 2 min (Pr (Y < 5.2593), Pr (Y > 5.2593)) \\ = 2 min (0.048457, 0.951543) \\ = 2 \times 0.048457 = 0.09691. \end{aligned}

$\begin{align}p=2t&=2\min(\Pr(X<1.66),\Pr(X>1.66))\\&=2\min(\Pr(Y<5.2593),\Pr(Y>5.2593))\\&=2\min(0.048457,0.951543)\\&=2\times 0.048457=0.09691.\end{align}$

Une sorte de suite à cette réponse, discutant de certains principes de construction de test dans lesquels l'hypothèse alternative est explicitement énoncée, peut être trouvée ici .

$S$

p_{L} = \underset{H_{0}}{Pr} (S \leq s)

$p_\mathrm{L} = \Pr_{H_0}(S\leq s)$

p_{U} = \underset{H_{0}}{Pr} (S \geq s)

$p_\mathrm{U} = \Pr_{H_0}(S\geq s)$

pour les valeurs p unilatérales inférieure et supérieure, la valeur p bilatérale est donnée par

Pr (T \leq t) = {\begin{cases} p_{L} + \underset{H_{0}}{Pr} (P_{U} \leq p_{L}) & when p_{L} \leq p_{U} \\ p_{U} + \underset{H_{0}}{Pr} (P_{L} \leq p_{U}) & otherwise \end{cases}

$\Pr(T\leq t) = \begin{cases} p_\mathrm{L} + \Pr_{H_0}(P_\mathrm{U} \leq p_\mathrm{L}) & \text{when}\ p_\mathrm{L} \leq p_\mathrm{U}\\ p_\mathrm{U} + \Pr_{H_0}(P_\mathrm{L} \leq p_\mathrm{U}) & \text{otherwise} \end{cases}$

$2t$

Scortchi - Réintégrer Monica
la source

Oh wow. C'est un très bon point, +1. Quel est ton conseil alors? De plus, puis-je interpréter cet écart comme correspondant à différents choix (dans ce cas implicites) de statistique de test?

amibe dit Réintégrer Monica

@amoeba: Pas une faute de frappe! Et lorsque vous observez 1,66, vous prenez le minimum de 0,952 et 0,048. Si vous avez réellement observé -3,66, ce serait le minimum de 0,0001 et 0,9999.

Scortchi - Réintégrer Monica

@Scortchi Je viens d'accepter la réponse de Glen_b parce qu'elle m'a été plus "utile" au sens étroit. Mais le vôtre m'a aidé à éviter le piège de penser que «c'est tout ce qu'il y a à faire», qui est une excellente police d'assurance pour les risques futurs. Merci encore.

Alecos Papadopoulos

@Scortchi je dois être d'accord; ma réponse était plutôt simpliste et unilatérale, et je devrais nuancer, étendre et justifier la réponse. Je vais probablement le faire en plusieurs étapes.

Glen_b -Reinstate Monica

@Glen_b: Merci, je l'attends avec impatience. Je veux également étendre la mienne pour montrer comment les tests de score et les tests de rapport de vraisemblance généralisés donnent des réponses différentes (en général); & la théorie des tests non biaisés mérite certainement d'être mentionnée dans ce contexte (mais je m'en souviens à peine).

Scortchi - Réintégrer Monica