Ma situation est la suivante: je veux, à travers une étude de Monte-Carlo, comparer les valeurs de de deux tests différents pour la signification statistique d'un paramètre estimé (null est "aucun effet - le paramètre est nul", et l' alternative implicite est " paramètre n'est pas nul "). Le test A est le "test t indépendant à deux échantillons standard pour l'égalité des moyennes" , avec des variances égales sous le zéro.
Test B Je me suis construit. Ici, la distribution nulle utilisée est une distribution discrète générique asymétrique . Mais j'ai trouvé le commentaire suivant dans Rohatgi & Saleh (2001, 2nd ed, p. 462)
"Si la distribution n'est pas symétrique, la valeur n'est pas bien définie dans le cas bilatéral, bien que de nombreux auteurs recommandent de doubler la valeur unilatérale "p .
Les auteurs n'en discutent pas davantage et ne commentent pas la "suggestion de nombreux auteurs" de doubler la valeur unilatérale . (Cela crée la question «doubler la valeur de quel côté? Et pourquoi ce côté et pas l'autre?)p
Je n'ai pu trouver aucun autre commentaire, opinion ou résultat sur toute cette affaire. Je comprends qu'avec une distribution asymétrique bien que l'on puisse considérer un intervalle symétrique autour de l'hypothèse nulle en ce qui concerne la valeur du paramètre, on n'aura pas la deuxième symétrie habituelle, celle de l'allocation de masse de probabilité. Mais je ne comprends pas pourquoi cela rend la valeur de "pas bien définie". Personnellement, en utilisant un intervalle symétrique autour de l'hypothèse nulle pour les valeurs de l'estimateur je ne vois aucune définitionproblème de dire "la probabilité que la distribution nulle produise des valeurs égales aux limites de, ou en dehors de cet intervalle est XX". Le fait que la masse de probabilité d'un côté sera différente de la masse de probabilité de l'autre côté ne semble pas causer de problèmes, du moins pour mes besoins. Mais il est plutôt plus probable qu'improbable que Rohatgi & Saleh savent quelque chose que je ne sais pas.
Voici donc ma question: dans quel sens la valeur est (ou peut être) "pas bien définie" dans le cas d'un test bilatéral lorsque la distribution nulle n'est pas symétrique?
Une note peut-être importante: j'aborde la question davantage dans un esprit pêcheur, je n'essaie pas d'obtenir une règle de décision stricte au sens de Neyman-Pearson. Je laisse à l'utilisateur du test le soin d' utiliser les informations de valeur côté de toute autre information pour faire des inférences.
la source
Réponses:
Si nous regardons le test exact 2x2, et considérons que c'est notre approche, ce qui est "plus extrême" pourrait être directement mesuré par la "probabilité plus faible". (Agresti [1] mentionne un certain nombre d'approches de divers auteurs pour calculer deux valeurs de p à queue uniquement pour ce cas du test exact de Fisher 2x2, dont cette approche est l'une des trois spécifiquement discutées comme «les plus populaires».)
Pour une distribution continue (unimodale), vous trouvez simplement le point dans l'autre queue avec la même densité que votre valeur d'échantillon, et tout avec une probabilité égale ou inférieure dans l'autre queue est compté dans votre calcul de la valeur de p.
Pour les distributions discrètes qui sont monotones non croissantes dans les queues, c'est à peu près aussi simple. Vous comptez tout avec une probabilité égale ou inférieure à celle de votre échantillon, ce qui, étant donné les hypothèses que j'ai ajoutées (pour que le terme "queues" corresponde à l'idée), donne un moyen de le résoudre.
Si vous êtes familier avec les intervalles HPD (et encore une fois, nous avons affaire à l'unimodalité), c'est essentiellement comme prendre tout en dehors d'un intervalle HPD ouvert qui est limité d'une seule queue par votre statistique d'échantillon.
[Pour réitérer - c'est la probabilité sous le nul que nous assimilons ici.]
Donc, au moins dans le cas unimodal, il semble assez simple d'émuler le test exact de Fisher et de parler toujours des deux queues.
Cependant, vous n'aviez peut-être pas l'intention d'invoquer l'esprit du test exact de Fisher de cette façon.
Donc, pensant en dehors de cette idée de ce qui fait que quelque chose est `` aussi ou plus extrême '' pendant un moment, allons un peu plus vers la fin de Neyman-Pearson. Cela peut aider (avant de tester!) À définir la définition d'une région de rejet pour un test effectué à un niveau générique (je ne veux pas dire que vous devez littéralement en calculer un, juste comment vous le calculeriez). Dès que vous le faites, la façon de calculer deux valeurs de p à queue pour votre cas devrait devenir évidente.α
Cette approche peut être utile même si l'on effectue un test en dehors du test de rapport de vraisemblance habituel. Pour certaines applications, il peut être difficile de comprendre comment calculer les valeurs de p dans les tests de permutation asymétrique ... mais cela devient souvent beaucoup plus simple si vous pensez d'abord à une règle de rejet.
Avec les tests F de variance, j'ai remarqué que la "valeur p à double queue" peut donner des valeurs p assez différentes à ce que je considère comme la bonne approche. [Peu importe le groupe que vous appelez "échantillon 1", ou si vous mettez la variance la plus grande ou la plus petite dans le numérateur.]
[1]: Agresti, A. (1992),
A Survey of Exact Inference for Contingency Tables
Statistical Science , vol. 7 , n ° 1. (février), pp. 131-153.
la source
Une sorte de suite à cette réponse, discutant de certains principes de construction de test dans lesquels l'hypothèse alternative est explicitement énoncée, peut être trouvée ici .
pour les valeurs p unilatérales inférieure et supérieure, la valeur p bilatérale est donnée par
la source