Laissant de côté certaines questions pratiques (telles que la mesure dans laquelle est arbitraire, par exemple), les définitions du niveau de signification et de la valeur de p rendent la réponse à cette question sans ambiguïté.α
C'est-à-dire, formellement, la règle de rejet est que vous rejetez lorsque .p=α
Cela ne devrait vraiment avoir d'importance que pour le cas discret, mais dans cette situation, si vous ne rejetez pas lorsque , votre taux d'erreur de type I ne sera pas réellement α !p=αα
(En ce qui me concerne, il n'y a pas de citation `` faisant autorité ''; vous devez vraiment vous familiariser avec les approches Neyman-Pearson et Fisherian des tests d'hypothèses, et c'est quelque chose qui s'est développé au fil du temps.)
Il existe un certain nombre de bons textes statistiques qui décrivent correctement les tests d'hypothèse.
La définition de la valeur p est donnée correctement dans la première phrase de l'article Wikipedia pertinent *:
la valeur de p est la probabilité d'obtenir une statistique de test au moins aussi extrême que celle qui a été réellement observée, en supposant que l'hypothèse nulle est vraie.
* (et non, wikipedia n'est pas une autorité, je dis juste que la définition est juste)
Pour plus de simplicité, restons avec des points nuls; il sert à faire passer le message sans embrouiller les eaux avec des problèmes supplémentaires.
Maintenant, le niveau de signification, est le taux d'erreur de type I sélectionné. C'est le taux auquel vous choisissez l'hypothèse nulle à rejeter lorsqu'elle est vraie. C'est-à-dire que c'est la proportion du temps pendant laquelle vous devez rejeter le null. Considérons maintenant une statistique de test avec une distribution discrète - la seule fois un p d' exactement α est en fait possible **. (Ce sera également généralement le cas que l'alpha réel sera différent de quelque chose de joli et rond comme 5%.)αp α
** Eh bien, je suppose que je limite ma discussion à des statistiques de test uniquement purement discrètes ou purement continues. Dans le cas mixte, vous pouvez comprendre comment ma discussion discrète s'applique (dans les situations où elle s'applique).
Par exemple, considérons un test de signe bilatéral avec , disons. Le niveau de signification réalisable le plus proche de 5% est de 4,904%. Choisissons donc α = 4.904 % (ou pour être plus précis, 137500n=17α=4.904% ).137500217
Ainsi, lorsque est vrai, quel est le taux de rejet si nous rejetons lorsque p = α ? Nous pouvons le résoudre. C'est 4,904% - c'est l' α que nous avons choisi.H0p=αα
Par contre, lorsque est vrai, quel est le taux de rejet si on ne rejette pas quand p = α ? Nous pouvons le résoudre. C'est seulement 1,27%. C'est bien moins que α . Ce n'est pas le test auquel nous nous sommes inscrits!H0p=αα
Autrement dit, nos tests (tout simplement!) Ont les propriétés souhaitées si est dans la région de rejet.p=α
[Maintenant, considérons votre situation. Votre valeur p est-elle en fait exactement de 5%? Je parie que ce n'est pas exactement ça, pour plusieurs raisons différentes. Mais dans tous les cas, vous pouvez affirmer que formellement, est un rejet.]p=α
Si vous décrivez votre règle de rejet à l'avance et montrez que (si les hypothèses sont satisfaites), elle a le niveau de signification souhaité, alors il n'y a probablement pas besoin de références.
H0
α
(Si vous avez une édition différente, les numéros de page peuvent changer, mais il a un index, vous pouvez donc rechercher les termes; faites attention, vous devrez peut-être consulter les listes sous `` Test d'hypothèse '' ou quelque chose de similaire dans l'index pour trouver «région de rejet»)
Hmm, essayons un autre livre sur étagère. Wackerly, Mendenhall & Scheaffer Mathematical Statistics with Applications, 5e édition , définit une région de rejet sur p412 et une valeur p (même définition que C&B) sur p431.
Une confession intéressante que j'avais apprise dans mon premier cours de biostatistique par un professeur est que le niveau de signification de 0,05 était plus obtenu par consensus plutôt que par vérité dorée. Depuis lors, j'ai vu de la littérature qui flirte avec le niveau de signification de 0,05, comme «s'approchant», qui reste une constatation frappante de l'étude et j'ai entendu des arguments selon lesquels le niveau de signification de 0,05 pourrait ne pas s'appliquer à tous les domaines de recherche. Cela dit, j'ai trouvé que les estimations ponctuelles et les intervalles de confiance étaient plus informatifs que les niveaux de signification. Voici un article intéressant sur le sujet (pour moi en tout cas).
la source
La valeur de p est généralement fixée pour le consensus comme dit précédemment (ou plutôt la paresse). Pour vraiment pouvoir dire que quelque chose est significatif, nous devons trouver la valeur de p qui correspond à la taille de l'effet, à la taille de l'échantillon et à la rigueur que vous souhaitez pour vos données. C'est ce qu'on appelle l'analyse de puissance (c'est un sous-champ dans les statistiques). Beaucoup de gens ne le savent pas ou ne l'utilisent tout simplement pas parce que ce n'est pas simple. Cela ne veut pas dire que c'est bien comme ça. Nous devrions toujours faire ce genre d'étude pour tirer des conclusions qui sont vraiment significatives.
la source