J'ai donc beaucoup lu sur la façon d'interpréter correctement une valeur P, et d'après ce que j'ai lu, la valeur p ne dit RIEN sur la probabilité que l'hypothèse nulle soit vraie ou fausse. Cependant, lors de la lecture de la déclaration suivante:
La valeur p représente la probabilité de commettre une erreur de type I ou de rejeter l'hypothèse nulle lorsqu'elle est vraie. Plus la valeur p est petite, plus la probabilité que vous rejetez à tort l'hypothèse nulle est petite.
EDIT: Et puis 5 minutes plus tard, j'ai lu:
Les interprétations incorrectes des valeurs de P sont très courantes. L'erreur la plus courante consiste à interpréter une valeur P comme la probabilité de faire une erreur en rejetant une hypothèse vraie nulle (une erreur de type I).
Cela m'a dérouté. Laquelle est correcte? Et quelqu'un peut-il expliquer comment interpréter correctement la valeur de p et comment elle se rapporte correctement à la probabilité de faire une erreur de type I?
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is true
La valeur p représente la probabilité a priori de commettre une erreur de type I, c'est-à-dire de rejeter l'hypothèse nulle sous l'hypothèse qu'elle est vraie.Réponses:
En raison de vos commentaires, je ferai deux sections distinctes:
valeurs p
Dans le test d'hypothèse statistique, vous pouvez trouver des «preuves statistiques» pour l' hypothèse alternative ; Comme je l'ai expliqué dans ce qui suit si nous échouons à rejeter l'hypothèse nulle? , il est similaire à la «preuve par contradiction» en mathématiques.
Donc, si nous voulons trouver des «preuves statistiques», nous supposons le contraire, que nous désignons de ce que nous essayons de prouver que nous appelons H 1 . Après cela, nous tirons un échantillon, et à partir de l'échantillon, nous calculons une soi-disant statistique de test (par exemple, une valeur t dans un test t).H0 H1
Ensuite, comme nous supposons que est vrai et que notre échantillon est tiré au hasard de la distribution sous H 0 , nous pouvons calculer la probabilité d'observer des valeurs qui dépassent ou égalent la valeur dérivée de notre échantillon (aléatoire). Cette probabilité est appelée la valeur p.H0 H0
Si cette valeur est «suffisamment petite», c'est-à-dire inférieure au niveau de signification que nous avons choisi, alors nous rejetons et nous considérons que H 1 est «statistiquement prouvé».H0 H1
Plusieurs choses sont importantes dans cette façon de faire:
Alors, qu'est-ce qu'une erreur de type I: une erreur de type I est commise lorsque l'échantillon, tiré au hasard de , conduit à la conclusion que H 0 est faux alors qu'en réalité il est vrai.H0 H0
Notez que cela implique que p-valeur est la probabilité d'une erreur de type I . En effet, une erreur de type I est une mauvaise décision du test et la décision ne peut être prise qu'en comparant la valeur de p au niveau de signification choisi, avec une valeur de p seule on ne peut pas prendre de décision, ce n'est qu'après avoir comparé la valeur de p au niveau de signification choisi qu'une décision est prise , et tant qu'aucune décision n'est prise, l'erreur de type I n'est même pas définie.
Quelle est alors la valeur de p? Le rejet potentiellement erroné de est dû au fait que nous tirons un échantillon aléatoire sous H 0 , il se pourrait donc que nous ayons `` de la malchance '' en tirant l'échantillon, et que cette `` malchance '' mène à un faux rejet de H 0 . Ainsi, la valeur de p (bien que ce ne soit pas entièrement correct) ressemble davantage à la probabilité de tirer un «mauvais échantillon». L'interprétation correcte de la valeur de p est qu'il s'agit de la probabilité que la statistique de test dépasse ou soit égale à la valeur de la statistique de test dérivée d'un échantillon tiré au hasard sous H 0H0 H0 H0 H0
Taux de fausses découvertes (FDR)
Comme expliqué ci-dessus, chaque fois que l'hypothèse nulle est rejetée, on considère cela comme une «preuve statistique» pour . Nous avons donc trouvé de nouvelles connaissances scientifiques, donc cela s'appelle une découverte . On explique également ci-dessus que nous pouvons faire de fausses découvertes (c'est-à-dire rejeter faussement H 0 ) lorsque nous faisons une erreur de type I. Dans ce cas, nous avons une fausse croyance en une vérité scientifique. Nous voulons seulement découvrir des choses vraiment vraies et donc on essaie de garder les fausses découvertes au minimum, c'est-à-dire que l'on contrôlera une erreur de type I. Il n'est pas si difficile de voir que la probabilité d'une erreur de type I est le niveau de signification α choisi . Donc, pour contrôler les erreurs de type I, on fixe un αH1 H0 α α -niveau reflétant votre volonté d'accepter de «fausses preuves».
Intuitivement, cela signifie que si nous tirons un grand nombre d'échantillons, et avec chaque échantillon, nous effectuons le test, alors une fraction de ces tests conduira à une conclusion erronée. Il est important de noter que nous «établissons une moyenne sur de nombreux échantillons» ; donc même test, de nombreux échantillons.α
La probabilité d'erreur de type I est donc liée à l'exécution du même test sur de nombreux échantillons différents. Pour un grand nombre d'échantillons, la probabilité d'erreur de type I convergera vers le nombre d'échantillons conduisant à un faux rejet divisé par le nombre total d'échantillons prélevés .
Notez que, en comparant les deux paragraphes ci-dessus:
la source
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0
Est-ce vrai? N'est-ce pas "égal ou supérieur"? La valeur P est la probabilité que sous H0 vrai, nous observons la différence ou l'association ceci ou plus fort que le réellement observé.La première affirmation n'est pas strictement vraie.
Extrait d'un article astucieux sur l'incompréhension de l'importance: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )
Plus simplement, pour évaluer la probabilité que vous ayez rejeté H0 incorrectement, vous avez besoin de la probabilité que H0 soit vrai que vous ne pouvez tout simplement pas obtenir en utilisant ce test.
la source
L'interprétation correcte d'une valeur de p est la probabilité conditionnelle d'un résultat au moins aussi conducteur à l'hypothèse alternative que la valeur observée (au moins aussi "extrême"), en supposant que l'hypothèse nulle est vraie . Les interprétations incorrectes impliquent généralement soit une probabilité marginale, soit un changement de condition:
la source
La valeur de p nous permet de déterminer si l'hypothèse nulle (ou l'hypothèse revendiquée) peut être rejetée ou non. Si la valeur de p est inférieure au niveau de signification, α, alors cela représente un résultat statistiquement significatif, et l'hypothèse nulle doit être rejetée. Si la valeur de p est supérieure au niveau de signification, α, l'hypothèse nulle ne peut pas être rejetée. C'est toute la raison de rechercher la valeur p si vous utilisez le tableau ou utilisez une calculatrice en ligne, comme celle-ci, la calculatrice de valeur p , pour trouver la valeur p à partir de la statistique de test.
Maintenant, je sais que vous avez mentionné des erreurs de type I et de type II. Cela n'a vraiment rien à voir avec la valeur de p. Cela a à voir avec les données d'origine, telles que la taille de l'échantillon utilisé et les valeurs obtenues pour les données. Si la taille de l'échantillon est trop petite, par exemple, cela peut entraîner une erreur de type I.
la source