Je me demandais si quelqu'un pouvait donner un aperçu concis des définitions et des utilisations des valeurs de p, du niveau de signification et des erreurs de type I.
Je comprends que les valeurs de p sont définies comme "la probabilité d'obtenir une statistique de test au moins aussi extrême que celle que nous avons réellement observée", tandis qu'un niveau de signification n'est qu'une valeur seuil arbitraire pour évaluer si la valeur de p est significative ou non . L'erreur de type I est l'erreur de rejet d'une hypothèse nulle qui était vraie. Cependant, je ne suis pas sûr de la différence entre le niveau de signification et l'erreur de type I, n'est-ce pas le même concept?
Par exemple, supposons une expérience très simple où je lance une pièce 1000 fois et compte le nombre de fois qu'elle atterrit sur des «têtes». Mon hypothèse nulle, H0, est que les têtes = 500 (pièce non biaisée). J'ai ensuite fixé mon niveau de signification à alpha = 0,05.
Je lance la pièce 1000 fois, puis je calcule la valeur de p, si la valeur de p est> 0,05, je ne rejette pas l'hypothèse nulle et si la valeur de p est <0,05, je rejette l'hypothèse nulle.
Maintenant, si je faisais cette expérience à plusieurs reprises, à chaque fois en calculant la valeur de p et en rejetant ou en refusant de rejeter l'hypothèse nulle et en comptant le nombre de refus / refus, je finirais par rejeter 5% des hypothèses nulles qui étaient en réalité vrai, est-ce exact? Il s'agit de la définition de l'erreur de type I. Par conséquent, le niveau de signification dans les tests de signification de Fisher est essentiellement l'erreur de type I des tests d'hypothèse de Neyman-Pearson si vous avez effectué des expériences répétées.
Maintenant, comme pour les valeurs de p, si j'avais obtenu une valeur de p de 0,06 lors de ma dernière expérience et que j'avais fait plusieurs expériences et compté toutes celles pour lesquelles j'avais une valeur de p de 0 à 0,06, alors je n'aurais pas non plus de 6% de chances de rejeter une vraie hypothèse nulle?
Vous obtenez ici de bonnes réponses de @MansT & @ gui11aume (+1 pour chacun). Permettez-moi de voir si je peux obtenir plus explicitement quelque chose dans leurs deux réponses.
Il peut y avoir des cas où la valeur de p calculée n'est pas égale au taux d'erreur de type I à long terme, en plus du fait que le taux d'erreur de type I n'est pas nécessairement égal au niveau de signification. Considérons un tableau de contingence 2x2 avec ces nombres observés:
Ainsi, les problèmes ici sont que, avec des données discrètes:
(Bien que la question ne porte pas sur les solutions à ces problèmes), il y a des choses qui atténuent ces problèmes:
la source
Les concepts sont en effet intimement liés les uns aux autres.
La valeur p est le niveau de signification le plus bas auquel l'hypothèse nulle serait acceptée . Ainsi, il nous indique "la signification" du résultat.
la source