Comparaison et contraste, valeurs de p, niveaux de signification et erreur de type I

21

Je me demandais si quelqu'un pouvait donner un aperçu concis des définitions et des utilisations des valeurs de p, du niveau de signification et des erreurs de type I.

Je comprends que les valeurs de p sont définies comme "la probabilité d'obtenir une statistique de test au moins aussi extrême que celle que nous avons réellement observée", tandis qu'un niveau de signification n'est qu'une valeur seuil arbitraire pour évaluer si la valeur de p est significative ou non . L'erreur de type I est l'erreur de rejet d'une hypothèse nulle qui était vraie. Cependant, je ne suis pas sûr de la différence entre le niveau de signification et l'erreur de type I, n'est-ce pas le même concept?

Par exemple, supposons une expérience très simple où je lance une pièce 1000 fois et compte le nombre de fois qu'elle atterrit sur des «têtes». Mon hypothèse nulle, H0, est que les têtes = 500 (pièce non biaisée). J'ai ensuite fixé mon niveau de signification à alpha = 0,05.

Je lance la pièce 1000 fois, puis je calcule la valeur de p, si la valeur de p est> 0,05, je ne rejette pas l'hypothèse nulle et si la valeur de p est <0,05, je rejette l'hypothèse nulle.

Maintenant, si je faisais cette expérience à plusieurs reprises, à chaque fois en calculant la valeur de p et en rejetant ou en refusant de rejeter l'hypothèse nulle et en comptant le nombre de refus / refus, je finirais par rejeter 5% des hypothèses nulles qui étaient en réalité vrai, est-ce exact? Il s'agit de la définition de l'erreur de type I. Par conséquent, le niveau de signification dans les tests de signification de Fisher est essentiellement l'erreur de type I des tests d'hypothèse de Neyman-Pearson si vous avez effectué des expériences répétées.

Maintenant, comme pour les valeurs de p, si j'avais obtenu une valeur de p de 0,06 lors de ma dernière expérience et que j'avais fait plusieurs expériences et compté toutes celles pour lesquelles j'avais une valeur de p de 0 à 0,06, alors je n'aurais pas non plus de 6% de chances de rejeter une vraie hypothèse nulle?

BYS2
la source

Réponses:

16

La question semble simple, mais votre réflexion autour d'elle montre que ce n'est pas si simple.

En fait, les valeurs de p sont un ajout relativement tardif à la théorie des statistiques. Calculer une valeur p sans ordinateur est très fastidieux; c'est pourquoi la seule façon d'effectuer un test statistique jusqu'à récemment était d'utiliser des tableaux de tests statistiques, comme je l'explique dans ce billet de blog . Étant donné que ces tableaux ont été calculés pour des niveaux fixes (généralement 0,05, 0,01 et 0,001), vous ne pouvez effectuer un test qu'avec ces niveaux.α

Les ordinateurs ont rendu ces tables inutiles, mais la logique des tests est toujours la même. Vous devriez:

  1. Formulez une hypothèse nulle.
  2. Formuler une hypothèse alternative.
  3. Décidez d'une erreur maximale de type I (la probabilité de rejeter faussement l'hypothèse nulle) que vous êtes prêt à accepter.
  4. Concevez une région de rejet. La probabilité que la statistique de test tombe dans la région de rejet étant donné que l'hypothèse nulle est votre niveau . Comme l'explique @ MånsT, cela ne devrait pas être inférieur à votre erreur de type I acceptable et, dans de nombreux cas, utiliser des approximations asymptotiques.α
  5. Effectuez l'expérience aléatoire, calculez la statistique de test et voyez si elle tombe dans la région de rejet.

En théorie, il existe une stricte équivalence entre les événements "la statistique tombe dans la région de rejet" et "la valeur p est inférieure à "α , c'est pourquoi il est estimé que vous pouvez signaler la valeur p à la place . En pratique, il vous permet de sauter l'étape 3. et d'évaluer l'erreur de type I une fois le test terminé .

Pour revenir à votre message, l'énoncé de l'hypothèse nulle est incorrect. L'hypothèse nulle est que la probabilité de renverser une tête est de (l'hypothèse nulle ne peut pas se rapporter aux résultats de l'expérience aléatoire).1/2

Si vous répétez l'expérience encore et encore avec une valeur de seuil p de 0,05, oui, vous devriez avoir un rejet d' environ 5%. Et si vous définissez un seuil de valeur p de 0,06, vous devriez vous retrouver avec un rejet d'environ 6%. Plus généralement, pour les tests continus, par définition de la valeurp

Prob(p<x)=x,(0<x<1),

ce qui n'est vrai qu'environ pour les tests discrets.

Voici du code R qui, je l'espère, peut clarifier un peu cela. Le test binomial est relativement lent, donc je ne fais que 10 000 expériences aléatoires dans lesquelles je lance 1000 pièces. J'effectue un test binomial et collecte les 10 000 valeurs p.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Vous pouvez voir que les proportions ne sont pas exactes, car la taille de l'échantillon n'est pas infinie et le test est discret, mais il y a toujours une augmentation d'environ 1% entre les deux.

gui11aume
la source
@ MånsT Merci! +1 à vous pour la distinction entre tests continus et tests discrets (que j'aurais honnêtement complètement ignorés).
gui11aume
4
@ gui11aume, merci pour votre contribution! Cependant, votre déclaration "les valeurs de p sont un ajout relativement tardif à la théorie des statistiques" est étrange. D'après ce que j'ai lu, les «tests de signification» de Fisher avec des valeurs de p ont commencé vers 1925. Alors que les «tests d'hypothèse» de Neyman-Pearson sont apparus comme une «amélioration» du travail de Fisher quelques années plus tard. S'il est vrai que les valeurs de p étaient difficiles à calculer (d'où la raison pour laquelle des niveaux de signification standard ont été utilisés), son travail était monumental. En fait, il est appelé «le père des statistiques» parce qu'il a constitué la base d'une grande partie des statistiques modernes.
BYS2
2
@ BYS2 Absolument à droite (+1). La théorie des valeurs de p remonte à l'origine des statistiques. C'est leur utilisation omniprésente qui est récente. Merci d'avoir remarqué ;-)
gui11aume
@ guillaume merci pour cela, j'ai une autre question rapide. Vous dites que mon hypothèse nulle ne peut pas être H 0 = 500 mais il me semble que de nombreux textes utilisent par exemple: l'hypothèse nulle est que la moyenne sera 0 ou que la différence de moyen sera 10 .. Je n'ai jamais eu de problème le faire comme ça: s .. La distribution t évolue essentiellement si j'utilise H0 = 500 au lieu de H0 = 0,5
BYS2
1
@ gui11aume: Peut-être qu'il pourrait être intéressant de jeter un œil à ma réponse: stats.stackexchange.com/questions/166323/…
15

Vous obtenez ici de bonnes réponses de @MansT & @ gui11aume (+1 pour chacun). Permettez-moi de voir si je peux obtenir plus explicitement quelque chose dans leurs deux réponses.

nk

p(k)=n!k!(nk)!pk(1p)nk
α=.05
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

α=.05.021αtype I errorα.05probabilités binomiales. Notez en outre que des situations comme celle-ci ont incité le développement de la valeur de p moyenne pour aider à minimiser l'écart entre la valeur de p et le niveau de signification.

Il peut y avoir des cas où la valeur de p calculée n'est pas égale au taux d'erreur de type I à long terme, en plus du fait que le taux d'erreur de type I n'est pas nécessairement égal au niveau de signification. Considérons un tableau de contingence 2x2 avec ces nombres observés:

     col1 col2
row1   2    4   
row2   4    2

χ2χ12=1.3,p=.248χ2χ2p=.5671.5637.5671

Ainsi, les problèmes ici sont que, avec des données discrètes:

  • votre niveau de signification préféré peut ne pas être l'un des taux d'erreur de type I possibles, &
  • l'utilisation d'approximations (conventionnelles) pour des statistiques continues donnera des valeurs de p calculées inexactes.

N

(Bien que la question ne porte pas sur les solutions à ces problèmes), il y a des choses qui atténuent ces problèmes:

  • N
  • il y a souvent des corrections (comme la correction de Yates pour la continuité) qui rapprocheront les valeurs calculées des valeurs correctes,
  • N
  • la valeur moyenne de p offre la possibilité de rapprocher votre taux d'erreur de type I de votre niveau de confiance choisi,
  • vous pouvez explicitement utiliser l'un des taux d'erreur de type I qui existent (ou noter ce que ce serait).
gung - Réintégrer Monica
la source
Super que vous soyez entré dans le détail que nous avons laissé sur le côté (+1).
gui11aume
@gung - pourriez-vous commenter comment vous avez obtenu les taux d'erreur de type I pour le premier tableau?
stats134711
@ stats134711, c'est juste la somme des probabilités individuelles pour les options qui sont aussi extrêmes ou plus extrêmes (bilatérales).
gung - Rétablir Monica
14

Les concepts sont en effet intimement liés les uns aux autres.

P(type I error)=ααP(type I error)ααP(type I error)αα

La valeur p est le niveau de signification le plus bas auquel l'hypothèse nulle serait acceptée . Ainsi, il nous indique "la signification" du résultat.

MånsT
la source