Comprendre la valeur p

Je sais qu'il existe de nombreux matériaux expliquant la valeur p. Cependant, le concept n'est pas facile à saisir fermement sans clarification supplémentaire.

Voici la définition de p-value de Wikipedia:

La valeur p est la probabilité d'obtenir une statistique de test au moins aussi extrême que celle qui a été réellement observée, en supposant que l'hypothèse nulle soit vraie. ( http://en.wikipedia.org/wiki/P-value )

Ma première question concerne l'expression "au moins aussi extrême que celle qui a été réellement observée". Ma compréhension de la logique sous-jacente à l'utilisation de la valeur p est la suivante: Si la valeur p est petite, il est peu probable que l'observation ait eu lieu en supposant l'hypothèse nulle et nous aurons peut-être besoin d'une hypothèse alternative pour expliquer l'observation. Si la valeur p n'est pas si petite, il est probable que l'observation ait eu lieu uniquement en supposant l'hypothèse nulle et l'hypothèse alternative n'est pas nécessaire pour expliquer l'observation. Donc, si quelqu'un veut insister sur une hypothèse, il doit montrer que la valeur p de l'hypothèse nulle est très petite. Dans cette optique, ma compréhension de l'expression ambiguë est que la valeur p est $\min[P(X<x),P(x<X)]$ , si le PDF de la statistique est unimodal, où $X$ est la statistique de test et $x$ sa valeur obtenue à partir de l'observation. Est-ce correct? S'il est correct, est-il toujours possible d'utiliser le PDF bimodal de la statistique? Si deux pics du fichier PDF sont bien séparés et que la valeur observée se situe quelque part dans la région de densité de faible probabilité entre les deux pics, à quel intervalle la valeur p donne-t-elle la probabilité de?

La deuxième question concerne une autre définition de p-value de Wolfram MathWorld:

Probabilité qu'un variate prenne une valeur supérieure ou égale à la valeur observée strictement par hasard. ( http://mathworld.wolfram.com/P-Value.html )

J'ai compris que l'expression "strictement par hasard" devrait être interprétée comme "en supposant une hypothèse nulle". Est-ce correct?

La troisième question concerne l'utilisation de "l'hypothèse nulle". Supposons que quelqu'un veuille insister sur le fait qu'une pièce de monnaie est juste. Il exprime l'hypothèse que la fréquence relative des têtes est de 0,5. Alors l'hypothèse nulle est "la fréquence relative des têtes n'est pas 0.5." Dans ce cas, alors qu'il est difficile de calculer la valeur p de l'hypothèse nulle, le calcul est facile pour l'hypothèse alternative. Bien entendu, le problème peut être résolu en interchangeant le rôle des deux hypothèses. Ma question est que le rejet ou l'acceptation basée directement sur la valeur p de l'hypothèse alternative initiale (sans introduire l'hypothèse nulle) consiste à savoir si elle est OK ou non. Si ce n'est pas OK, quelle est la solution habituelle pour résoudre ce type de difficultés lors du calcul de la valeur p d'une hypothèse nulle?

J'ai posté une nouvelle question qui est plus clarifiée sur la base de la discussion dans ce fil.

hypothesis-testing p-value interpretation JDL
la source

D'intérêt possible: Y a

Vous avez saisi une subtilité qui est souvent méconnue: il faut mesurer "plus extrême" en termes de vraisemblance relative de l'hypothèse alternative plutôt que dans le sens évident (mais pas généralement correct) d'être plus loin dans l'échantillonnage nul. Distribution. Ceci est explicite dans la formulation du lemme de Neyman-Pearson , qui sert à justifier de nombreux tests d'hypothèses et à déterminer leurs régions critiques (et donc leurs p-valeurs). Penser cela aidera à répondre à votre première question.

whuber

Si je me souviens bien, le lemme de Neyman-Pearson est optimal pour les tests d'hypothèses simples versus simples (Ho: mu = mu_0, Ha: mu = mu_a). Pour les tests composites (Ho: mu = mu_0, Ha: mu> mu_a), il existe un test alternatif.

RobertF

Réponses:

Première réponse

Vous devez penser au concept d'extrême en termes de probabilité des statistiques de test, et non en termes de valeur ou de valeur de la variable aléatoire testée. Je rapporte l'exemple suivant de Christensen, R. (2005). Test de Fisher, Neyman, Pearson et Bayes . Le statisticien américain , 59 (2), 121-126

r | 1 2 3 4 p (r | θ = 0) | 0.980 0.005 0.005 0.010 p v a l u e | 1.0 0.01 0.01 0.02

$\phantom{(r\;|\;\theta=0}r\; | \quad 1 \quad \quad 2 \quad \quad 3 \quad \quad 4\\ p(r\;|\;\theta=0) \; |\; 0.980\;0.005\; 0.005\; 0.010\\ \quad p\;\mathrm{value} \; \; | \;\; 1.0 \quad 0.01 \quad 0.01 \;\; 0.02$

Ici sont les observations, la deuxième ligne est la probabilité d'observer une observation donnée sous l'hypothèse nulle , qui est utilisée ici comme statistique de test, la troisième ligne est la valeur . Nous sommes ici dans le cadre du test de Fisher: il y a une hypothèse ( , dans ce cas ) sous laquelle nous voulons voir si les données sont étranges ou non. Les observations avec la plus faible probabilité sont 2 et 3 avec 0,5% chacune. Si vous obtenez 2, par exemple, la probabilité d'observer quelque chose de plus probable ou moins probable ( et ) est de 1%. L'observation ne contribue pas à la $r$ $\theta=0$ $p$ $H_0$ $\theta=0$ $r=2$ $r=3$ $r=4$ $p$ valeur, bien qu’elle soit plus éloignée (s’il existe une relation d’ordre), car elle a une probabilité plus élevée d’être observée.

Cette définition fonctionne en général, car elle prend en charge les variables catégorielles et multidimensionnelles, lorsqu'une relation d'ordre n'est pas définie. Dans le cas d'une variable quantitative ingle, où vous observez un biais du résultat le plus probable, il peut être judicieux de calculer la valeur queue simple et de ne prendre en compte que les observations figurant d'un côté de la distribution des statistiques de test. $p$

Deuxième réponse

Je suis entièrement en désaccord avec cette définition de Mathworld.

Troisième réponse

Je dois dire que je ne suis pas tout à fait sûr d'avoir bien compris votre question, mais je vais essayer de vous donner quelques observations qui pourraient vous aider.

Dans le contexte le plus simple des tests de Fisherian, où vous n’avez que l’hypothèse nulle, cela devrait être le statu quo . En effet, les tests effectués par Fisherian fonctionnent essentiellement par contradiction. Donc, dans le cas de la pièce, à moins que vous n'ayez des raisons de penser différemment, vous vous en , . Ensuite, vous calculez la valeur pour vos données sous et, si votre valeur est inférieure à un seuil prédéfini, vous rejetez l'hypothèse (preuve par contradiction). Vous ne calculez jamais la probabilité de l'hypothèse nulle. $H_0: \theta=0.5$ $p$ $H_0$ $p$

Avec les tests de Neyman-Pearson, vous spécifiez deux hypothèses alternatives et, en fonction de leur vraisemblance relative et de la dimensionnalité des vecteurs de paramètre, vous privilégiez l'une ou l'autre. Cela peut être constaté, par exemple, dans le test de l'hypothèse d'une pièce biaisée ou non. Non biaisé signifie fixer le paramètre à (la dimensionnalité de cet espace de paramètre est nul), alors que polarisé peut être toute valeur (dimensionnalité égale à un). Cela résout le problème d'essayer de contredire l'hypothèse de partialité par contradiction, ce qui serait impossible, comme l'explique un autre utilisateur. Fisher et NP donnent des résultats similaires lorsque l'échantillon est grand, mais ils ne sont pas exactement équivalents. Ci-dessous un code simple en R pour une pièce biaisée. $\theta=0.5$ $\theta \neq 0.5$

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

Zag
la source

+1 pour avoir signalé un excellent article que je ne connaissais pas. (Aussi, certains scepticismes sur l’utilité de la vision statistique de Mathworld).

conjugateprior

Merci beaucoup! La valeur p est donc \ int_ {x: f (x) <= k} f, où f est le PDF d'une statistique de test et k est la valeur observée de la statistique. Merci encore.

JDL

En ce qui concerne la troisième réponse, ce qui est prouvé dans votre réponse est l’injustice de la pièce car l’hypothèse de l’équité est rejetée. Au contraire, pour prouver l’équité de la pièce par contradiction, je dois assumer l’iniquité \ theta \ neq 0.5 et calculer la p-valeur de mes données. Comment puis-je le faire? Mon point est la difficulté provient du signe \ neq de l'hypothèse d'injustice. Dois-je introduire un niveau de tolérance pour l'équité, disons 0,4 <\ theta <0,6, et calculer la valeur p en termes de \ theta et l'intégrer sur 0 <\ theta <0,4 et 0,6 <\ theta <1?

JDL

Encore une question. Ce lien explique la valeur p "unilatérale". Il indique que la valeur p unilatérale répond à des questions telles que "l'hypothèse nulle, selon laquelle deux populations sont réellement identiques ... Quelle est la probabilité que des échantillons sélectionnés au hasard aient des moyens aussi éloignés (ou plus éloignés) que ceux observés dans cette expérience avec le groupe spécifié ayant la plus grande moyenne? " Est-ce une utilisation appropriée de la valeur p unilatérale? Je pense que l'hypothèse nulle elle-même devrait être exprimée comme une inégalité dans ce cas (au lieu d'égalité et de test unilatéral).

JDL

@Zag, je suis en désaccord plutôt avec cette réponse: vous ne devez penser à la notion d'extrême en termes de probabilité. Mieux vaut dire que dans cet exemple, la probabilité sous le zéro est utilisée comme statistique de test - mais ce n'est pas obligatoire. Par exemple, si le rapport de vraisemblance, tel que mentionné par whuber, est utilisé comme statistique de test, il ne mettra en général pas les échantillons possibles dans le même ordre que la probabilité sous le zéro. D'autres statistiques sont choisies pour une puissance maximale par rapport à une alternative spécifiée, ou pour toutes les alternatives, ou pour une puissance élevée par rapport à un ensemble défini de manière vague.

Scortchi

(1) Une statistique est un nombre que vous pouvez calculer à partir d'un échantillon. Il sert à mettre en ordre tous les échantillons que vous pourriez avoir (sous un modèle supposé, où les pièces ne tombent pas sur les bords et ce que vous avez). Si est ce que vous calculez à partir de l'échantillon que vous avez réellement obtenu, & est la variable aléatoire correspondante, alors la valeur p est donnée par sous l'hypothèse nulle, . "Supérieur à" vs "plus extrême" n'a pas d'importance en principe. Pour un test bilatéral sur une moyenne normale, nous pourrions utiliser mais il est pratique d'utiliser parce que nous avons les tables appropriées. (Notez le doublage.) $t$ $T$ $\newcommand{\pr}{\mathrm{Pr}} \pr\left(T\geq t\right)$ $H_0$ $\pr(|Z|\geq |z|)$ $2\min [\pr(Z\geq z),\pr(Z\leq z)]$

Il n’est pas nécessaire que la statistique de test mette les échantillons dans l’ordre de leur probabilité sous hypothèse nulle. Il y a des situations (comme l'exemple de Zag) où une autre façon perverse semblerait (sans plus d' informations sur ce mesures, quels types de divergences avec sont de plus d' intérêt, etc..), Mais souvent d' autres critères sont utilisés. Ainsi, vous pourriez avoir un PDF bimodal pour la statistique de test et toujours tester utilisant la formule ci-dessus. $r$ $H_0$ $H_0$

(2) Oui, ils signifient sous . $H_0$

(3) Une hypothèse nulle telle que "La fréquence des têtes est de 0,5" est inutile car vous ne pourrez jamais la rejeter. C'est un composé nul comprenant "la fréquence des têtes est de 0,49999999", ou aussi proche que vous le souhaitez. Que vous pensiez au préalable que la pièce est juste ou non, vous choisissez une hypothèse nulle utile qui concerne le problème. Peut-être plus utile après l'expérience est de calculer un intervalle de confiance pour la fréquence des têtes qui vous montre que ce n'est clairement pas une pièce équitable, ou qu'il est assez proche du juste, ou que vous avez besoin de plusieurs essais pour le savoir.

Une illustration pour (1):

Supposons que vous testez l'équité d'une pièce de monnaie avec 10 lancers. Il y a résultats possibles. En voici trois: $2^{10}$

$\mathsf{HHHHHHHHHH}\\ \mathsf{HTHTHTHTHT}\\ \mathsf{HHTHHHTTTH}$

Vous conviendrez probablement avec moi que les deux premiers semblent un peu suspects. Pourtant, les probabilités sous le zéro sont égales:

$\mathrm{Pr}(\mathsf{HHHHHHHHHH}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HTHTHTHTHT}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HHTHHHTTTH}) = \frac{1}{1024}$

Pour aller n'importe où, vous devez déterminer quels types d'alternatives à la valeur null que vous souhaitez tester. Si vous êtes prêt à assumer l'indépendance de chaque lancer avec null et alternative (et dans des situations réelles, cela signifie souvent de travailler très dur pour vous assurer que les essais expérimentaux sont indépendants), vous pouvez utiliser le nombre total de têtes comme statistique de test sans perdre d'informations. . (Le partitionnement de l’espace échantillon de cette manière est un autre travail important que font les statistiques.)

Donc, vous avez un compte entre 0 et 10

t<-c(0:10)

Sa distribution sous le zéro est

p.null<-dbinom(t,10,0.5)

Dans la version de l’alternative qui correspond le mieux aux données, si vous voyez (par exemple) 3 têtes sur 10, la probabilité d’en-tête est de . $\frac{3}{10}$

p.alt<-dbinom(t,10,t/10)

Prenez le rapport de la probabilité sous le nul à la probabilité de l’alternative (appelé rapport de vraisemblance):

lr<-p.alt/p.null

Comparer avec

plot(log(lr),p.null)

Donc, pour ce null, les deux statistiques ordonnancent les échantillons de la même manière. Si vous répétez avec une valeur nulle de 0,85 (c'est-à-dire en testant que la fréquence à long terme des têtes est de 85%), ce n'est pas le cas.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gof test

Pour voir pourquoi

plot(t,p.alt)

Certaines valeurs de sont moins probables dans l’alternative, et la statistique de test du rapport de vraisemblance en tient compte. NB cette statistique de test ne sera pas extrême pour $t$

$\mathsf{HTHTHTHTHT}$

Et ce n'est pas grave, chaque échantillon peut être considéré comme extrême d'un certain point de vue. Vous choisissez la statistique de test en fonction du type de divergence par rapport au null que vous souhaitez pouvoir détecter.

... Poursuivant dans cette direction, vous pouvez définir une statistique qui partitionne différemment l'espace d'échantillon pour tester le même zéro par rapport à l'alternative qu'un tirage au sort influence le suivant. Appelez le nombre de pistes , de sorte que $r$

$\mathsf{HHTHHHTTTH}$

$r=6$

$\mathsf{HH}\ \mathsf{T}\ \mathsf{HHH}\ \mathsf{TTT}\ \mathsf{H}$

La séquence suspecte

$\mathsf{HTHTHTHTHT}$

$r=10$

$\mathsf{THTHTHTHTH}$

tandis qu'à l'autre extrême

$\mathsf{HHHHHHHHHH}\\ \mathsf{TTTTTTTTTT}$

$r=1$

$\mathsf{HTHTHTHTHT}$

$\frac{4}{1024}=\frac{1}{256}$

Scortchi - Rétablir Monica
la source

Vous dites que la définition Pr (T \ ge t; H_0) peut s’appliquer à n’importe quel fichier PDF multimodal (bien sûr, y compris bimodal) d’une statistique de test. Ensuite, vous et Zag donnez différentes valeurs de p pour la PDF multimodale d'une statistique de test. IMHO, la définition de Zag est plus raisonnable parce que le rôle de p-value est de quantifier la probabilité (ou étrange) de l'observation sous l'hypothèse nulle, comme il l'a souligné. Quelle est votre justification de la définition Pr (T \ ge t; H_0)?

JDL

@JDL, c'est juste la définition d'une p-valeur. La question est alors de savoir comment trouver une "bonne" statistique de test (& comment définir "bonne"). Parfois, la probabilité sous le zéro (ou toute fonction des données donnant le même ordre) est utilisée comme statistique de test. Parfois, il existe de bonnes raisons de choisir d’autres, qui occupent beaucoup de place dans les livres de statistiques théoriques. Je pense qu'il est juste de dire qu'ils impliquent un examen explicite ou implicite des alternatives. ...

Scortchi

@JDL, ... Et si une observation donnée a une probabilité faible avec une alternative nulle et alternative, il semble raisonnable de ne pas la considérer comme extrême.

Scortchi - Réintégrer Monica

Merci pour vos réponses, @Scortchi. J'ai posté une nouvelle question et j'ai vu vos commentaires tout à l'heure après la publication. Quoi qu'il en soit, je ne comprends toujours pas la définition. Merci encore pour vos bonnes réponses.

JDL

J'ai ajouté une illustration

Scortchi - Réintégrer Monica