Je sais qu'il existe de nombreux matériaux expliquant la valeur p. Cependant, le concept n'est pas facile à saisir fermement sans clarification supplémentaire.
Voici la définition de p-value de Wikipedia:
La valeur p est la probabilité d'obtenir une statistique de test au moins aussi extrême que celle qui a été réellement observée, en supposant que l'hypothèse nulle soit vraie. ( http://en.wikipedia.org/wiki/P-value )
Ma première question concerne l'expression "au moins aussi extrême que celle qui a été réellement observée". Ma compréhension de la logique sous-jacente à l'utilisation de la valeur p est la suivante: Si la valeur p est petite, il est peu probable que l'observation ait eu lieu en supposant l'hypothèse nulle et nous aurons peut-être besoin d'une hypothèse alternative pour expliquer l'observation. Si la valeur p n'est pas si petite, il est probable que l'observation ait eu lieu uniquement en supposant l'hypothèse nulle et l'hypothèse alternative n'est pas nécessaire pour expliquer l'observation. Donc, si quelqu'un veut insister sur une hypothèse, il doit montrer que la valeur p de l'hypothèse nulle est très petite. Dans cette optique, ma compréhension de l'expression ambiguë est que la valeur p est, si le PDF de la statistique est unimodal, où est la statistique de test et sa valeur obtenue à partir de l'observation. Est-ce correct? S'il est correct, est-il toujours possible d'utiliser le PDF bimodal de la statistique? Si deux pics du fichier PDF sont bien séparés et que la valeur observée se situe quelque part dans la région de densité de faible probabilité entre les deux pics, à quel intervalle la valeur p donne-t-elle la probabilité de?
La deuxième question concerne une autre définition de p-value de Wolfram MathWorld:
Probabilité qu'un variate prenne une valeur supérieure ou égale à la valeur observée strictement par hasard. ( http://mathworld.wolfram.com/P-Value.html )
J'ai compris que l'expression "strictement par hasard" devrait être interprétée comme "en supposant une hypothèse nulle". Est-ce correct?
La troisième question concerne l'utilisation de "l'hypothèse nulle". Supposons que quelqu'un veuille insister sur le fait qu'une pièce de monnaie est juste. Il exprime l'hypothèse que la fréquence relative des têtes est de 0,5. Alors l'hypothèse nulle est "la fréquence relative des têtes n'est pas 0.5." Dans ce cas, alors qu'il est difficile de calculer la valeur p de l'hypothèse nulle, le calcul est facile pour l'hypothèse alternative. Bien entendu, le problème peut être résolu en interchangeant le rôle des deux hypothèses. Ma question est que le rejet ou l'acceptation basée directement sur la valeur p de l'hypothèse alternative initiale (sans introduire l'hypothèse nulle) consiste à savoir si elle est OK ou non. Si ce n'est pas OK, quelle est la solution habituelle pour résoudre ce type de difficultés lors du calcul de la valeur p d'une hypothèse nulle?
J'ai posté une nouvelle question qui est plus clarifiée sur la base de la discussion dans ce fil.
Réponses:
Première réponse
Vous devez penser au concept d'extrême en termes de probabilité des statistiques de test, et non en termes de valeur ou de valeur de la variable aléatoire testée. Je rapporte l'exemple suivant de Christensen, R. (2005). Test de Fisher, Neyman, Pearson et Bayes . Le statisticien américain , 59 (2), 121-126
Ici sont les observations, la deuxième ligne est la probabilité d'observer une observation donnée sous l'hypothèse nulle , qui est utilisée ici comme statistique de test, la troisième ligne est la valeur . Nous sommes ici dans le cadre du test de Fisher: il y a une hypothèse ( , dans ce cas ) sous laquelle nous voulons voir si les données sont étranges ou non. Les observations avec la plus faible probabilité sont 2 et 3 avec 0,5% chacune. Si vous obtenez 2, par exemple, la probabilité d'observer quelque chose de plus probable ou moins probable ( et ) est de 1%. L'observation ne contribue pas à laθ = 0 p H 0 θ = 0 r = 2 r = 3 r = 4 pr θ=0 p H0 θ=0 r=2 r=3 r=4 p valeur, bien qu’elle soit plus éloignée (s’il existe une relation d’ordre), car elle a une probabilité plus élevée d’être observée.
Cette définition fonctionne en général, car elle prend en charge les variables catégorielles et multidimensionnelles, lorsqu'une relation d'ordre n'est pas définie. Dans le cas d'une variable quantitative ingle, où vous observez un biais du résultat le plus probable, il peut être judicieux de calculer la valeur queue simple et de ne prendre en compte que les observations figurant d'un côté de la distribution des statistiques de test.p
Deuxième réponse
Je suis entièrement en désaccord avec cette définition de Mathworld.
Troisième réponse
Je dois dire que je ne suis pas tout à fait sûr d'avoir bien compris votre question, mais je vais essayer de vous donner quelques observations qui pourraient vous aider.
Dans le contexte le plus simple des tests de Fisherian, où vous n’avez que l’hypothèse nulle, cela devrait être le statu quo . En effet, les tests effectués par Fisherian fonctionnent essentiellement par contradiction. Donc, dans le cas de la pièce, à moins que vous n'ayez des raisons de penser différemment, vous vous en , . Ensuite, vous calculez la valeur pour vos données sous et, si votre valeur est inférieure à un seuil prédéfini, vous rejetez l'hypothèse (preuve par contradiction). Vous ne calculez jamais la probabilité de l'hypothèse nulle.p H 0 pH0:θ=0.5 p H0 p
Avec les tests de Neyman-Pearson, vous spécifiez deux hypothèses alternatives et, en fonction de leur vraisemblance relative et de la dimensionnalité des vecteurs de paramètre, vous privilégiez l'une ou l'autre. Cela peut être constaté, par exemple, dans le test de l'hypothèse d'une pièce biaisée ou non. Non biaisé signifie fixer le paramètre à (la dimensionnalité de cet espace de paramètre est nul), alors que polarisé peut être toute valeur (dimensionnalité égale à un). Cela résout le problème d'essayer de contredire l'hypothèse de partialité par contradiction, ce qui serait impossible, comme l'explique un autre utilisateur. Fisher et NP donnent des résultats similaires lorsque l'échantillon est grand, mais ils ne sont pas exactement équivalents. Ci-dessous un code simple en R pour une pièce biaisée.θ=0.5 θ≠0.5
la source
(1) Une statistique est un nombre que vous pouvez calculer à partir d'un échantillon. Il sert à mettre en ordre tous les échantillons que vous pourriez avoir (sous un modèle supposé, où les pièces ne tombent pas sur les bords et ce que vous avez). Si est ce que vous calculez à partir de l'échantillon que vous avez réellement obtenu, & T est la variable aléatoire correspondante, alors la valeur p est donnée par sous l'hypothèse nulle, . "Supérieur à" vs "plus extrême" n'a pas d'importance en principe. Pour un test bilatéral sur une moyenne normale, nous pourrions utiliser mais il est pratique d'utiliser parce que nous avons les tables appropriées. (Notez le doublage.)t T Pr(T≥t) H0 Pr(|Z|≥|z|) 2min[Pr(Z≥z),Pr(Z≤z)]
Il n’est pas nécessaire que la statistique de test mette les échantillons dans l’ordre de leur probabilité sous hypothèse nulle. Il y a des situations (comme l'exemple de Zag) où une autre façon perverse semblerait (sans plus d' informations sur ce mesures, quels types de divergences avec sont de plus d' intérêt, etc..), Mais souvent d' autres critères sont utilisés. Ainsi, vous pourriez avoir un PDF bimodal pour la statistique de test et toujours tester utilisant la formule ci-dessus.r H0 H0
(2) Oui, ils signifient sous .H0
(3) Une hypothèse nulle telle que "La fréquence des têtes est de 0,5" est inutile car vous ne pourrez jamais la rejeter. C'est un composé nul comprenant "la fréquence des têtes est de 0,49999999", ou aussi proche que vous le souhaitez. Que vous pensiez au préalable que la pièce est juste ou non, vous choisissez une hypothèse nulle utile qui concerne le problème. Peut-être plus utile après l'expérience est de calculer un intervalle de confiance pour la fréquence des têtes qui vous montre que ce n'est clairement pas une pièce équitable, ou qu'il est assez proche du juste, ou que vous avez besoin de plusieurs essais pour le savoir.
Une illustration pour (1):
Supposons que vous testez l'équité d'une pièce de monnaie avec 10 lancers. Il y a résultats possibles. En voici trois:210
Vous conviendrez probablement avec moi que les deux premiers semblent un peu suspects. Pourtant, les probabilités sous le zéro sont égales:
Pour aller n'importe où, vous devez déterminer quels types d'alternatives à la valeur null que vous souhaitez tester. Si vous êtes prêt à assumer l'indépendance de chaque lancer avec null et alternative (et dans des situations réelles, cela signifie souvent de travailler très dur pour vous assurer que les essais expérimentaux sont indépendants), vous pouvez utiliser le nombre total de têtes comme statistique de test sans perdre d'informations. . (Le partitionnement de l’espace échantillon de cette manière est un autre travail important que font les statistiques.)
Donc, vous avez un compte entre 0 et 10
Sa distribution sous le zéro est
Dans la version de l’alternative qui correspond le mieux aux données, si vous voyez (par exemple) 3 têtes sur 10, la probabilité d’en-tête est de .310
Prenez le rapport de la probabilité sous le nul à la probabilité de l’alternative (appelé rapport de vraisemblance):
Comparer avec
Donc, pour ce null, les deux statistiques ordonnancent les échantillons de la même manière. Si vous répétez avec une valeur nulle de 0,85 (c'est-à-dire en testant que la fréquence à long terme des têtes est de 85%), ce n'est pas le cas.
Pour voir pourquoi
Certaines valeurs de sont moins probables dans l’alternative, et la statistique de test du rapport de vraisemblance en tient compte. NB cette statistique de test ne sera pas extrême pourt
Et ce n'est pas grave, chaque échantillon peut être considéré comme extrême d'un certain point de vue. Vous choisissez la statistique de test en fonction du type de divergence par rapport au null que vous souhaitez pouvoir détecter.
... Poursuivant dans cette direction, vous pouvez définir une statistique qui partitionne différemment l'espace d'échantillon pour tester le même zéro par rapport à l'alternative qu'un tirage au sort influence le suivant. Appelez le nombre de pistes , de sorte quer
La séquence suspecte
tandis qu'à l'autre extrême
la source