Interprétation de la valeur p dans le test d'hypothèse

Je suis récemment tombé sur le document "L'essai de signification de l'hypothèse nulle", Jeff Gill (1999) . L'auteur a soulevé quelques idées fausses sur les tests d'hypothèses et les valeurs p, au sujet desquelles j'ai deux questions spécifiques:

La valeur p est techniquement , ce qui, comme le souligne le journal, ne nous dit généralement rien sur , à moins de connaître les distributions marginales, ce qui est rarement le cas dans les tests d'hypothèses "quotidiens". Lorsque nous obtenons une petite valeur p et "rejetons l'hypothèse nulle", quelle est exactement la déclaration probabiliste que nous formulons, puisque nous ne pouvons rien dire à propos de ? $P({\rm observation}|H_{0})$ $P(H_{0}|{\rm observation})$ $P(H_{0}|{\rm observation})$
La deuxième question concerne une déclaration particulière de la page 6 (652) du document:

Étant donné que la valeur p, ou la plage de valeurs p indiquée par les étoiles, n'est pas définie à priori, il ne s'agit pas de la probabilité à long terme de commettre une erreur de type I, mais est généralement traitée comme telle.

Quelqu'un peut-il aider à expliquer le sens de cette déclaration?

hypothesis-testing p-value gung - Rétablir Monica
la source

TY pour la référence au papier

Ludovic Kuty

@ezbentley: peut-être qu'il est intéressant de répondre à ma question: stats.stackexchange.com/questions/166323/…

Réponses:

(Techniquement, la valeur P est la probabilité d'observer des données au moins aussi extrêmes que celles réellement observées, étant donné l'hypothèse nulle.)

Q1. La décision de rejeter l'hypothèse nulle sur la base d'une petite valeur de p dépend généralement de la «disjonction de Fisher»: soit un événement rare s'est produit, soit l'hypothèse nulle est fausse. En effet, la rareté de l'événement est ce que vous indique la valeur P plutôt que la probabilité que la valeur null soit fausse.

La probabilité que le zéro soit faux ne peut être obtenue à partir des données expérimentales que par l'intermédiaire du théorème de Bayes, qui exige de spécifier la probabilité «préalable» de l'hypothèse nulle (vraisemblablement ce que Gill appelle des «distributions marginales»).

Q2. Cette partie de votre question est beaucoup plus difficile qu'il n'y paraît. Il y a beaucoup de confusion concernant les valeurs P et les taux d'erreur, ce qui est vraisemblablement ce à quoi Gill fait référence avec "mais qui est généralement traité comme tel". La combinaison des valeurs p de Fisherian avec des taux d'erreur Neyman-Pearsoniens a été qualifiée de méli-mélo incohérent et est malheureusement très répandue. Aucune réponse brève ne sera tout à fait adéquate ici, mais je peux vous indiquer quelques bons articles (oui, l’un est le mien). Les deux vous aideront à comprendre le papier de Gill.

Hurlbert, S. et Lombardi, C. (2009). Effondrement final du cadre théorique de la décision Neyman-Pearson et montée du néo-pêcheur. Annales Zoologici Fennici, 46 (5), 311–349. (Lien vers le papier)

Lew, MJ (2012). Mauvaise pratique statistique en pharmacologie (et dans d'autres disciplines biomédicales de base): vous ne savez probablement pas P. British Journal of Pharmacology, 166 (5), 1559-1567. doi: 10.1111 / j.1476-5381.2012.01931.x (Lien vers le document)

Michael Lew
la source

Merci pour la clarification. Est-il techniquement incorrect de faire une déclaration telle que "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? La source de confusion semble être qu'aucune allégation probabiliste réelle n'est formulée à l'hypothèse nulle lorsque nous disons que la valeur nulle est "rejetée".

@ezbentley, cela dépend vraiment de ce que vous entendez par significatif. Ce mot n’a pas vraiment de sens dans la plupart des contextes, car il a été contaminé par l’hybride Fisher-Neyman-Pearson. Si vous avez obtenu une très petite valeur de p, il est juste de dire que la moyenne vraie n'est probablement pas égale à zéro, mais il est important de dire quelle était la moyenne observée et d'indiquer sa variabilité (SEM ou intervalle de confiance), et ne pas t oublier de dire quelle était la taille de l’échantillon. Une valeur de p ne remplace pas la spécification de la taille de l'effet observé.

Michael Lew

Merci pour l'explication. Je dois approfondir le paradigme Fisher et Neyman-Pearson.

@ Michael Lew: Peut-être qu'il serait intéressant de jeter un coup d'œil à ma réponse: stats.stackexchange.com/questions/166323/…

Votre paragraphe sous Q1 est probablement la meilleure explication du problème que j'ai vu jusqu'à présent. Merci.

Maxim.K

+1 à @MichaelLew, qui vous a fourni une bonne réponse. Peut-être que je peux toujours contribuer en fournissant une façon de penser à la Q2. Considérez la situation suivante:

L'hypothèse nulle est vraie. (Notez que si l'hypothèse nulle n'est pas vraie, aucune erreur de type I n'est possible et la signification de la valeur n'est pas claire .) $p$
a été fixé de manière conventionnelle à . $\alpha$ $0.05$
La valeur calculée est . $p$ $0.01$

Maintenant, la probabilité d'obtenir des données aussi extrême ou plus extrême que vos données est de 1% (c'est ce que les -value $p$ moyens). Vous avez rejeté l'hypothèse nulle, ce qui rend une erreur de type I . Est-il vrai que le taux d'erreur à long terme de type I dans cette situation est également de 1%, ce que de nombreuses personnes pourraient conclure intuitivement? La réponse est non . La raison en est que si vous aviez obtenu une de , vous auriez quand même rejeté la valeur null. En fait, vous auriez rejeté la valeur null même si était et, à long terme, les seront aussi importants $p$ $0.02$ $p$ $0.04\bar{9}$ $p$ 5% du temps et tous ces rejets seront des erreurs de type I. Ainsi, le taux d'erreur à long terme de type I est de 5% (où vous avez défini ). $\approx$ $\alpha$

(Divulgation: je n’ai pas lu le papier de Gill, je ne peux donc pas garantir que c’est ce qu’il voulait dire, mais cela donne un sens à l’affirmation selon laquelle la n’est pas [nécessairement] identique au taux d’erreur de type I à long terme. ) $p$

gung - Rétablir Monica
la source

Travailler dans un domaine (epi) où il est souvent extrêmement difficile de croire que l'hypothèse H_0 = 0 est réellement vraie, je pense que ce point est négligé et mérite beaucoup plus d'attention.

Boscovich

α

$\alpha$

+1, mais la suggestion que la signification d'une P-valeur n'est pas claire lorsque le null est faux est trompeuse. Plus la valeur P est petite, plus l'écart entre le zéro et l'observé est grand. Plus la taille de l'échantillon est grande, plus on peut supposer que la taille réelle de l'effet correspond à la taille de l'effet observé. Il est très utile de noter que le test de signification est analogue à une estimation.

Michael Lew

@ MichaelLew, je ne suis pas sûr que la valeur p signifie ces choses en soi. En conjonction avec N / (et plus précisément, en maintenant N constant), un p plus petit correspondra à un écart plus grand b / t les valeurs nulles et observées. Même dans ce cas, c’est plutôt quelque chose qui peut être déduit de p plutôt que quelque chose que p signifie . Il est également vrai que w / des tailles d'effet observées plus grandes devraient être plus proches des véritables ES, mais le rôle que p joue ici est moins clair pour moi. Par exemple, avec une valeur null nulle, le véritable effet pourrait toujours être très faible, et avec un nombre N important, nous nous attendrions à ce que le SE observé soit proche, mais p pourrait tout de même être grand.

Gay - Rétablir Monica

...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"

α

$\alpha$

J'aimerais faire un commentaire sur "l'insignifiance du test de signification de l'hypothèse nulle" mais qui ne répond pas à la question du PO.

$p$ $H_0$ $H_0\colon\{\theta=0\}$ $\theta=\epsilon$ $\epsilon$ $\epsilon$ $0$ $\epsilon$ $0$

Stéphane Laurent
la source

+1 Oui, le vrai problème avec les tests d'hypothèses conventionnels est qu'il répond à une question à laquelle vous ne voulez pas vraiment répondre, à savoir "existe-t-il des preuves significatives d'une différence?", Plutôt que "existe-t-il des preuves d'une différence significative?" ". Bien sûr, ce qui est réellement souhaité, c’est généralement "quelle est la probabilité que mon hypothèse de recherche soit vraie?", Mais on ne peut pas y répondre dans un cadre fréquentiste. La mauvaise interprétation découle généralement de tentatives visant à traiter le test fréquentiste en termes bayésiens.

Dikran Marsupial le

Ce n’est pas une bonne idée de séparer la signification des valeurs P et de la taille de l’échantillon. Une valeur P plus petite indique une taille d'effet plus grande pour une taille d'échantillon particulière, et pour une valeur P particulière, une taille d'échantillon plus grande indique que la taille de l'effet réel est probablement plus proche de la taille de l'effet observé. Les tests d’importance doivent être considérés dans le contexte de l’estimation et non des erreurs. Un échantillon plus grand donne toujours plus d'informations - la façon de l'interpréter appartient à l'expérimentateur. Le grand échantillon de plaintes d'effet négligeable n'est qu'un problème pour le test d'hypothèse de Neyman-Pearson.

Michael Lew