La valeur p est-elle essentiellement inutile et dangereuse à utiliser?

36

Cet article du New York Times " Les chances, continuellement mises à jour" a attiré mon attention. Pour être bref, il est écrit que

[Les statistiques bayésiennes] se révèlent particulièrement utiles pour aborder des problèmes complexes, y compris des recherches telles que celle utilisée par la Garde côtière en 2013 pour retrouver le pêcheur disparu, John Aldridge (mais pas jusqu'à présent dans la chasse au vol 370 de Malaysia Airlines). ......, les statistiques bayésiennes se répercutent dans tous les domaines, de la physique à la recherche sur le cancer, de l'écologie à la psychologie ...

Dans l'article, il y a aussi quelques critiques sur la p-valeur du fréquentiste, par exemple:

Les résultats sont généralement considérés comme «statistiquement significatifs» si la valeur p est inférieure à 5%. Mais il y a un danger dans cette tradition, a déclaré Andrew Gelman, professeur de statistique à Columbia. Même si les scientifiques ont toujours fait les calculs correctement - et ils ne le font pas, argue-t-il - accepter tout ce qui a une valeur p de 5% signifie qu'un résultat «statistiquement significatif» sur 20 n'est rien d'autre qu'un bruit aléatoire.

Outre ce qui précède, le plus célèbre article critiquant la valeur p est celui-ci - "Méthode scientifique: erreurs statistiques" de Regina Nuzzo, de Nature , dans lequel de nombreuses questions scientifiques soulevées par l’approche de la valeur p ont été examinées, telles que les problèmes de reproductibilité, piratage de valeur p, etc.

Les valeurs de p, «l'étalon-or» de la validité statistique, ne sont pas aussi fiables que le supposent de nombreux scientifiques. ...... La pire erreur est peut-être le genre de tromperie pour lequel le psychologue Uri Simonsohn de l'Université de Pennsylvanie et ses collègues ont popularisé le terme "P-hacking"; Il est également connu sous le nom de dragage de données, d'espionnage, de pêche, de poursuite de signification et de double-trempage. «Le piratage informatique», dit Simonsohn, «tente plusieurs choses jusqu'à ce que vous obteniez le résultat souhaité», même inconsciemment. ...... «Cette découverte semble avoir été obtenue par le piratage électronique, les auteurs ont abandonné l’une des conditions afin que la valeur globale globale soit inférieure à 0,05», et «Elle est un pirate informatique, elle surveille toujours les données pendant leur collecte. "

Une autre chose est une intrigue intéressante comme suit à partir d' ici , avec le commentaire à propos de l'intrigue:

Quelle que soit la taille de votre effet, vous pouvez toujours effectuer le difficile travail de collecte de données afin de dépasser le seuil de p <0,05. Tant que l'effet que vous étudiez n'est pas inexistant, les valeurs p mesurent simplement les efforts que vous avez consacrés à la collecte de données.

entrez la description de l'image ici

Avec tout ce qui précède, mes questions sont les suivantes:

  1. Qu'est-ce que l'argument d'Andrew Gelman, dans la citation du deuxième bloc, signifie précisément? Pourquoi a-t-il interprété la valeur p de 5% comme "un résultat statistiquement significatif sur 20 ne tient compte que du bruit aléatoire"? Je ne suis pas convaincu car la valeur p est utilisée pour déduire une seule étude. Son point semble lié à de multiples tests.

    Mise à jour: Consultez le blog d'Andrew Gelman à ce sujet: Non, ce n'est pas ce que j'ai dit! (Crédits à @Scortchi, @whuber).

  2. Compte tenu des critiques formulées à propos de la valeur p et des nombreux critères d'information, tels que AIC, BIC et de Mallow pour évaluer la pertinence d'un modèle (donc de variables), ne devrions-nous pas utiliser la valeur p pour la sélection de variables? mais utiliser ces critères de sélection de modèle?Cp

  3. Existe-t-il de bonnes indications pratiques sur l'utilisation de la valeur p pour l'analyse statistique, qui pourraient conduire à des résultats de recherche plus fiables?
  4. Le cadre de modélisation bayésien serait-il un meilleur moyen de poursuivre, comme le préconise un statisticien? Plus précisément, une approche bayésienne serait-elle plus susceptible de résoudre les problèmes de recherche erronée ou de manipulation des données? Je ne suis pas convaincu ici non plus car le prieur est très subjectif dans l’approche bayésienne. Existe-t-il des études pratiques bien connues qui démontrent que l'approche bayésienne est meilleure que la valeur p du fréquentiste, ou du moins dans certains cas particuliers?

    Mise à jour: Je souhaiterais particulièrement savoir s’il existe des cas où l’approche bayésienne est plus fiable que l’approche fréquentiste. Par "fiable", je veux dire que l'approche bayésienne est moins susceptible de manipuler des données pour obtenir les résultats souhaités. Aucune suggestion?


Mise à jour du 09/06/2015

Je viens de remarquer la nouvelle et j'ai pensé qu'il serait bon de la mettre ici pour discussion.

Un journal de psychologie interdit les valeurs P

Un test statistique controversé a finalement atteint sa fin, au moins dans un journal. Plus tôt ce mois-ci, les rédacteurs de BASP (Basic and Applied Social Psychology) ont annoncé que la revue ne publierait plus d'articles contenant des valeurs de P, car les statistiques étaient trop souvent utilisées pour soutenir des recherches de moindre qualité.

Avec un article récent, "La valeur instable de P génère des résultats non reproductibles" de Nature , à propos de la valeur de P.

Mise à jour 5/8/2016

En mars, l'Association américaine de statistique (ASA) a publié des déclarations sur la signification statistique et les valeurs p, "... La déclaration de l'ASA est destinée à orienter la recherche sur une ère" post p <0,05 "".

Cette déclaration contient 6 principes qui traitent de l’utilisation abusive de la valeur p:

  1. Les valeurs P peuvent indiquer dans quelle mesure les données sont incompatibles avec un modèle statistique spécifié.
  2. Les valeurs de probabilité ne mesurent pas la probabilité que l'hypothèse étudiée soit vraie, ni la probabilité que les données aient été produites uniquement par hasard.
  3. Les conclusions scientifiques et les décisions commerciales ou politiques ne doivent pas être fondées uniquement sur le fait qu'une valeur prédictive dépasse un seuil spécifique.
  4. Une inférence correcte exige un rapport complet et une transparence.
  5. Une valeur p, ou signification statistique, ne mesure pas la taille d'un effet ni l'importance d'un résultat.
  6. En soi, une valeur p ne fournit pas une bonne mesure des preuves concernant un modèle ou une hypothèse.

Détails: "L'instruction de l'ASA sur les valeurs p: contexte, processus et but" .

Aaron Zeng
la source
11
0.050,05
10
@whuber: Vous avez raison: non, ce n'est pas ce que j'ai dit! .
Scortchi - Réintégrer Monica
4
Bonne trouvaille, @Scortchi! Pour mémoire - au cas où le lien se détériorerait - Gelman rejette catégoriquement la caractérisation du NY Times (même si avec beaucoup de tact) et écrit: "tout accepter avec une valeur p de 5% peut conduire à des conclusions fallacieuses - des cas où un" «statistiquement significatif» dans les données ne reflète pas un profil correspondant dans la population - beaucoup plus que 5% du temps. "
whuber
3
En référence à votre commentaire "Tant que l'effet que vous étudiez n'est pas inexistant", tel est le but des études utilisant les valeurs p - pour déterminer si l'effet que vous étudiez est réellement présent ou si les particularités du les données que vous avez collectées sont dues au hasard. Réduire la valeur p avec l’augmentation de la taille de l’échantillon est mathématiquement valable et constitue en fait la seule option. Vous ne devez en aucun cas "pirater" la valeur p. D'un point de vue intuitif, il est logique que plus d'effort dans la collecte de données se traduise par une confiance accrue dans les conclusions que vous en tirez.
David Webb
1
@DavidWebb D'accord. Si la taille de l'effet est petite, ce n'est pas grave et il sera plus facile de dire quelle est la taille de l'effet avec plus de données. Si vous pouvez obtenir plus de données, vous devriez.
Desty

Réponses:

25

Voici quelques réflexions:

  1. 80%100/118,7584%
  2. p
  3. p
  4. Je ne suis pas dogmatiquement opposé à l’utilisation de méthodes bayésiennes, mais je ne crois pas qu’elles régleraient ce problème. Par exemple, vous pouvez simplement continuer à collecter des données jusqu'à ce que l'intervalle crédible n'inclue plus la valeur que vous souhaitez refuser. Vous avez donc un "piratage par intervalles crédible". À mon avis, le problème est que de nombreux praticiens ne sont pas intrinsèquement intéressés par les analyses statistiques qu'ils utilisent. Ils utiliseront donc la méthode qui leur est demandée de manière irréfléchie et mécanique. Pour en savoir plus sur mon point de vue ici, il pourrait être utile de lire ma réponse à: La taille de l’effet comme hypothèse du test de signification .
gung - Rétablir Monica
la source
10
(+1) Un moyen facile de pirater un intervalle crédible consiste à adopter le bon préalable :-). Bien sûr, aucun praticien compétent ne le ferait - Gelman insiste sur l'utilisation d'évaluations de sensibilité, d'hyperprieurs non informatifs, etc. - mais là encore, aucun utilisateur compétent de tests d'hypothèses ne ferait un piratage de valeur p, n'est-ce pas? D'autre part, dans une analyse bayésienne, il pourrait être plus difficile de cacher ce que l'on fait - en supposant que le préalable est clairement divulgué - par rapport à toutes les analyses non documentées pouvant être impliquées dans le piratage de valeur p.
whuber
1
@ whuber, c'est vrai, mais je pense que nous pouvons mettre de côté tout problème avec l'inadéquation ou la subjectivité du précédent. Si le véritable effet n'est pas exactement 0, avec suffisamment de données, l'intervalle crédible finira par ne pas inclure 0, de même que le p sera <0,05 (cf, le dernier guillemet), de sorte que vous pouvez simplement continuer à collecter des données jusqu'à ce que vous obteniez le résultat que vous voulez indépendamment de la priorité.
Gay - Rétablir Monica
4
Bons points. Je me souviens d'une question récente sur la prévision des échecs de 10 000 produits après n'avoir observé aucun défaut sur 100 000 d'entre eux. La réponse est assez sensible à l’ancien parce que les échecs sont très rares. C'est peut-être le genre de situation exceptionnelle qui "prouve la règle"; cela montre qu’en réalité, il peut être impossible de collecter suffisamment de données pour obtenir le résultat souhaité. C'est exactement le moment où certains clients commencent à implorer le statisticien de "faire leur magie" pour obtenir le résultat souhaité! Probablement de nombreux lecteurs ont déjà ressenti cette pression ...
whuber
1
@gung, dans les essais cliniques pratiques, il existe toujours des critères d'arrêt à différentes phases pour recruter plus de sujets pour des expériences. En ce sens, l’approche bayésienne semblerait-elle moins susceptible de manipuler l’intervalle crédible et donc les conclusions de la recherche?
Aaron Zeng
2
@AaronZeng, il me semble que les critères d'arrêt explicites s'appliquent également aux perspectives Frequentist & Bayesian. Je ne vois aucun avantage / désavantage net ici.
Réinitialiser - Rétablir Monica
8

Pour moi, l’un des aspects les plus intéressants de la controverse sur le piratage informatique est que toute l’histoire de p <= 0,05 en tant que norme de signification statistique "une fois dans une lune bleue", comme Joseph Kaldane l’a souligné dans un article de JASA sur les statistiques médico-légales dans les années 90, ne repose absolument sur aucune théorie statistique. C’est une convention, une heuristique simple et une règle empirique qui a commencé avec RA Fisher et qui a depuis été réifiée ou consacrée dans son statut actuel «inconditionnel». Que vous soyez bayésien ou non, il est grand temps de contester cette norme métrique ou du moins de lui donner le scepticisme qu’elle mérite.

Cela dit, mon interprétation de l’argument de Gelman est que, comme on le sait bien, le processus d’examen par les pairs récompense une signification statistique positive et punit les résultats insignifiants en ne publiant pas ces documents. Que ce soit ou non, la publication d'une découverte insignifiante aurait potentiellement un impact considérable sur la réflexion et la théorisation pour un domaine donné. Gelman, Simonshohn et d’autres ont souligné à maintes reprises l’abus du seuil de signification de 0,05 dans des recherches examinées et publiées par des pairs en présentant des exemples de résultats ridicules, mais statistiquement significatifs, dans des recherches paranormales, sociales et psychologiques. L'une des plus flagrantes est la découverte statistiquement significative selon laquelle les femmes enceintes portaient davantage de robes rouges. Gelman soutient que, en l’absence de difficultés logiques pour les résultats statistiques,explication potentiellement dénuée de sens. Ici, il fait référence au risque professionnel de l'industrie avec des arguments trop techniques et abscons qui ne font presque rien pour faire avancer un débat parmi un public profane.

C’est un point que Gary King fait avec véhémence quand il supplie pratiquement les politologues quantitatifs (et, par extension, tous les quants) d’arrêter des reportages techniques et mécanistes du type "ce résultat est significatif au niveau ap <= 0.05" et s’orientant vers des interprétations plus substantielles . Voici une citation d'un article de lui,

(1) communiquent des estimations chiffrées précises des quantités les plus intéressantes, (2) comprennent des mesures raisonnables de l’incertitude entourant ces estimations et (3) nécessitent peu de connaissances spécialisées pour être comprises. La simple affirmation suivante satisfait à nos critères: "Toutes choses égales par ailleurs, une année d'études supplémentaire augmenterait votre revenu annuel de 1 500 dollars en moyenne, plus ou moins 500 dollars environ". Tout élève intelligent du secondaire comprendrait cette phrase, peu importe la complexité du modèle statistique et la puissance des ordinateurs utilisés pour la produire.

Le point de King est très bien compris et trace la direction que doit prendre le débat.

Tirer le meilleur parti des analyses statistiques: améliorer l'interprétation et la présentation , King, Tomz et Wittenberg, 2002, Am Jour of Poli Sci .

Mike Hunter
la source
2
+1 Merci pour cette contribution lisible, informative et réfléchie au fil.
whuber
@ Whuber Merci pour les mots gentils. Le temps nous dira si d'autres participants sont d'accord ou non.
Mike Hunter
2
Je peux être trompé, mais j'aime bien penser que certains (sinon la plupart) de nos électeurs actifs ne votent pas sur la base d'un accord ou d'un désaccord, mais sur le point de savoir si un message répond à la question initiale de manière claire et faisant autorité. . Après tout, le texte de survol au-dessus de l’icône upvote indique "Cette réponse est utile" et non pas "Je suis d’accord avec ce type". (Cela ne doit pas être confondu avec le vote sur notre méta-site, ce qui signifie un degré d'accord.) Les nombreux badges d'esprit sportif attribués à cette impression sont une preuve de cette impression .
whuber
@Whuber La nuance que vous indiquez est dûment notée.
Mike Hunter
@whuber ce fil a été la source de mon utilisation du mot trompé dans notre conversation de l'autre jour.
Mike Hunter
5

Voici certaines de mes réflexions sur la question 3 après avoir lu tous les commentaires et réponses perspicaces.

Pour éviter le piratage de la valeur p, il est peut-être utile, dans le cadre d’une analyse statistique, d’examiner la taille de l’effet scientifique (ou biologiquement, cliniquement, etc.) / significatif.

θ

H0:θ=0vs.Ha:θ0,
H0:θ<δvs.Ha:θδ,
δ

En outre, pour éviter d'utiliser une taille d'échantillon trop grande pour détecter l'effet, la taille d'échantillon requise doit également être prise en compte. Autrement dit, nous devrions limiter la taille maximale de l'échantillon utilisée pour l'expérience.

Pour résumer,

  1. Nous avons besoin de prédéfinir un seuil pour que l'ampleur de l'effet significatif déclare son importance;
  2. Nous devons prédéfinir un seuil pour la taille de l'échantillon utilisé dans l'expérience afin de quantifier le degré de détection de la taille de l'effet significatif;

Avec ce qui précède, nous pouvons donc peut-être éviter un effet "significatif" mineur allégué par une taille d'échantillon énorme.


[Mise à jour 6/9/2015]

En ce qui concerne la question 3, voici quelques suggestions basées sur le récent article de la nature: "La valeur instable de P génère des résultats impossibles à reproduire", comme je l’ai mentionné dans la partie consacrée aux questions.

  1. Rapportez les estimations de taille d'effet et leur précision, c'est-à-dire un intervalle de confiance de 95%, car ces informations plus informatives répondent exactement aux questions suivantes: quelle est l'ampleur de la différence ou la force de la relation ou de l'association?
  2. Mettez les estimations de taille d'effet et les IC à 95% dans le contexte des questions / études scientifiques spécifiques et concentrez-vous sur leur pertinence de répondre à ces questions et actualisez la valeur de P instable.
  3. Remplacez l’analyse de puissance par « planification de la précision » pour déterminer la taille de l’échantillon requise pour estimer la taille de l’effet afin d’atteindre un degré de précision défini.

[Fin de la mise à jour le 09/06/2015]

Aaron Zeng
la source
4
H0:θ=δ
@AndyW, Merci pour les commentaires. J'ai changé ma réponse en conséquence. Cela vous semblerait-il une meilleure option?
Aaron Zeng
2
+1 pour la référence à cet article de Nature. Il contient cependant des informations erronées étonnantes, telles que l'interprétation bayésienne (non annoncée) des valeurs p: "Par exemple, si une étude obtient P = 0,03, il y a 90% de chances qu'une étude répliquée renvoie une valeur p quelque part entre le large intervalle de 0–0,6 (intervalles de prédiction de 90%), alors que les chances de p <0,05 ne sont que de 56%. " Je me demande quelle distribution antérieure les auteurs supposent - et pourquoi cela est-il même pertinent?
whuber
@ AndyW et Aaron Zeng, encore mieux est de combiner les résultats des deux tests de différence et des tests d'équivalence. De cette manière, on place explicitement la taille de l’effet pertinente et la puissance statistique dans les conclusions que l’on tire (voir la section sur les tests de pertinence).
Alexis
3

P(D|H0)αH0H0

  1. Cela implique que 1/20 résultats peuvent rejeter la valeur null alors qu'ils ne devraient pas l'avoir. Si la conclusion reposait sur des expériences individuelles, alors la déclaration serait défendable. Sinon, si les expériences étaient répétables, cela impliquerait que 19/20 ne serait pas rejeté. La morale de l'histoire est que les expériences doivent être répétables.

  2. La science est une tradition fondée sur "l'objectivité", donc la "probabilité objective" est naturellement attrayante. Rappelez-vous que les expériences sont supposées démontrer un degré de contrôle élevé en utilisant souvent la conception de blocs et la randomisation pour contrôler les facteurs extérieurs à l'étude. Par conséquent, la comparaison avec le hasard est logique car tous les autres facteurs sont supposés être contrôlés, à l'exception de ceux étudiés. Ces techniques ont connu un grand succès dans l'agriculture et l'industrie avant d'être portées à la science.

  3. Je ne sais pas si le manque d’information a vraiment été le problème. Il est à noter que pour beaucoup de sciences non mathématiques, les statistiques ne sont qu'une case à cocher.

  4. Je suggérerais une lecture générale sur la théorie de la décision qui unit les deux cadres. Il s’agit simplement d’utiliser autant d’informations que vous avez. Les statistiques Frequentist supposent que les paramètres des modèles ont des valeurs inconnues issues de distributions fixes. Les bayésiens supposent que les paramètres dans les modèles proviennent de distributions conditionnées par ce que nous savons. S'il y a suffisamment d'informations pour former un précédent et suffisamment d'informations pour le mettre à jour correctement, c'est génial. Si ce n'est pas le cas, vous risquez d'obtenir de plus mauvais résultats.

Émir
la source
1

Reproductibilité des résultats de tests statistiques

Cet exercice court et simple permet d’évaluer la reproductibilité des décisions sur la base de tests statistiques.

Considérons une hypothèse nulle H0 avec un ensemble d’hypothèses alternatives contenant H1 et H2. Configurez la procédure de test d’hypothèse statistique à un niveau de signification de 0,05 pour avoir une puissance de 0,8, si H1 est vraie. Supposons en outre que la puissance pour H2 est de 0,5. Pour évaluer la reproductibilité du résultat du test, il est envisagé d’exécuter la procédure de test deux fois. En commençant par la situation où H0 est vraie, les probabilités des résultats de l'expérience conjointe sont présentées dans le tableau 1. La probabilité de ne pas pouvoir reproduire les décisions est de 0,095.

Tableau 1. Fréquences, si H0 est vrai

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

Les fréquences changent lorsque le véritable état de la nature change. En supposant que H1 soit vrai, H0 peut être rejeté tel que conçu avec une puissance de 0,8. Les fréquences résultantes pour les différents résultats de l'expérience conjointe sont présentées dans le tableau 2. La probabilité de ne pas pouvoir reproduire les décisions est de 0,32.

Tableau 2. Fréquences, si H1 est vrai

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

En supposant que H2 soit vraie, H0 sera rejetée avec une probabilité de 0.5. Les fréquences résultantes pour les différents résultats de l'expérience conjointe sont présentées dans le tableau 3. La probabilité de ne pas pouvoir reproduire les décisions est de 0,5.

Tableau 3. Fréquences, si H2 est vrai

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

La procédure de test a été conçue pour contrôler les erreurs de type I (le rejet de l'hypothèse nulle alors qu'elle est vraie) avec une probabilité de 0,05 et les erreurs de type II (pas de rejet de l'hypothèse nulle alors qu'elle est fausse et que H1 est vraie). à 0,2. Dans les deux cas, avec H0 ou H1 supposés vrais, cela conduit à des fréquences non négligeables, 0,095 et 0,32, respectivement, de décisions "non reproductibles", "contradictoires", si la même expérience est répétée deux fois. La situation empire avec une fréquence allant jusqu'à 0,5 pour les décisions "non reproductibles", "contradictoires", si le véritable état de la nature se situe entre l'hypothèse nulle et l'hypothèse alternative utilisées pour concevoir l'expérience.

La situation peut également s'améliorer si les erreurs de type 1 sont contrôlées plus strictement ou si le véritable état de la nature est loin du zéro, ce qui donne le pouvoir de rejeter le zéro proche de 1.

Ainsi, si vous souhaitez des décisions plus reproductibles, augmentez le niveau de signification et la puissance de vos tests. Pas très étonnant ...

utilisateur36160
la source
(+1) Mais vous ne pouvez pas définir la valeur p sur 5% avant l'expérience - pensez que vous voulez dire "niveau de signification".
Scortchi - Réintégrer Monica
Merci. Même chose dans la dernière phrase: "diminuez les niveaux de signification et augmentez la puissance"
Scortchi - Rétablir Monica
Je pense que le plus gros problème avec les valeurs p est que les gens les confondent avec une signification fondamentale. Donc, si p <0,05, cela signifie que la taille de l'effet découvert est suffisamment importante pour avoir de l'importance. On me demande au travail de générer des effets [substantiels] significatifs en générant des valeurs p.
user54285