Cet article du New York Times " Les chances, continuellement mises à jour" a attiré mon attention. Pour être bref, il est écrit que
[Les statistiques bayésiennes] se révèlent particulièrement utiles pour aborder des problèmes complexes, y compris des recherches telles que celle utilisée par la Garde côtière en 2013 pour retrouver le pêcheur disparu, John Aldridge (mais pas jusqu'à présent dans la chasse au vol 370 de Malaysia Airlines). ......, les statistiques bayésiennes se répercutent dans tous les domaines, de la physique à la recherche sur le cancer, de l'écologie à la psychologie ...
Dans l'article, il y a aussi quelques critiques sur la p-valeur du fréquentiste, par exemple:
Les résultats sont généralement considérés comme «statistiquement significatifs» si la valeur p est inférieure à 5%. Mais il y a un danger dans cette tradition, a déclaré Andrew Gelman, professeur de statistique à Columbia. Même si les scientifiques ont toujours fait les calculs correctement - et ils ne le font pas, argue-t-il - accepter tout ce qui a une valeur p de 5% signifie qu'un résultat «statistiquement significatif» sur 20 n'est rien d'autre qu'un bruit aléatoire.
Outre ce qui précède, le plus célèbre article critiquant la valeur p est celui-ci - "Méthode scientifique: erreurs statistiques" de Regina Nuzzo, de Nature , dans lequel de nombreuses questions scientifiques soulevées par l’approche de la valeur p ont été examinées, telles que les problèmes de reproductibilité, piratage de valeur p, etc.
Les valeurs de p, «l'étalon-or» de la validité statistique, ne sont pas aussi fiables que le supposent de nombreux scientifiques. ...... La pire erreur est peut-être le genre de tromperie pour lequel le psychologue Uri Simonsohn de l'Université de Pennsylvanie et ses collègues ont popularisé le terme "P-hacking"; Il est également connu sous le nom de dragage de données, d'espionnage, de pêche, de poursuite de signification et de double-trempage. «Le piratage informatique», dit Simonsohn, «tente plusieurs choses jusqu'à ce que vous obteniez le résultat souhaité», même inconsciemment. ...... «Cette découverte semble avoir été obtenue par le piratage électronique, les auteurs ont abandonné l’une des conditions afin que la valeur globale globale soit inférieure à 0,05», et «Elle est un pirate informatique, elle surveille toujours les données pendant leur collecte. "
Une autre chose est une intrigue intéressante comme suit à partir d' ici , avec le commentaire à propos de l'intrigue:
Quelle que soit la taille de votre effet, vous pouvez toujours effectuer le difficile travail de collecte de données afin de dépasser le seuil de p <0,05. Tant que l'effet que vous étudiez n'est pas inexistant, les valeurs p mesurent simplement les efforts que vous avez consacrés à la collecte de données.
Avec tout ce qui précède, mes questions sont les suivantes:
Qu'est-ce que l'argument d'Andrew Gelman, dans la citation du deuxième bloc, signifie précisément? Pourquoi a-t-il interprété la valeur p de 5% comme "un résultat statistiquement significatif sur 20 ne tient compte que du bruit aléatoire"? Je ne suis pas convaincu car la valeur p est utilisée pour déduire une seule étude. Son point semble lié à de multiples tests.
Mise à jour: Consultez le blog d'Andrew Gelman à ce sujet: Non, ce n'est pas ce que j'ai dit! (Crédits à @Scortchi, @whuber).
Compte tenu des critiques formulées à propos de la valeur p et des nombreux critères d'information, tels que AIC, BIC et de Mallow pour évaluer la pertinence d'un modèle (donc de variables), ne devrions-nous pas utiliser la valeur p pour la sélection de variables? mais utiliser ces critères de sélection de modèle?
- Existe-t-il de bonnes indications pratiques sur l'utilisation de la valeur p pour l'analyse statistique, qui pourraient conduire à des résultats de recherche plus fiables?
Le cadre de modélisation bayésien serait-il un meilleur moyen de poursuivre, comme le préconise un statisticien? Plus précisément, une approche bayésienne serait-elle plus susceptible de résoudre les problèmes de recherche erronée ou de manipulation des données? Je ne suis pas convaincu ici non plus car le prieur est très subjectif dans l’approche bayésienne. Existe-t-il des études pratiques bien connues qui démontrent que l'approche bayésienne est meilleure que la valeur p du fréquentiste, ou du moins dans certains cas particuliers?
Mise à jour: Je souhaiterais particulièrement savoir s’il existe des cas où l’approche bayésienne est plus fiable que l’approche fréquentiste. Par "fiable", je veux dire que l'approche bayésienne est moins susceptible de manipuler des données pour obtenir les résultats souhaités. Aucune suggestion?
Mise à jour du 09/06/2015
Je viens de remarquer la nouvelle et j'ai pensé qu'il serait bon de la mettre ici pour discussion.
Un journal de psychologie interdit les valeurs P
Un test statistique controversé a finalement atteint sa fin, au moins dans un journal. Plus tôt ce mois-ci, les rédacteurs de BASP (Basic and Applied Social Psychology) ont annoncé que la revue ne publierait plus d'articles contenant des valeurs de P, car les statistiques étaient trop souvent utilisées pour soutenir des recherches de moindre qualité.
Avec un article récent, "La valeur instable de P génère des résultats non reproductibles" de Nature , à propos de la valeur de P.
Mise à jour 5/8/2016
En mars, l'Association américaine de statistique (ASA) a publié des déclarations sur la signification statistique et les valeurs p, "... La déclaration de l'ASA est destinée à orienter la recherche sur une ère" post p <0,05 "".
Cette déclaration contient 6 principes qui traitent de l’utilisation abusive de la valeur p:
- Les valeurs P peuvent indiquer dans quelle mesure les données sont incompatibles avec un modèle statistique spécifié.
- Les valeurs de probabilité ne mesurent pas la probabilité que l'hypothèse étudiée soit vraie, ni la probabilité que les données aient été produites uniquement par hasard.
- Les conclusions scientifiques et les décisions commerciales ou politiques ne doivent pas être fondées uniquement sur le fait qu'une valeur prédictive dépasse un seuil spécifique.
- Une inférence correcte exige un rapport complet et une transparence.
- Une valeur p, ou signification statistique, ne mesure pas la taille d'un effet ni l'importance d'un résultat.
- En soi, une valeur p ne fournit pas une bonne mesure des preuves concernant un modèle ou une hypothèse.
Détails: "L'instruction de l'ASA sur les valeurs p: contexte, processus et but" .
la source
Réponses:
Voici quelques réflexions:
la source
Pour moi, l’un des aspects les plus intéressants de la controverse sur le piratage informatique est que toute l’histoire de p <= 0,05 en tant que norme de signification statistique "une fois dans une lune bleue", comme Joseph Kaldane l’a souligné dans un article de JASA sur les statistiques médico-légales dans les années 90, ne repose absolument sur aucune théorie statistique. C’est une convention, une heuristique simple et une règle empirique qui a commencé avec RA Fisher et qui a depuis été réifiée ou consacrée dans son statut actuel «inconditionnel». Que vous soyez bayésien ou non, il est grand temps de contester cette norme métrique ou du moins de lui donner le scepticisme qu’elle mérite.
Cela dit, mon interprétation de l’argument de Gelman est que, comme on le sait bien, le processus d’examen par les pairs récompense une signification statistique positive et punit les résultats insignifiants en ne publiant pas ces documents. Que ce soit ou non, la publication d'une découverte insignifiante aurait potentiellement un impact considérable sur la réflexion et la théorisation pour un domaine donné. Gelman, Simonshohn et d’autres ont souligné à maintes reprises l’abus du seuil de signification de 0,05 dans des recherches examinées et publiées par des pairs en présentant des exemples de résultats ridicules, mais statistiquement significatifs, dans des recherches paranormales, sociales et psychologiques. L'une des plus flagrantes est la découverte statistiquement significative selon laquelle les femmes enceintes portaient davantage de robes rouges. Gelman soutient que, en l’absence de difficultés logiques pour les résultats statistiques,explication potentiellement dénuée de sens. Ici, il fait référence au risque professionnel de l'industrie avec des arguments trop techniques et abscons qui ne font presque rien pour faire avancer un débat parmi un public profane.
C’est un point que Gary King fait avec véhémence quand il supplie pratiquement les politologues quantitatifs (et, par extension, tous les quants) d’arrêter des reportages techniques et mécanistes du type "ce résultat est significatif au niveau ap <= 0.05" et s’orientant vers des interprétations plus substantielles . Voici une citation d'un article de lui,
Le point de King est très bien compris et trace la direction que doit prendre le débat.
Tirer le meilleur parti des analyses statistiques: améliorer l'interprétation et la présentation , King, Tomz et Wittenberg, 2002, Am Jour of Poli Sci .
la source
Voici certaines de mes réflexions sur la question 3 après avoir lu tous les commentaires et réponses perspicaces.
Pour éviter le piratage de la valeur p, il est peut-être utile, dans le cadre d’une analyse statistique, d’examiner la taille de l’effet scientifique (ou biologiquement, cliniquement, etc.) / significatif.
En outre, pour éviter d'utiliser une taille d'échantillon trop grande pour détecter l'effet, la taille d'échantillon requise doit également être prise en compte. Autrement dit, nous devrions limiter la taille maximale de l'échantillon utilisée pour l'expérience.
Pour résumer,
Avec ce qui précède, nous pouvons donc peut-être éviter un effet "significatif" mineur allégué par une taille d'échantillon énorme.
[Mise à jour 6/9/2015]
En ce qui concerne la question 3, voici quelques suggestions basées sur le récent article de la nature: "La valeur instable de P génère des résultats impossibles à reproduire", comme je l’ai mentionné dans la partie consacrée aux questions.
[Fin de la mise à jour le 09/06/2015]
la source
Cela implique que 1/20 résultats peuvent rejeter la valeur null alors qu'ils ne devraient pas l'avoir. Si la conclusion reposait sur des expériences individuelles, alors la déclaration serait défendable. Sinon, si les expériences étaient répétables, cela impliquerait que 19/20 ne serait pas rejeté. La morale de l'histoire est que les expériences doivent être répétables.
La science est une tradition fondée sur "l'objectivité", donc la "probabilité objective" est naturellement attrayante. Rappelez-vous que les expériences sont supposées démontrer un degré de contrôle élevé en utilisant souvent la conception de blocs et la randomisation pour contrôler les facteurs extérieurs à l'étude. Par conséquent, la comparaison avec le hasard est logique car tous les autres facteurs sont supposés être contrôlés, à l'exception de ceux étudiés. Ces techniques ont connu un grand succès dans l'agriculture et l'industrie avant d'être portées à la science.
Je ne sais pas si le manque d’information a vraiment été le problème. Il est à noter que pour beaucoup de sciences non mathématiques, les statistiques ne sont qu'une case à cocher.
Je suggérerais une lecture générale sur la théorie de la décision qui unit les deux cadres. Il s’agit simplement d’utiliser autant d’informations que vous avez. Les statistiques Frequentist supposent que les paramètres des modèles ont des valeurs inconnues issues de distributions fixes. Les bayésiens supposent que les paramètres dans les modèles proviennent de distributions conditionnées par ce que nous savons. S'il y a suffisamment d'informations pour former un précédent et suffisamment d'informations pour le mettre à jour correctement, c'est génial. Si ce n'est pas le cas, vous risquez d'obtenir de plus mauvais résultats.
la source
Reproductibilité des résultats de tests statistiques
Cet exercice court et simple permet d’évaluer la reproductibilité des décisions sur la base de tests statistiques.
Considérons une hypothèse nulle H0 avec un ensemble d’hypothèses alternatives contenant H1 et H2. Configurez la procédure de test d’hypothèse statistique à un niveau de signification de 0,05 pour avoir une puissance de 0,8, si H1 est vraie. Supposons en outre que la puissance pour H2 est de 0,5. Pour évaluer la reproductibilité du résultat du test, il est envisagé d’exécuter la procédure de test deux fois. En commençant par la situation où H0 est vraie, les probabilités des résultats de l'expérience conjointe sont présentées dans le tableau 1. La probabilité de ne pas pouvoir reproduire les décisions est de 0,095.
Tableau 1. Fréquences, si H0 est vraiLes fréquences changent lorsque le véritable état de la nature change. En supposant que H1 soit vrai, H0 peut être rejeté tel que conçu avec une puissance de 0,8. Les fréquences résultantes pour les différents résultats de l'expérience conjointe sont présentées dans le tableau 2. La probabilité de ne pas pouvoir reproduire les décisions est de 0,32.
Tableau 2. Fréquences, si H1 est vraiEn supposant que H2 soit vraie, H0 sera rejetée avec une probabilité de 0.5. Les fréquences résultantes pour les différents résultats de l'expérience conjointe sont présentées dans le tableau 3. La probabilité de ne pas pouvoir reproduire les décisions est de 0,5.
Tableau 3. Fréquences, si H2 est vraiLa procédure de test a été conçue pour contrôler les erreurs de type I (le rejet de l'hypothèse nulle alors qu'elle est vraie) avec une probabilité de 0,05 et les erreurs de type II (pas de rejet de l'hypothèse nulle alors qu'elle est fausse et que H1 est vraie). à 0,2. Dans les deux cas, avec H0 ou H1 supposés vrais, cela conduit à des fréquences non négligeables, 0,095 et 0,32, respectivement, de décisions "non reproductibles", "contradictoires", si la même expérience est répétée deux fois. La situation empire avec une fréquence allant jusqu'à 0,5 pour les décisions "non reproductibles", "contradictoires", si le véritable état de la nature se situe entre l'hypothèse nulle et l'hypothèse alternative utilisées pour concevoir l'expérience.
La situation peut également s'améliorer si les erreurs de type 1 sont contrôlées plus strictement ou si le véritable état de la nature est loin du zéro, ce qui donne le pouvoir de rejeter le zéro proche de 1.
Ainsi, si vous souhaitez des décisions plus reproductibles, augmentez le niveau de signification et la puissance de vos tests. Pas très étonnant ...
la source