La phrase p- achalandage (aussi: "dragage de données" , "espionnage" ou "pêche") fait référence à divers types de fautes statistiques dans lesquelles les résultats deviennent artificiellement statistiquement significatifs. Il existe de nombreuses façons d'obtenir un résultat "plus significatif", notamment, sans s'y limiter:
- analyser uniquement un sous-ensemble "intéressant" de données dans lequel un motif a été trouvé;
- le fait de ne pas s'ajuster correctement pour plusieurs tests , en particulier les tests post-hoc et de ne pas signaler les tests effectués qui n'étaient pas significatifs;
- essayer différents tests de la même hypothèse , par exemple à la fois un test paramétrique et un test non paramétrique ( il y a une discussion à ce sujet dans ce fil ), mais en ne rapportant que le plus significatif;
- expérimenter avec l'inclusion / exclusion de points de données , jusqu'à ce que le résultat souhaité soit obtenu. Une opportunité se présente lorsque les "valeurs aberrantes de nettoyage des données", mais aussi lorsque vous appliquez une définition ambiguë (par exemple, dans une étude économétrique de "pays développés", différentes définitions donnent des ensembles de pays différents), ou des critères d'inclusion qualitatifs (par exemple, dans une méta-analyse peut être un argument finement équilibré si la méthodologie d’une étude particulière est suffisamment robuste pour être incluse);
- L'exemple précédent concerne les arrêts facultatifs , c'est-à-dire l'analyse d'un ensemble de données et la décision de collecter davantage de données ou non, en fonction des données collectées jusqu'à présent ("c'est presque important, mesurons trois autres étudiants!") sans tenir compte de cela. dans l'analyse;
- expérimentation au cours de l'ajustement du modèle , en particulier les covariables à inclure, mais aussi en ce qui concerne les transformations de données / la forme fonctionnelle.
Nous savons donc que le p- achalandage peut être fait. Il est souvent cité comme l'un des "dangers de la p-valeur " et a été mentionné dans le rapport ASA sur la signification statistique, discuté ici sur Cross Validated , nous savons donc aussi que c'est une mauvaise chose. Bien que certaines motivations douteuses et (en particulier dans la compétition pour la publication académique) des motivations contre-productives soient évidentes, je suppose qu’il est difficile de comprendre pourquoi cela est fait, qu’il s’agisse d’une faute délibérée ou d’une simple ignorance. Quelqu'un rapportant des valeurs p à partir d'une régression pas à pas (parce qu'ils trouvent que les procédures pas à pas produisent "de bons modèles", mais ne sont pas au courant du prétendu p-values sont invalidés) est dans ce dernier camp, mais l'effet est encore p -hacking sous le dernier de mes points ci - dessus.
Il y a certainement des preuves que p- achalandage «existe», par exemple Head et al (2015) recherchent des signes révélateurs d'infection de la littérature scientifique, mais quel est l'état actuel de nos bases de données à ce sujet? Je suis conscient que l'approche adoptée par Head et al ne s'est pas déroulée sans controverse. Par conséquent, l'état actuel de la littérature, ou de la pensée générale de la communauté universitaire, serait intéressant. Par exemple avons-nous une idée de:
- À quel point est-il répandu et dans quelle mesure pouvons-nous différencier son occurrence du biais de publication ? (Cette distinction est-elle même significative?)
- Est - ce que les modèles en p -hacking varient entre les champs académiques?
- Avons-nous une idée des mécanismes les plus courants (parmi lesquels figurent dans les points précédents) les mécanismes de p- achalandage? Certaines formes se sont-elles révélées plus difficiles à détecter que d'autres parce qu'elles sont "mieux déguisées"?
Références
Chef, ML, Holman, L., Lanfear, R., Kahn, AT et Jennions, MD (2015). L'étendue et les conséquences de p -hacking dans la science . PLoS Biol , 13 (3), e1002106.
la source
Réponses:
RÉSUMÉ ANALYTIQUE: si le "p-hacking" doit être compris de manière générale comme le veut la trajectoire de bricolage du Gelman, la réponse à sa prévalence actuelle est qu’il est presque universel.
Donc: Gelman n'aime pas le terme p-hacking car il implique que les recherches ont été activement trichées. Considérant que les problèmes peuvent survenir simplement parce que les chercheurs choisissent quel test effectuer / signaler après avoir examiné les données, c'est-à-dire après avoir effectué une analyse exploratoire.
Donc, si le "p-hacking" doit être compris de manière générale comme un chemin de bricolage à la Gelman, la réponse à sa prévalence actuelle est qu’il est presque universel.
Les seules exceptions qui me viennent à l’esprit sont les études de réplication entièrement préenregistrées en psychologie ou les essais médicaux entièrement préenregistrés.
Preuves spécifiques
De manière amusante, certaines personnes interrogées par les chercheurs ont découvert que beaucoup admettent avoir fait du piratage informatique ( John et al. 2012, Mesurer la prévalence de pratiques de recherche douteuses avec des incitations à la vérité ):
En dehors de cela, tout le monde a entendu parler de la soi-disant "crise de réplication" en psychologie: plus de la moitié des études récentes publiées dans les principales revues de psychologie ne se répliquent pas ( Nosek et al. 2015, Estimation de la reproductibilité de la science psychologique ). (Cette étude a récemment fait le tour de tous les blogs, car le numéro de mars 2016 de Science a publié un commentaire qui tentait de réfuter Nosek et al. Ainsi qu'une réponse de Nosek et al. La discussion s'est poursuivie ailleurs, voir l' article d'Andrew Gelman et le RetractionWatch poste auquel il renvoie. Pour le dire poliment, la critique n’est pas convaincante.)
Mise à jour nov. 2018: Kaplan et Irvin, 2017, La probabilité d'effets nuls des grands essais cliniques du NHLBI a augmenté avec le temps montre que la fraction des essais cliniques rapportant des résultats nuls est passée de 43% à 92% après la nécessité de pré-enregistrer:
Head et al. 2015
Je n'ai pas entendu parler de Head et al. étudier avant, mais ont maintenant passé un certain temps à parcourir la littérature environnante. J'ai également examiné brièvement leurs données brutes .
Et à part ça, l'effet est minime .
Mascicampo et Lalande
Cela semble impressionnant, mais Lakens 2015 ( pré-impression ) dans un commentaire publié soutient que cela ne semble impressionnant que grâce à l'ajustement exponentiel trompeur. Voir également Lakens 2015, Sur les défis de tirer des conclusions des valeurs de p juste en dessous de 0,05 et des références qui y figurent.
Économie
Faussement rassurant?
Uri Simonsohn affirme que cela est "faussement rassurant" . En fait, il cite ces articles de manière non critique, mais remarque ensuite que "la plupart des p-valeurs sont bien inférieures" à 0,05. Puis il dit: "C'est rassurant, mais faussement rassurant". Et voici pourquoi:
Conclusions
la source
simply because the researches chose what test to perform/report after looking at the data
Oui; et le problème est inévitable car il est à double tranchant. Lorsqu'une meilleure méthode est choisie pour les données - s'agit-il d'un suréquipement de cet échantillon spécifique ou d'une réunion d'appels techniques de cette population? Ou - supprimer les valeurs aberrantes - simule-t-il la population ou la récupère-t-elle? Qui va dire, finalement?Les graphiques en entonnoir constituent une innovation statistique majeure qui a complètement transformé la méta-analyse. Fondamentalement, un graphique en entonnoir montre la signification clinique et statistique sur le même graphique. Idéalement, ils formeraient une forme d'entonnoir. Cependant, plusieurs méta-analyses ont produit des graphiques en entonnoir montrant une forte forme bimodale, où les enquêteurs (ou les éditeurs) ont sélectivement retenu les résultats nuls. Le résultat est que le triangle devient plus large, car des études plus petites et moins puissantes ont utilisé des méthodes plus radicales pour "encourager" les résultats à atteindre une signification statistique. L'équipe du rapport Cochrane a ceci à dire à leur sujet .
Le premier graphique montre un graphique symétrique en l'absence de biais. La seconde montre un graphique asymétrique en présence de biais de déclaration. La troisième montre un graphique asymétrique en présence de biais, car certaines études de moindre envergure (cercles ouverts) ont une qualité méthodologique inférieure et produisent par conséquent des estimations exagérées des effets de l'intervention.
Je soupçonne que la plupart des auteurs ne sont pas au courant des méthodes qu'ils utilisent pour p-pirater. Ils ne suivent pas le nombre total de modèles qu'ils ajustent, n'appliquent pas différents critères d'exclusion ou n'optent pas pour chaque variable d'ajustement. Cependant, si je devais imposer un processus simple, j'aimerais beaucoup que le nombre total de modèles corresponde. Cela ne veut pas dire qu'il pourrait y avoir des raisons légitimes de réexécuter des modèles. Par exemple, nous venons d'analyser une analyse d'Alzheimer sans savoir que l'ApoE avait été collectée dans l'échantillon. Un œuf sur mon visage, nous avons repris les modèles.
la source