Que savons-nous du piratage informatique «à l'état sauvage»?

94

La phrase p- achalandage (aussi: "dragage de données" , "espionnage" ou "pêche") fait référence à divers types de fautes statistiques dans lesquelles les résultats deviennent artificiellement statistiquement significatifs. Il existe de nombreuses façons d'obtenir un résultat "plus significatif", notamment, sans s'y limiter:

  • analyser uniquement un sous-ensemble "intéressant" de données dans lequel un motif a été trouvé;
  • le fait de ne pas s'ajuster correctement pour plusieurs tests , en particulier les tests post-hoc et de ne pas signaler les tests effectués qui n'étaient pas significatifs;
  • essayer différents tests de la même hypothèse , par exemple à la fois un test paramétrique et un test non paramétrique ( il y a une discussion à ce sujet dans ce fil ), mais en ne rapportant que le plus significatif;
  • expérimenter avec l'inclusion / exclusion de points de données , jusqu'à ce que le résultat souhaité soit obtenu. Une opportunité se présente lorsque les "valeurs aberrantes de nettoyage des données", mais aussi lorsque vous appliquez une définition ambiguë (par exemple, dans une étude économétrique de "pays développés", différentes définitions donnent des ensembles de pays différents), ou des critères d'inclusion qualitatifs (par exemple, dans une méta-analyse peut être un argument finement équilibré si la méthodologie d’une étude particulière est suffisamment robuste pour être incluse);
  • L'exemple précédent concerne les arrêts facultatifs , c'est-à-dire l'analyse d'un ensemble de données et la décision de collecter davantage de données ou non, en fonction des données collectées jusqu'à présent ("c'est presque important, mesurons trois autres étudiants!") sans tenir compte de cela. dans l'analyse;
  • expérimentation au cours de l'ajustement du modèle , en particulier les covariables à inclure, mais aussi en ce qui concerne les transformations de données / la forme fonctionnelle.

Nous savons donc que le p- achalandage peut être fait. Il est souvent cité comme l'un des "dangers de la p-valeur " et a été mentionné dans le rapport ASA sur la signification statistique, discuté ici sur Cross Validated , nous savons donc aussi que c'est une mauvaise chose. Bien que certaines motivations douteuses et (en particulier dans la compétition pour la publication académique) des motivations contre-productives soient évidentes, je suppose qu’il est difficile de comprendre pourquoi cela est fait, qu’il s’agisse d’une faute délibérée ou d’une simple ignorance. Quelqu'un rapportant des valeurs p à partir d'une régression pas à pas (parce qu'ils trouvent que les procédures pas à pas produisent "de bons modèles", mais ne sont pas au courant du prétendu p-values sont invalidés) est dans ce dernier camp, mais l'effet est encore p -hacking sous le dernier de mes points ci - dessus.

Il y a certainement des preuves que p- achalandage «existe», par exemple Head et al (2015) recherchent des signes révélateurs d'infection de la littérature scientifique, mais quel est l'état actuel de nos bases de données à ce sujet? Je suis conscient que l'approche adoptée par Head et al ne s'est pas déroulée sans controverse. Par conséquent, l'état actuel de la littérature, ou de la pensée générale de la communauté universitaire, serait intéressant. Par exemple avons-nous une idée de:

  • À quel point est-il répandu et dans quelle mesure pouvons-nous différencier son occurrence du biais de publication ? (Cette distinction est-elle même significative?)
  • p0.05p0.01
  • Est - ce que les modèles en p -hacking varient entre les champs académiques?
  • Avons-nous une idée des mécanismes les plus courants (parmi lesquels figurent dans les points précédents) les mécanismes de p- achalandage? Certaines formes se sont-elles révélées plus difficiles à détecter que d'autres parce qu'elles sont "mieux déguisées"?

Références

Chef, ML, Holman, L., Lanfear, R., Kahn, AT et Jennions, MD (2015). L'étendue et les conséquences de p -hacking dans la science . PLoS Biol , 13 (3), e1002106.

Poisson d'argent
la source
6
Votre dernière question est une bonne idée de recherche: donnez des données brutes à un groupe de chercheurs de différents domaines, équipez-les dans SPSS (ou ce qu’ils utilisent), puis enregistrez ce qu’ils font en se faisant concurrence pour obtenir des résultats plus significatifs. .
Tim
1
On pourrait peut-être le faire sans que les sujets sachent que cela se produisait en utilisant une histoire de soumissions Kaggle. Ils ne publient pas, mais ils essaient de toutes les manières possibles pour atteindre le nombre magique.
EngrStudent
1
Crossvalidated possède-t-il une collection (par exemple, des wikis communautaires) d'exemples simples de simulation de p-hacking? J'imagine des exemples de jouets dans lesquels le chercheur simulé réagit à des résultats "marginalement significatifs" en collectant plus de données, en expérimentant des spécifications de régression, etc.
Adrian
2
@Adrian CV n’est qu’un site de questions-réponses; il ne contient aucune donnée, ni code, n’a pas de référentiel caché - tout ce que vous trouvez dans les réponses est à vous sous licence CC :) Cette question semble porter sur la collecte de tels exemples.
Tim
1
@Tim bien sûr, je n'imaginais pas de système de dépôt de code caché - seulement des extraits de code inclus dans les réponses. Par exemple, quelqu'un pourrait demander "qu'est-ce que le p-hacking?", Et quelqu'un pourrait inclure une simulation de jouet R dans sa réponse. Serait-il approprié de répondre à la question actuelle avec des exemples de code? "Combien savons-nous" est une question très large.
Adrian

Réponses:

76

RÉSUMÉ ANALYTIQUE: si le "p-hacking" doit être compris de manière générale comme le veut la trajectoire de bricolage du Gelman, la réponse à sa prévalence actuelle est qu’il est presque universel.


p

Ce problème est parfois appelé «p-hacking» ou «degré de liberté du chercheur» (Simmons, Nelson et Simonsohn, 2011). Dans un article récent, nous avons parlé d '"expéditions de pêche [...]". Mais nous commençons à avoir l’impression que le terme «pêche» était malheureux, dans la mesure où il évoque l’image d’un chercheur essayant comparaison après comparaison, jetant la ligne dans le lac à plusieurs reprises jusqu’à ce qu’un poisson soit attrapé. Nous n'avons aucune raison de penser que les chercheurs le font régulièrement. Nous pensons que la vraie histoire est que les chercheurs peuvent effectuer une analyse raisonnable en fonction de leurs hypothèses et de leurs données, mais que si les données avaient été révélées différemment, ils auraient pu effectuer d'autres analyses tout aussi raisonnables dans ces circonstances.

Nous regrettons la propagation des termes "pêche" et "piratage" (et même "degrés de liberté du chercheur") pour deux raisons: premièrement, parce que, lorsque ces termes sont utilisés pour décrire une étude, il existe une implication trompeuse selon laquelle essayaient consciemment de nombreuses analyses différentes sur un seul jeu de données; et, deuxièmement, parce que cela peut amener les chercheurs qui savent qu'ils n'ont pas essayé beaucoup d'analyses différentes à penser à tort qu'ils ne sont pas aussi fortement sujets aux problèmes de degré de liberté des chercheurs. [...] Notre point clé ici est qu'il est possible de faire de multiples comparaisons potentielles, dans le sens d'une analyse de données dont les détails dépendent fortement des données, sans que le chercheur effectue une procédure consciente de pêche ou examine de multiples valeurs p. .

Donc: Gelman n'aime pas le terme p-hacking car il implique que les recherches ont été activement trichées. Considérant que les problèmes peuvent survenir simplement parce que les chercheurs choisissent quel test effectuer / signaler après avoir examiné les données, c'est-à-dire après avoir effectué une analyse exploratoire.

p

Donc, si le "p-hacking" doit être compris de manière générale comme un chemin de bricolage à la Gelman, la réponse à sa prévalence actuelle est qu’il est presque universel.

Les seules exceptions qui me viennent à l’esprit sont les études de réplication entièrement préenregistrées en psychologie ou les essais médicaux entièrement préenregistrés.

Preuves spécifiques

De manière amusante, certaines personnes interrogées par les chercheurs ont découvert que beaucoup admettent avoir fait du piratage informatique ( John et al. 2012, Mesurer la prévalence de pratiques de recherche douteuses avec des incitations à la vérité ):

John et al

En dehors de cela, tout le monde a entendu parler de la soi-disant "crise de réplication" en psychologie: plus de la moitié des études récentes publiées dans les principales revues de psychologie ne se répliquent pas ( Nosek et al. 2015, Estimation de la reproductibilité de la science psychologique ). (Cette étude a récemment fait le tour de tous les blogs, car le numéro de mars 2016 de Science a publié un commentaire qui tentait de réfuter Nosek et al. Ainsi qu'une réponse de Nosek et al. La discussion s'est poursuivie ailleurs, voir l' article d'Andrew Gelman et le RetractionWatch poste auquel il renvoie. Pour le dire poliment, la critique n’est pas convaincante.)

Mise à jour nov. 2018: Kaplan et Irvin, 2017, La probabilité d'effets nuls des grands essais cliniques du NHLBI a augmenté avec le temps montre que la fraction des essais cliniques rapportant des résultats nuls est passée de 43% à 92% après la nécessité de pré-enregistrer:

entrez la description de l'image ici


P

Head et al. 2015

Je n'ai pas entendu parler de Head et al. étudier avant, mais ont maintenant passé un certain temps à parcourir la littérature environnante. J'ai également examiné brièvement leurs données brutes .

p=ap<a00.06

Distribution des p-values ​​dans la littérature

0.0001pp(0.045,0.5)(0.04,0.045)p

p=0.05p=0.048p=0.052p0.05

Et à part ça, l'effet est minime .

p0.05

p

p=0.04p=0.05p

p

ptFχ2

Papier Hartgerink PeerJ

pp

Krawczyk

p=0.05p0.05p

Mascicampo et Lalande

p

Mascicampo et Lalande

Cela semble impressionnant, mais Lakens 2015 ( pré-impression ) dans un commentaire publié soutient que cela ne semble impressionnant que grâce à l'ajustement exponentiel trompeur. Voir également Lakens 2015, Sur les défis de tirer des conclusions des valeurs de p juste en dessous de 0,05 et des références qui y figurent.

Économie

zp

Brodeur

ppp<0.05


Faussement rassurant?

ppp0.050.05

Uri Simonsohn affirme que cela est "faussement rassurant" . En fait, il cite ces articles de manière non critique, mais remarque ensuite que "la plupart des p-valeurs sont bien inférieures" à 0,05. Puis il dit: "C'est rassurant, mais faussement rassurant". Et voici pourquoi:

Si nous voulons savoir si les chercheurs p-piratent leurs résultats, nous devons examiner les p-valeurs associées à leurs résultats, ceux qu’ils voudront peut-être p-pirater en premier lieu. Les échantillons, pour être objectifs, ne doivent inclure que les observations de la population d'intérêt.

La plupart des valeurs de p rapportées dans la plupart des articles ne sont pas pertinentes pour le comportement d’intérêt stratégique. Covariables, contrôles de manipulation, effets principaux dans les études testant les interactions, etc. En les incluant, nous sous-estimons le piratage informatique et surestimons la valeur probante des données. L'analyse de toutes les valeurs p pose une question différente, moins sensible. Au lieu de "Les chercheurs font-ils ce qu'ils étudient?"

pppp

Simonsohn

p

Conclusions

pp p0.05

amibe
la source
4
simply because the researches chose what test to perform/report after looking at the dataOui; et le problème est inévitable car il est à double tranchant. Lorsqu'une meilleure méthode est choisie pour les données - s'agit-il d'un suréquipement de cet échantillon spécifique ou d'une réunion d'appels techniques de cette population? Ou - supprimer les valeurs aberrantes - simule-t-il la population ou la récupère-t-elle? Qui va dire, finalement?
ttnphns
Le type de réponse que j'espérais le plus était peut-être une brève représentation de la littérature actuelle, quelques indications permettant de déterminer si le document de Head et al. Résumait fidèlement les dernières réflexions, etc. Je ne m'attendais pas du tout à cette réponse. Mais je pense que c’est formidable, et les pensées de Gelman et ses idées pratiques sont particulièrement utiles. Lorsque j'ai écrit la question, j'avais en fait des idées similaires à celles de @ttnphns (cela se voit peut-être, j'ai même envisagé d'inclure le mot "overfitting".)
Silverfish
Néanmoins, mis à part le malaise général et inévitable que "comment la science fonctionne dans la pratique" ne concordant pas parfaitement avec les hypothèses des tests statistiques, je me demande vraiment si cet "art sombre des p-hackers malveillants" existe vraiment, et si oui, jusqu'où il va. Il y a certainement de fortes (mauvaises) incitations à l'encourager.
Silverfish
2
Vous m'avez curieux avec cette tête et al. paper, @Silverfish, je dois donc avouer que pour le moment, au lieu de travailler, je parcours quelques articles critiquant les résultats de Head et al. et j'ai même déjà téléchargé leurs données brutes ... Oh mon Dieu.
amibe
2
+1 Le dernier article du blog Gelman ( andrewgelman.com/2016/03/09/… ) couvre de nombreux domaines et met en lumière une réplique intéressante d'un groupe qui a tenté de le reproduire et qui a ensuite été vivement critiqué par les auteurs de l'étude initiale: retractionwatch.com/ 2016/03/07 /…
Wayne
22

Les graphiques en entonnoir constituent une innovation statistique majeure qui a complètement transformé la méta-analyse. Fondamentalement, un graphique en entonnoir montre la signification clinique et statistique sur le même graphique. Idéalement, ils formeraient une forme d'entonnoir. Cependant, plusieurs méta-analyses ont produit des graphiques en entonnoir montrant une forte forme bimodale, où les enquêteurs (ou les éditeurs) ont sélectivement retenu les résultats nuls. Le résultat est que le triangle devient plus large, car des études plus petites et moins puissantes ont utilisé des méthodes plus radicales pour "encourager" les résultats à atteindre une signification statistique. L'équipe du rapport Cochrane a ceci à dire à leur sujet .

S'il existe un biais, par exemple parce que des études plus petites sans effets statistiquement significatifs (représentées par des cercles ouverts dans la Figure 10.4.a, Panneau A) restent non publiées, cela conduira à une apparence asymétrique du tracé en entonnoir avec un espace dans le coin inférieur de le graphique (panneau B). Dans cette situation, l'effet calculé dans une méta-analyse aura tendance à surestimer l'effet de l'intervention (Egger 1997a, Villar 1997). Plus l'asymétrie est prononcée, plus le biais sera important.

Le premier graphique montre un graphique symétrique en l'absence de biais. La seconde montre un graphique asymétrique en présence de biais de déclaration. La troisième montre un graphique asymétrique en présence de biais, car certaines études de moindre envergure (cercles ouverts) ont une qualité méthodologique inférieure et produisent par conséquent des estimations exagérées des effets de l'intervention.

entrez la description de l'image ici

entrez la description de l'image ici

entrez la description de l'image ici

Je soupçonne que la plupart des auteurs ne sont pas au courant des méthodes qu'ils utilisent pour p-pirater. Ils ne suivent pas le nombre total de modèles qu'ils ajustent, n'appliquent pas différents critères d'exclusion ou n'optent pas pour chaque variable d'ajustement. Cependant, si je devais imposer un processus simple, j'aimerais beaucoup que le nombre total de modèles corresponde. Cela ne veut pas dire qu'il pourrait y avoir des raisons légitimes de réexécuter des modèles. Par exemple, nous venons d'analyser une analyse d'Alzheimer sans savoir que l'ApoE avait été collectée dans l'échantillon. Un œuf sur mon visage, nous avons repris les modèles.

AdamO
la source
4
2
Un aspect de ma question portait sur la distinction entre "p-hacking" et "biais de publication" - cette réponse confond à certains égards. Aurais-je raison d'interpréter ce que vous dites de cette manière, c'est-à-dire que "le biais de publication est essentiellement une forme de p-hacking, mais de la part de l'éditeur"?
Silverfish
1
pp
2
Hmm. Tout d'abord, je voulais protester et prétendre que le biais de publication est différent du piratage électronique (de la même manière que @Silverfish a encadré son Q également), mais j'ai ensuite réalisé qu'il est plus délicat de tracer la frontière que je ne le pensais au départ. Effectuer des comparaisons multiples de style jelly-beans et ne signaler que celles qui sont significatives (p-hacking?) N'est pas très différent de la réalisation de plusieurs études et ne rapporter que celles qui sont significatives (ce qui est un biais de publication par définition). Néanmoins, p-hacking dans le sens de masser les données jusqu'à ce qu'elles donnent p <0,05 me semble suffisamment différent.
amibe
2
pp