Qu'est-ce qui cause la discontinuité dans la distribution des valeurs de p publiées à p <0,05?

27

Dans un article récent , Masicampo et Lalande (ML) ont collecté un grand nombre de valeurs de p publiées dans de nombreuses études différentes. Ils ont observé un saut curieux dans l'histogramme des valeurs de p juste au niveau critique canonique de 5%.

Il y a une belle discussion à propos de ce phénomène ML sur le blog du professeur Wasserman:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

Sur son blog, vous trouverez l'histogramme:

Histogramme des valeurs de p publiées

Puisque le niveau de 5% est une convention et non une loi de la nature, qu'est - ce qui cause ce comportement de la distribution empirique des valeurs de p publiées?

Biais de sélection, "ajustement" systématique des valeurs de p juste au-dessus du niveau critique canonique, ou quoi?

Zen
la source
11
Il y a au moins 2 sortes d'explications: 1) le "problème du tiroir de fichiers" - les études avec p <0,05 sont publiées, celles ci-dessus ne le sont pas, donc c'est vraiment un mélange de deux distributions 2) Les gens manipulent les choses, peut-être inconsciemment , pour obtenir p <0,05
Peter Flom - Réintégrer Monica
3
Salut @Zen. Oui, exactement ce genre de chose. Il y a une forte tendance à faire des choses comme ça. Si notre théorie est confirmée, nous sommes moins susceptibles d'aller chercher des problèmes statistiques que si ce n'est pas le cas. Cela semble faire partie de notre nature, mais c'est quelque chose à essayer de se prémunir.
Peter Flom - Réintègre Monica
@Zen Vous pourriez être intéressé par cet article sur le blog d'Andrew Gelman qui mentionne certaines recherches qui constatent qu'il n'y a pas de biais de publication dans la recherche sur le biais de publication ...! andrewgelman.com/2012/04/…
smillig
1
Ce qui serait intéressant, c'est de recalculer les valeurs p à partir d'articles dans des revues qui rejettent expressément les articles basés sur la valeur p, comme l' épidémiologie le faisait (et dans certains sens, le fait toujours). Je me demande si cela change si la revue a déclaré que cela ne lui importait pas, ou si les examinateurs / auteurs effectuaient toujours des tests mentaux ad hoc basés sur des intervalles de confiance.
Fomite
4
Comme expliqué sur le blog de Larry, il s'agit d'une collection de valeurs p publiées, plutôt que d'un échantillon aléatoire de valeurs p échantillonnées dans le monde des valeurs p. Il n'y a donc aucune raison qu'une distribution uniforme devrait apparaître dans l'image, même dans le cadre d'un mélange tel que modélisé dans le post de Larry.
Xi'an

Réponses:

14

(1) Comme déjà mentionné par @PeterFlom, une explication peut être liée au problème du "tiroir de fichiers". (2) @Zen a également mentionné le cas où le ou les auteurs manipulent les données ou les modèles (par exemple le dragage de données ). (3) Cependant, nous ne testons pas les hypothèses sur une base purement aléatoire. Autrement dit, les hypothèses ne sont pas choisies par hasard mais nous avons (plus ou moins fort) une hypothèse théorique.

Vous pourriez également être intéressé par les travaux de Gerber et Malhotra qui ont récemment mené des recherches dans ce domaine en appliquant le soi-disant "test de l'étrier":

Vous pourriez également être intéressé par ce numéro spécial édité par Andreas Diekmann:

Bernd Weiss
la source
10

Un argument qui manque jusqu'à présent est la flexibilité de l'analyse des données connue sous le nom de degrés de liberté des chercheurs. Dans chaque analyse, de nombreuses décisions doivent être prises, où définir le critère aberrant, comment transformer les données, et ...

Cela a été récemment soulevé dans un article influent de Simmons, Nelson et Simonsohn:

Simmons, JP, Nelson, LD et Simonsohn, U. (2011). Psychologie des faux positifs: une flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter tout ce qui est significatif. Psychological Science , 22 (11), 1359 –1366. doi: 10.1177 / 0956797611417632

(Notez qu'il s'agit du même Simonsohn responsable de certains cas récemment détectés de fraude de données en psychologie sociale, par exemple, interview , article de blog )

Henrik
la source
8

Je pense que c'est une combinaison de tout ce qui a déjà été dit. Ce sont des données très intéressantes et je n'ai pas pensé à regarder des distributions de valeur p comme celle-ci auparavant. Si l'hypothèse nulle est vraie, la valeur de p serait uniforme. Mais bien sûr, avec les résultats publiés, nous ne verrions pas l'uniformité pour de nombreuses raisons.

  1. Nous faisons l'étude parce que nous nous attendons à ce que l'hypothèse nulle soit fausse. Nous devons donc obtenir des résultats significatifs le plus souvent.

  2. Si l'hypothèse nulle était fausse seulement la moitié du temps, nous n'aurions pas une distribution uniforme des valeurs de p.

  3. Problème de tiroir de fichiers: Comme mentionné, nous aurions peur de soumettre le papier lorsque la valeur p n'est pas significative, par exemple inférieure à 0,05.

  4. Les éditeurs rejetteront l'article en raison de résultats non significatifs même si nous avons choisi de le soumettre.

  5. Lorsque les résultats sont à la limite, nous ferons des choses (peut-être pas avec une intention malveillante) pour obtenir une signification. (a) arrondir à 0,05 lorsque la valeur de p est de 0,053, (b) trouver des observations qui, selon nous, pourraient être aberrantes et après les avoir déplacées, la valeur de p tombe en dessous de 0,05.

J'espère que cela résume tout ce qui a été dit d'une manière raisonnablement compréhensible.

Ce que je pense est l'intérêt, c'est que nous voyons des valeurs de p entre 0,05 et 0,1. Si les règles de publication devaient rejeter quoi que ce soit avec des valeurs de p supérieures à 0,05, la queue droite serait coupée à 0,05. At-il réellement coupé à 0,10? si c'est le cas, certains auteurs et certaines revues accepteront un niveau de signification de 0,10 mais rien de plus.

Étant donné que de nombreux articles incluent plusieurs valeurs de p (ajustées pour la multiplicité ou non) et que l'article est accepté parce que les tests clés étaient significatifs, nous pourrions voir des valeurs de p non significatives incluses dans la liste. Cela soulève la question "Toutes les valeurs de p rapportées dans le document étaient-elles incluses dans l'histogramme?"

Une observation supplémentaire est qu'il existe une tendance significative à la hausse de la fréquence des articles publiés, la valeur p étant bien en dessous de 0,05. Peut-être que cela indique que les auteurs surinterprètent la pensée p-valeur p <0,0001 est beaucoup plus digne de publication. Je pense que l'auteur ignore ou ne se rend pas compte que la valeur de p dépend autant de la taille de l'échantillon que de l'ampleur de la taille de l'effet.

Michael R. Chernick
la source