Est-ce vraiment comme ça que p-values fonctionnent? Un million d'articles de recherche par an peuvent-ils être basés sur le hasard pur?

98

Je suis très novice en statistique et j'apprends à comprendre les bases, y compris les valeurs . Mais il y a un grand point d'interrogation dans mon esprit en ce moment et j'espère que ma compréhension est fausse. Voici mon processus de pensée: $p$

Toutes les recherches dans le monde ne ressemblent-elles pas un peu aux singes du "théorème du singe infini"? Considérez qu’il existe 23887 universités dans le monde. Si chaque université compte 1 000 étudiants, cela représente 23 millions d'étudiants chaque année.

Disons que chaque année, chaque étudiant effectue au moins une recherche en utilisant des tests d'hypothèses avec . $\alpha=0.05$

Cela ne signifie-t-il pas que même si tous les échantillons de recherche provenaient d'une population aléatoire, environ 5% d'entre eux «rejeteraient l'hypothèse nulle comme invalide»? Sensationnel. Pensez-y. Cela représente environ un million d'articles de recherche par an en raison de résultats "significatifs".

Si c'est comme cela que ça marche, c'est effrayant. Cela signifie qu'une grande partie de la "vérité scientifique" que nous prenons pour acquise est basée sur le pur hasard.

Un simple morceau de code R semble conforter ma compréhension:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

Il en va de même pour cet article sur le succès de la pêche: I Fooled Millions In Thinking Chocolate aide à perdre du poids. Voici comment . $p$

Est-ce vraiment tout ce qu'il y a à faire? Est-ce ainsi que la "science" est censée fonctionner?

hypothesis-testing statistical-significance p-value n_mu_sigma
la source

31

Le véritable problème est potentiellement bien pire que de multiplier le nombre de véritables valeurs nulles par le niveau de signification, en raison de la pression exercée pour en trouver la signification (si un journal important ne publie pas de résultats non significatifs, ou si un arbitre rejettera un article qui ne le sera pas. avoir des résultats significatifs, il y a une pression pour trouver un moyen de gagner de l'importance ... et nous voyons des expéditions de "chasse à l'importance" dans de nombreuses questions ici); cela peut conduire à des niveaux de signification réels beaucoup plus élevés qu'ils ne le paraissent.

Glen_b

5

Par ailleurs, de nombreuses hypothèses nulles sont des valeurs nulles et elles sont très rarement vraies.

Glen_b

37

Merci de ne pas confondre la méthode scientifique avec les valeurs p. Entre autres choses, la science insiste sur la reproductibilité . C’est ainsi que des articles sur la fusion froide , par exemple, pourraient être publiés (en 1989), mais la fusion froide n’existait pas en tant que théorie scientifique valable depuis 25 ans. Notez également que peu de scientifiques sont intéressés à travailler dans des domaines où l'hypothèse nulle pertinente est réellement vraie . Ainsi, votre hypothèse selon laquelle "tous les échantillons de recherche ont été prélevés dans [une] population aléatoire" ne correspond à rien de réaliste.

whuber

13

Référence obligatoire au dessin animé xkcd jelly beans . Réponse courte - cela arrive malheureusement trop souvent, et certaines revues insistent maintenant pour qu'un statisticien examine chaque publication afin de réduire le nombre de recherches "importantes" qui entrent dans le domaine public. Beaucoup de réponses et de commentaires pertinents dans cette discussion précédente

Floris

8

Je ne comprends peut-être pas la plainte ... "Nous avons réussi à vaincre 95% des hypothèses fausses. Les 5% restants n’ont pas été aussi faciles à vaincre en raison de fluctuations aléatoires qui semblent être des effets significatifs. Nous devrions les examiner de plus près et ignorer les autres 95%. " Cela ressemble exactement au bon type de comportement pour quelque chose comme "la science".

Eric Towers

70

C’est certainement une préoccupation valable, mais ce n’est pas tout à fait correct.

Si 1 000 000 d'études sont effectuées et que toutes les hypothèses nulles sont vraies, environ 50 000 obtiendront des résultats significatifs à p <0,05. C'est ce que signifie une valeur. Cependant, le null n'est essentiellement jamais strictement vrai. Mais même si nous la réduisions à "presque vrai" ou "à peu près juste", cela voudrait dire que les 1 000 000 études devraient toutes porter sur des choses comme

La relation entre le numéro de sécurité sociale et le QI
La longueur de vos orteils est-elle liée à votre état de naissance?

etc. Absurdité.

Un problème est, bien sûr, que nous ne savons pas quelles sont les valeurs NULL qui sont vraies. Un autre problème est celui de @Glen_b mentionné dans son commentaire - le problème du tiroir de fichiers.

C'est pourquoi j'aime tant les idées de Robert Abelson qu'il présente dans Statistics comme argument fondé sur des principes . C'est-à-dire que les preuves statistiques devraient faire partie d'un argument de principe expliquant pourquoi quelque chose est le cas et devraient être jugées sur les critères de MAGIC:

Magnitude: Quelle est la taille de l'effet?
Articulation: Est-ce plein de "ifs", "ands" et "buts" (c'est mauvais)
Généralité: dans quelle mesure s'applique-t-il?
Intéressant
Crédibilité: les sinistres incroyables exigent beaucoup de preuves

Peter Flom
la source

4

Peut-on même dire "si des études 1M sont effectuées et même si toutes les hypothèses nulles sont vraies, environ 50 000 effectueront une erreur de type 1 et rejetteront à tort l’hypothèse nulle? Si un chercheur obtient p <0,05, il sait seulement que" h0 est correct et un événement rare s’est produit OU h1 est incorrect ". Il n’ya aucun moyen de le savoir en regardant uniquement les résultats de cette étude, n’est-ce pas?

n_mu_sigma le

5

Vous ne pouvez obtenir un faux positif que si le positif est en fait faux. Si vous choisissiez 40 IV qui étaient tous du bruit, vous auriez alors une bonne chance d'une erreur de type I. Mais généralement, nous choisissons les IV pour une raison. Et le null est faux. Vous ne pouvez pas commettre d'erreur de type I si la valeur null est false.

Peter Flom

6

Je ne comprends pas votre deuxième paragraphe, y compris les points de balle, du tout. Supposons, par souci d'argumentation, que toutes les recherches d'un million d'études testaient des composés médicamenteux pour guérir une maladie spécifique. L'hypothèse nulle pour chacune de ces études est que le médicament ne guérit pas la maladie. Alors, pourquoi cela doit-il être "essentiellement jamais strictement vrai"? Aussi, pourquoi dites-vous que toutes les études devraient porter sur des relations absurdes, comme ss # et IQ? Merci pour toute explication supplémentaire qui pourrait m'aider à comprendre votre argument.

Chélonien

11

Pour concrétiser les exemples de @ PeterFlom: les trois premiers chiffres d'un SSN (utilisé pour) codent le code postal du demandeur. Étant donné que les États ont des données démographiques quelque peu différentes et que la taille du pied peut être corrélée à certains facteurs démographiques (âge, race, etc.), il existe presque certainement une relation entre le numéro de sécurité sociale et la taille du pied - si l'on dispose de suffisamment de données.

Matt Krause

6

@MattKrause bon exemple. Je préfère le nombre de doigts par sexe. Je suis sûr que si je recensais tous les hommes et toutes les femmes, je constaterais qu’un genre a plus de doigts en moyenne que l’autre. Sans prélever un échantillon extrêmement important, je ne sais pas quel genre a plus de doigts. De plus, je doute qu'en tant que fabricant de gants, j'utilise les données du recensement des doigts pour la conception des gants.

emory

40

Toutes les recherches dans le monde ne ressemblent-elles pas un peu aux singes du "théorème du singe infini"?

Rappelez-vous que les scientifiques ne sont PAS critiques comme des singes infinis, car leur comportement en matière de recherche - en particulier d'expérimentation - est tout sauf aléatoire. Les expériences sont (du moins supposées être) des manipulations et des mesures extrêmement soigneusement contrôlées qui reposent sur des hypothèses fondées sur des informations mécanistes et qui s'appuient sur un grand nombre de recherches antérieures. Ce ne sont pas seulement des tirs aléatoires dans le noir (ou des doigts de singe sur des machines à écrire).

Considérez qu’il existe 23887 universités dans le monde. Si chaque université compte 1 000 étudiants, cela représente 23 millions d'étudiants chaque année. Disons que chaque année, chaque élève fait au moins une recherche,

Cette estimation du nombre de résultats de recherche publiés doit être très éloignée. Je ne sais pas s'il y a 23 millions d'étudiants universitaires (est-ce que cela comprend uniquement les universités ou les collèges?) Dans le monde, mais je sais que la grande majorité d'entre eux ne publient jamais de résultats scientifiques. Je veux dire, la plupart d'entre eux ne sont pas des étudiants en sciences et même la plupart d'entre eux ne publient jamais leurs résultats.

Une estimation plus probable (quelques discussions ) du nombre de publications scientifiques chaque année est d'environ 1-2 millions.

Cela ne signifie-t-il pas que même si tous les échantillons de recherche étaient tirés d'une population aléatoire, environ 5% d'entre eux «rejeteraient l'hypothèse nulle comme invalide»? Sensationnel. Pensez à ça. Cela représente environ un million d'articles de recherche par an en raison de résultats "significatifs".

N'oubliez pas que toutes les recherches publiées ne comportent pas de statistiques où l'importance est juste à la valeur p = 0,05. On voit souvent des valeurs p telles que p <0,01 ou même p <0,001. Je ne sais pas ce que la "moyenne" valeur p est plus d'un million d'articles, bien sûr.

Si c'est comme cela que ça marche, c'est effrayant. Cela signifie qu'une grande partie de la "vérité scientifique" que nous prenons pour acquise est basée sur le pur hasard.

Gardez à l' esprit, les scientifiques sont vraiment pas censés prendre un petit nombre de résultats à la p autour de 0,05 comme « vérité scientifique ». Pas même proche. Les scientifiques sont supposés intégrer plusieurs études, chacune ayant un pouvoir statistique approprié, un mécanisme plausible, une reproductibilité, une ampleur d'effet, etc., et l'intégrer dans un modèle provisoire du fonctionnement de certains phénomènes.

Mais cela signifie-t-il que presque toute la science est correcte? En aucune façon. Les scientifiques sont des êtres humains et sont victimes de partis pris, de mauvaises méthodes de recherche (y compris d’approches statistiques inappropriées), de fraudes, de simples erreurs humaines et de malchance. Ce sont probablement ces facteurs plutôt que la convention p <0,05 qui expliquent probablement pourquoi une bonne partie de la science publiée est erronée. En fait, allons droit au but et faisons une déclaration encore plus "effrayante" que ce que vous avez avancé:

Pourquoi la plupart des résultats de recherche publiés sont-ils faux?

Chélonien
la source

10

Je dirais que Ioannidis avance un argument rigoureux qui conforte la question. La science n’a rien fait de pareil et les optimistes qui y répondent semblent penser. Et beaucoup de recherches publiées ne sont jamais reproduites. De plus, lorsque la réplication est tentée, les résultats tendent à confirmer l’argument de Ioannidis selon lequel une grande partie de la science publiée est fondamentalement folle.

matt_black

9

Il peut être intéressant de noter qu'en physique des particules, notre seuil de valeur p pour réclamer une découverte est de 0,00000057.

David Z

2

Et dans de nombreux cas, il n'y a aucune valeur p du tout. Les mathématiques et la physique théorique sont des cas courants.

Davidmh

21

Votre compréhension des valeurs semble être correcte. $p$

Des préoccupations similaires sont exprimées assez souvent. Dans votre exemple, il est logique de calculer non seulement le nombre d’études sur 23 millions aboutissant à des faux positifs, mais également la proportion d’études ayant obtenu un effet significatif faux. Ceci est appelé "taux de fausse découverte". Il n'est pas égal à et dépend de plusieurs autres facteurs, tels que, par exemple, la proportion de valeurs nulles dans vos études de 23 millions de dollars. C'est évidemment impossible à savoir, mais on peut deviner. Certaines personnes disent que le taux de fausses découvertes est d' au moins 30%. $\alpha$

Voir par exemple cette discussion récente d'un article de 2014 de David Colquhoun: Confusion avec le taux de fausses découvertes et les tests multiples (sur Colquhoun 2014) . J'y ai discuté contre cette estimation "d'au moins 30%", mais je conviens que dans certains domaines de la recherche, le taux de fausses découvertes peut être légèrement supérieur à 5%. C'est vraiment inquiétant.

Je ne pense pas que dire que null soit presque jamais vrai aide ici; Les erreurs de type S et de type M (telles qu'introduites par Andrew Gelman) ne valent guère mieux que les erreurs de type I / II.

Je pense que ce que cela signifie vraiment, c'est qu'il ne faut jamais faire confiance à un résultat "significatif" isolé.

Ceci est même vrai en physique des hautes énergies avec leur critère super-strict ; nous croyons que la découverte du boson de Higgs est en partie due au fait qu’elle s’intègre si bien dans la prédiction théorique. Ceci est bien sûr beaucoup BEAUCOUP plus dans certaines autres disciplines avec des critères de signification conventionnels beaucoup plus bas ( ) et un manque de prédictions théoriques très spécifiques. $\alpha\approx 10^{-7}$ $\alpha=0.05$

Les bonnes études, du moins dans mon domaine, ne rapportent pas un résultat isolé . Une telle constatation devrait être confirmée par une autre analyse (au moins partiellement indépendante) et par quelques autres expériences indépendantes. Si je regarde les meilleures études dans mon domaine, je vois toujours beaucoup d'expériences qui, ensemble, aboutissent à un résultat particulier; leur « cumulatif » -value (qui est jamais explicitement calculée) est très faible. $p<0.05$ $p$

En d'autres termes, je pense que si un chercheur obtient un résultat , cela signifie simplement qu'il doit aller plus loin dans ses recherches. Cela ne veut certainement pas dire que cela devrait être considéré comme une "vérité scientifique". $p<0.05$

amibe
la source

Concernant les "valeurs p cumulées": pouvez-vous simplement multiplier les valeurs p individuelles ou devez-vous effectuer une combinatoire monstrueuse pour que cela fonctionne?

Kevin

@ Kevin: on peut multiplier des valeurs individuelles , mais il faut adapter le seuil de signification . Pensez à 10 valeurs aléatoires uniformément réparties sur [0,1] (c'est-à-dire générées sous l'hypothèse nulle); leur produit sera probablement inférieur à 0,05, mais il serait insensé de rejeter la valeur nulle. Recherchez la méthode de Fisher consistant à combiner les valeurs p; Il y a aussi beaucoup de discussions à ce sujet ici sur CrossValidated.

p

$p$

α

$\alpha$

p

$p$

amibe

17

Votre préoccupation est précisément la préoccupation qui sous-tend une grande partie des discussions scientifiques en cours sur la reproductibilité. Cependant, la situation réelle est un peu plus compliquée que vous ne le suggérez.

Premièrement, établissons une terminologie. Le test de signification d'une hypothèse nulle peut être compris comme un problème de détection de signal - l'hypothèse nulle est vraie ou fausse, et vous pouvez choisir de la rejeter ou de la conserver. La combinaison de deux décisions et de deux "vrais" états de choses possibles donne le tableau suivant, que la plupart des gens voient à un moment donné lorsqu'ils apprennent des statistiques:

entrez la description de l'image ici

Les scientifiques qui utilisent des tests de signification des hypothèses nuls tentent de maximiser le nombre de décisions correctes (indiquées en bleu) et de minimiser le nombre de décisions incorrectes (indiquées en rouge). Des scientifiques en activité essaient également de publier leurs résultats pour pouvoir trouver des emplois et faire avancer leur carrière.

Bien entendu, gardez à l'esprit que, comme de nombreux autres répondants l'ont déjà mentionné, l'hypothèse nulle n'est pas choisie au hasard, mais plutôt spécifiquement parce que, sur la base de la théorie antérieure, le scientifique estime qu'elle est fausse . Malheureusement, il est difficile de quantifier la proportion de fois où les scientifiques ont raison dans leurs prévisions, mais gardez à l'esprit que, lorsqu'ils traitent de la colonne " est faux", ils devraient se préoccuper des faux négatifs plutôt que des faux positifs. $H_0$

Cependant, vous semblez vous préoccuper des faux positifs, concentrons-nous donc sur la colonne " est vrai". Dans cette situation, quelle est la probabilité qu'un scientifique publie un faux résultat? $H_0$

Biais de publication

Tant que la probabilité de publication ne dépend pas de savoir si le résultat est "significatif", la probabilité est donc précisément - 0,05, et parfois inférieure en fonction du domaine. Le problème est qu'il ya une bonne preuve que la probabilité de publication ne dépend si le résultat est significatif (voir, par exemple, Stern & Simes, 1997 ; . Dwan et al, 2008 ), que ce soit parce que les scientifiques ne présentent qu'une des résultats significatifs pour la publication ( Rosenthal, 1979 ) ou parce que les résultats non significatifs sont soumis pour publication mais ne sont pas corrigés par les pairs. $\alpha$

La question générale de la probabilité de publication en fonction de la valeur observée est ce que l’on entend par biais de publication . Si nous prenons un pas en arrière et réfléchissons aux implications du biais de publication pour une littérature de recherche plus large, un ouvrage de recherche affecté par un biais de publication contiendra toujours des résultats vrais - parfois l'hypothèse nulle selon laquelle un scientifique prétend être faux sera réellement fausse, et, en fonction du degré de biais de publication, un scientifique prétendra à juste titre qu’une hypothèse nulle donnée est vraie. Cependant, la littérature de recherche sera également encombrée par une trop grande proportion de faux positifs (c.-à-d. Des études dans lesquelles le chercheur prétend que l'hypothèse nulle est fausse alors que c'est vraiment le cas). $p$

Chercheur degrés de liberté

Le biais de publication n'est pas le seul moyen pour que, sous l'hypothèse nulle, la probabilité de publier un résultat significatif soit supérieure à . Lorsqu'ils sont utilisés de manière inappropriée, certains domaines de flexibilité dans la conception des études et l'analyse des données, parfois qualifiés de degrés de liberté du chercheur ( Simmons, Nelson, & Simonsohn, 2011 ), peuvent augmenter le taux de faux positifs, même en l'absence de biais de publication. Par exemple, si nous supposons que, lorsqu’un résultat non significatif est obtenu, tous les scientifiques (ou certains) excluront un point de données excentrique si cette exclusion modifie le résultat non significatif en un résultat significatif, le taux de faux positifs sera alors réduit. plus grand que $\alpha$ $\alpha$ . Compte tenu de la présence d'un nombre suffisant de pratiques de recherche douteuses, le taux de faux positifs peut aller jusqu'à 0,60 même si le taux nominal était fixé à 0,05 ( Simmons, Nelson et Simonsohn, 2011 ).

Il est important de noter que l'utilisation inappropriée des degrés de liberté du chercheur (ce que l'on appelle parfois une pratique de recherche douteuse; Martinson, Anderson et de Vries, 2005 ) n'est pas la même chose que la constitution de données. Dans certains cas, l'exclusion des valeurs aberrantes est la bonne chose à faire, soit en raison d'une défaillance de l'équipement, soit pour une autre raison. Le problème clé est que, en présence de degrés de liberté du chercheur, les décisions prises au cours d'une analyse dépendent souvent de la manière dont les données sont obtenues ( Gelman & Loken, 2014), même si les chercheurs en question ne sont pas conscients de ce fait. Tant que les chercheurs utilisent les degrés de liberté des chercheurs (consciemment ou inconsciemment) pour augmenter la probabilité d'obtenir un résultat significatif de la même manière que le biais de publication.

Une mise en garde importante à la discussion ci-dessus est que les articles scientifiques (du moins en psychologie, qui est mon domaine) consistent rarement en un seul résultat. Plusieurs études, comportant chacune plusieurs tests, sont plus courantes. L'accent est mis sur la construction d'un argument plus large et sur l'élimination des explications alternatives pour la preuve présentée. Cependant, la présentation sélective des résultats (ou la présence de degrés de liberté du chercheur) peut fausser un ensemble de résultats aussi facilement qu'un résultat unique. Il est prouvé que les résultats présentés dans des documents à études multiples sont souvent beaucoup plus propres et solides que prévu, même si toutes les prédictions de ces études étaient toutes vraies ( Francis, 2013 ).

Conclusion

Fondamentalement, je suis d’accord avec votre intuition selon laquelle le test de signification d’une hypothèse nulle peut mal tourner. Cependant, je dirais que les véritables coupables qui génèrent un taux élevé de faux positifs sont des processus tels que le biais de publication et la présence de degrés de liberté de chercheur. En effet, de nombreux scientifiques sont bien conscients de ces problèmes et l'amélioration de la reproductibilité scientifique est un sujet de discussion actuel très actif (par exemple, Nosek et Bar-Anan, 2012 ; Nosek, Spies et Motyl, 2012 ). Donc, vous êtes en bonne compagnie avec vos préoccupations, mais je pense aussi qu'il y a aussi des raisons pour un optimisme prudent.

Références

Stern, JM et Simes, RJ (1997). Biais de publication: preuve de publication retardée dans une étude de cohorte de projets de recherche clinique. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E.,… Williamson, PR (2008). Revue systématique des preuves empiriques de biais de publication et de résultats. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). Le problème du tiroir de fichiers et la tolérance pour les résultats nuls. Psychological Bulletin, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, LD, Nelson et Simonsohn, U. (2011). Psychologie des faux positifs: la flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter quelque chose d'important. Psychological Science, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS, et de Vries, R. (2005). Les scientifiques se comportent mal. Nature, 435, 737–738. http://doi.org/10.1038/435737a

Gelman, A. et Loken, E. (2014). La crise statistique en science. American Scientist, 102, 460-465.

Francis, G. (2013). Réplication, cohérence statistique et biais de publication. Journal of Mathematical Psychology, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, BA, et Bar-Anan, Y. (2012). Utopie scientifique: I. Ouverture de la communication scientifique. Psychological Enquiry, 23 (3), 217-243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, BA, Spies, JR, et Motyl, M. (2012). Utopie scientifique: II. Restructuration des incitations et des pratiques visant à promouvoir la vérité plutôt que la publicité. Perspectives on Psychological Science, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058

Patrick S. Forscher
la source

1

+1 Belle collection de liens. Voici un article très pertinent pour votre section "Degrés de liberté de chercheur": Le jardin des chemins de bifurcation: pourquoi les comparaisons multiples peuvent poser problème, même en l'absence d '"expédition de pêche" ou de "p-hacking" et que l'hypothèse de recherche était Andrew Gelman et Eric Loken (2013) ont posé la question à l’avance .

amibe

Merci, @ amoeba, pour cette référence intéressante. J'aime particulièrement le fait que Gelman et Loken (2013) affirment que capitaliser sur les degrés de liberté des chercheurs ne doit pas nécessairement être un processus conscient. J'ai modifié ma réponse pour inclure ce papier.

Patrick S. Forscher

Je viens de trouver la version publiée de Gelman & Loken (2014) dans American Scientist.

Patrick S. Forscher

10

Un contrôle important de la question importante soulevée dans cette question est que la "vérité scientifique" ne repose pas sur des publications individuelles isolées. Si un résultat est suffisamment intéressant, il incitera d'autres scientifiques à en comprendre les implications. Ce travail aura tendance à confirmer ou à réfuter la conclusion initiale. Il peut y avoir une chance sur 20 de rejeter une hypothèse nulle vraie dans une étude individuelle, mais seulement un sur 400 de le faire deux fois de suite.

Si les scientifiques répètent simplement les expériences jusqu'à ce qu'ils trouvent la "signification" et publient ensuite leurs résultats, le problème pourrait être aussi important que le PO le suggère. Mais ce n’est pas ainsi que la science fonctionne, du moins après mes presque 50 ans d’expérience dans la recherche biomédicale. En outre, une publication traite rarement d'une seule expérience "significative", mais est plutôt basée sur un ensemble d'expériences interdépendantes (chacune devant être "significative" à elle seule) qui, ensemble, appuient une hypothèse de fond plus large.

Un problème beaucoup plus vaste provient de scientifiques trop attachés à leurs propres hypothèses. Ils peuvent ensuite surinterpréter les implications des expériences individuelles pour étayer leurs hypothèses, procéder à une édition douteuse des données (comme supprimer les données aberrantes de manière arbitraire) ou, comme je l’ai vu et aidé à comprendre, reconstituer les données.

La science, cependant, est un processus hautement social, indépendamment de la mythologie selon laquelle des scientifiques fous se cachent haut dans des tours d'ivoire. Les concessions entre des milliers de scientifiques qui défendent leurs intérêts, sur la base de ce qu’ils ont appris du travail des autres, constituent la protection institutionnelle ultime contre les faux positifs. De fausses conclusions peuvent parfois se perpétuer pendant des années, mais si un problème est suffisamment important, le processus identifiera éventuellement les conclusions erronées.

EdM
la source

6

L' estimation de peut être trompeuse. Si l’on est en train de répéter des expériences jusqu’à atteindre le «sens», puis de les publier, le nombre attendu d’expériences nécessaires pour publier un premier résultat «significatif» et le suivre avec un deuxième résultat «significatif» n’est que de .

1 / 4000

$1/4000$

40

$40$

whuber

2

Sur 23 millions d’études, nous ne savions toujours pas si 5 000 résultats rejetaient l’hypothèse nulle uniquement à cause du bruit, le pourrions-nous? C'est aussi un problème d'échelle. Une fois que vous avez des millions de recherches, une erreur de type 1 sera commune.

n_mu_sigma

3

S'il n'y avait que 5 000 conclusions erronées sur 23 000 000 d'études, j'appellerais cela vraiment inhabituel !

whuber

3

En près de 50 ans de science et de connaissance d’autres scientifiques, je ne pense à aucun de ceux qui ont répété des expériences jusqu’à ce que leur "signification" soit réelle. La possibilité théorique évoquée par @whuber n'est, selon mon expérience, pas un gros problème pratique. Le problème pratique beaucoup plus important réside dans la constitution de données, soit indirectement en jetant les «valeurs aberrantes» qui ne correspondent pas à une idée préconçue, soit en constituant simplement des «données» pour commencer. Ces comportements que j'ai vus de première main, et ils ne peuvent pas être corrigés en ajustant les valeurs p .

EdM

3

@EdM "Il y a peut-être une chance sur vingt de rejeter une hypothèse nulle vraie dans une étude individuelle, mais seulement un 1/4000 de le faire deux fois de suite." Comment avez-vous obtenu le deuxième numéro?

Aksakal

5

Pour ajouter à la discussion, voici un post intéressant et une discussion ultérieure sur la façon dont les gens comprennent mal la valeur p.

Quoi qu’il en soit, ce qu’il faut retenir, c’est que la valeur p ne soit qu’une mesure de la force de la preuve pour rejeter une hypothèse donnée. Une valeur p n'est certainement pas un seuil difficile en dessous duquel une chose est "vraie" et au-dessus de laquelle il est uniquement dû au hasard. Comme expliqué dans le post référencé ci-dessus:

les résultats sont une combinaison d'effets réels et de hasard, ce n'est ni l'un ni l'autre

Antoine
la source

peut-être que cela contribuera à la compréhension des valeurs p: stats.stackexchange.com/questions/166323/…

4

Comme cela a également été souligné dans les autres réponses, cela ne posera de problèmes que si vous envisagez de manière sélective de considérer les résultats positifs dans les cas où l'hypothèse nulle est exclue. C'est pourquoi les scientifiques écrivent des articles de synthèse où ils prennent en compte les résultats de recherches déjà publiés et tentent de développer une meilleure compréhension du sujet sur cette base. Cependant, il reste encore un problème, qui est dû au prétendu "biais de publication", à savoir que les scientifiques sont plus susceptibles de rédiger un article sur un résultat positif que sur un résultat négatif. plus susceptibles d'être rejetés pour publication qu'un article sur un résultat positif.

En particulier dans les domaines où les tests statistiques sont très importants, ce sera un gros problème, le domaine de la médecine est un exemple notoire. C'est pourquoi il a été rendu obligatoire d'enregistrer les essais cliniques avant leur réalisation (par exemple ici ). Vous devez donc expliquer la configuration, la manière dont l'analyse statistique sera effectuée, etc., etc. avant le début du procès. Les principales revues médicales refuseront de publier des articles si les essais dont ils font état ont été non enregistrés.

Malheureusement, malgré cette mesure, le système ne fonctionne pas très bien .

Comte Iblis
la source

peut-être que cela contribuera à la compréhension des valeurs p: stats.stackexchange.com/questions/166323/…

3

Ceci est proche d'un fait très important concernant la méthode scientifique: il met l'accent sur la falsifiabilité. La philosophie de la science la plus populaire à l’heure actuelle repose sur le concept de falsifiabilité de Karl Popper comme pierre angulaire.

Le processus scientifique de base est donc:

N'importe qui peut réclamer n'importe quelle théorie, à tout moment. La science admettra toute théorie "falsifiable". Le sens le plus littéral de ce mot est que, si quelqu'un d'autre n'aime pas la revendication, cette personne est libre de dépenser les ressources nécessaires pour réfuter la revendication. Si vous ne pensez pas que les chaussettes en argyle guérissent le cancer, vous êtes libre d'utiliser votre propre service médical pour le réfuter.
Étant donné que cette barre d’entrée est extrêmement basse, il est de tradition que la "Science", en tant que groupe culturel, n’entretiendra aucune idée tant que vous n’aurez pas "fait un bon effort" pour falsifier votre propre théorie.
L'acceptation des idées a tendance à se faire par étapes. Vous pouvez obtenir votre concept dans un article de revue avec une étude et une valeur p plutôt basse. Ce que cela vous achète, c'est de la publicité et une certaine crédibilité. Si quelqu'un est intéressé par votre idée, par exemple si votre science a des applications en ingénierie, elle peut vouloir l'utiliser. À ce moment-là, ils sont plus susceptibles de financer une série supplémentaire de falsification.
Ce processus se poursuit, toujours avec la même attitude: croyez ce que vous voulez, mais pour parler de science, il faut que je puisse le contredire plus tard.

Cette barre basse d’entrée est ce qui lui permet d’être aussi innovante. Donc, oui, il existe un grand nombre d’articles de revues théoriquement «faux». Cependant, la clé est que chaque article publié est théoriquement falsifiable. Ainsi, à tout moment, quelqu'un pourrait dépenser l'argent pour le tester.

C’est la clé: les journaux contiennent non seulement des éléments qui satisfont à un p-test raisonnable, mais ils contiennent également les clés permettant à d’autres personnes de le démanteler si les résultats se révèlent faux.

Cort Ammon
la source

1

C'est très idéaliste. Certaines personnes s'inquiètent du fait qu'un trop grand nombre de faux papiers puisse créer un rapport signal sur bruit trop faible dans la littérature et ralentir sérieusement ou égarer le processus scientifique.

amibe

1

@ amoeba Vous soulevez un bon point. Je voulais certainement capturer le cas idéal car je trouve qu'il est souvent perdu dans le bruit. Au-delà de cela, je pense que la question du RSB dans la littérature est une question valable, mais au moins une question devrait être équilibrée. Il y a déjà des concepts de bons journaux par rapport à de mauvais journaux, alors il y a des indices que cet équilibre est en cours depuis un certain temps.

Cort Ammon

Cette compréhension de la philosophie de la science semble être dépassée depuis plusieurs décennies. La falsifiabilité poppérienne n’est «populaire» que dans le sens où elle est un mythe urbain commun sur la façon dont la science se déroule.

EnergyNumbers

@EnergyNumbers Pourriez-vous m'éclairer sur la nouvelle façon de penser? La philosophie SE a un avis très différent du vôtre. Si vous regardez la question de l'histoire là-bas, la falsifiabilité poppérienne est la caractéristique déterminante de la science pour la majorité de ceux qui ont parlé. J'aimerais apprendre une nouvelle façon de penser et l'amener là-bas!

Cort Ammon

Nouveau? Kuhn a réfuté Popper il y a plusieurs décennies. Si vous n'avez publié aucun article sur Popperian sur philosophie.se, le mettre à jour semble être une cause perdue - laissez-le simplement dans les années 1950. Si vous souhaitez vous mettre à jour, toute introduction à la philosophie de la science du XXIe siècle devrait vous aider à démarrer.

EnergyNumbers

1

Est-ce ainsi que la "science" est censée fonctionner?

C'est ainsi que fonctionnent beaucoup de sciences sociales. Pas tellement avec les sciences physiques. Pensez à ceci: vous avez tapé votre question sur un ordinateur. Les gens ont été capables de construire ces bêtes complexes appelées ordinateurs en utilisant les connaissances de la physique, de la chimie et d'autres domaines des sciences physiques. Si la situation était aussi mauvaise que vous le décrivez, aucun des composants électroniques ne fonctionnerait. Ou pensez aux choses comme une masse d'électron, qui est connue avec une précision insensée. Ils passent à travers des milliards de portes logiques dans un ordinateur et votre ordinateur fonctionne encore et encore pendant des années.

MISE À JOUR: pour répondre aux votes négatifs que j'ai reçus, je me suis senti inspiré de vous donner quelques exemples.

Le premier provient de la physique: Bystritsky, VM, et al. " Mesurer les facteurs S astrophysiques et les sections efficaces de la réaction p (d, γ) 3He dans la région d'énergie ultra-basse en utilisant une cible de deutéride de zirconium ." Physique des Particules et Noyaux Letters 10.7 (2013): 717-722.

Comme je l'ai déjà écrit, ces physiciens ne prétendent même pas faire de statistiques autres que le calcul des erreurs types. Il y a un tas de graphiques et de tableaux, pas une seule valeur p ou même un intervalle de confiance. La seule preuve statistique est la note d’erreur type , par exemple . $0.237 \pm 0.061$

Mon exemple suivant est tiré de ... psychologie: Paustian-Underdahl, Samantha C., Lisa Slattery Walker et David J. Woehr. " Genre et perceptions de l'efficacité du leadership: une méta-analyse des modérateurs contextuels ." Journal of Applied Psychology, 2014, vol. 99, n ° 6, 1129 –1145.

$\chi^2$

Maintenant, regardez quelques tableaux de papiers et devinez de quels papiers ils proviennent:

entrez la description de l'image ici

C'est la raison pour laquelle, dans un cas, vous avez besoin de statistiques "cool" et dans un autre, vous n'en avez pas: parce que les données sont de mauvaise qualité ou non. Lorsque vous avez de bonnes données, vous n'avez pas besoin de beaucoup de statistiques au-delà des erreurs standard.

UPDATE2: @ PatrickS.Forscher a fait une déclaration intéressante dans le commentaire:

Il est également vrai que les théories des sciences sociales sont "plus douces" (moins formelles) que les théories de la physique.

Je dois être en désaccord. En économie et en finance, les théories ne sont pas du tout "douces". Vous pouvez consulter au hasard un article dans ces domaines et obtenir quelque chose comme ceci:

entrez la description de l'image ici

etc.

Il s'agit de Schervish, Mark J., Teddy Seidenfeld et Joseph B. Kadane. " Extensions de la théorie de l'utilité attendue et quelques limitations des comparaisons par paires ." (2003). Cela vous semble-t-il doux?

Je répète ce que je veux dire ici: lorsque vos théories ne sont pas bonnes et que vos données sont de mauvaise qualité, vous pouvez utiliser les calculs les plus difficiles tout en obtenant un résultat médiocre.

Dans cet article, ils parlent des services publics, du concept de bonheur et de satisfaction - absolument inobservable. C'est comme ce qui est utile d'avoir une maison contre manger un cheeseburger? Vraisemblablement, il y a cette fonction, où vous pouvez brancher "manger cheeseburger" ou "vivre chez soi" et la fonction crachera la réponse dans certaines unités. Aussi fou que cela puisse paraître, c’est sur quoi est construite l’écomique moderne, grâce à von Neuman.

Aksakal
la source

1

+1 Vous ne savez pas pourquoi cela a été voté deux fois. Vous faites essentiellement remarquer que les découvertes en physique peuvent être testées avec des expériences et que la plupart des "découvertes" en sciences sociales ne peuvent pas l'être, ce qui ne les empêche pas de retenir l'attention des médias.

Flounderer

6

La plupart des expériences impliquent en fin de compte une sorte de test statistique et laissent encore de la place pour les erreurs de type 1 et les problèmes de comportement tels que la pêche à la valeur p. Je pense que singulariser les sciences sociales est un peu décalé.

Kenji

4

Pour modifier un peu ce que @GuilhermeKenjiChihaya dit, l'écart type des erreurs pourrait vraisemblablement être utilisé pour effectuer un test statistique lors d'expériences physiques. On peut supposer que ce test statistique aboutirait à la même conclusion à laquelle aboutissent les auteurs en visualisant le graphique avec ses barres d’erreur. La principale différence par rapport aux articles sur la physique réside donc dans la quantité de bruit sous-jacente dans l’expérience. la logique sous-jacente à l'utilisation des valeurs p est valide ou invalide.

Patrick S. Forscher

3

De plus, @Flounderer, vous semblez utiliser le terme «expérience» dans un sens avec lequel je ne suis pas familier, comme le font les spécialistes des sciences sociales «expériences» (c.-à-d. Randomisation d'unités en conditions) tout le temps. Il est vrai que les expériences en sciences sociales sont difficiles à contrôler au même degré que les expériences en physique. Il est également vrai que les théories des sciences sociales sont "plus douces" (moins formelles) que les théories de la physique. Mais ces facteurs sont indépendants de la question de savoir si une étude donnée est une "expérience".

Patrick S. Forscher

2

@Aksakal alors que je ne suis pas d'accord avec -1, je suis également en partie en désaccord avec votre critique des sciences sociales. Votre exemple d’article économique n’est pas non plus un bon exemple de ce que font quotidiennement les spécialistes des sciences sociales, car la théorie de l’utilité est un concept strictement économique / mathématique / statistique (elle contient donc déjà des maths) et ne ressemble par exemple pas aux théories psychologiques sont testés expérimentalement ... Cependant, je conviens qu'il est fréquent que les statistiques soient utilisées de manière approximative dans de nombreux domaines de la recherche, y compris les sciences sociales.

Tim

Est-ce vraiment comme ça que p-values ​​fonctionnent? Un million d'articles de recherche par an peuvent-ils être basés sur le hasard pur?

Réponses:

Est-ce vraiment comme ça que p-values fonctionnent? Un million d'articles de recherche par an peuvent-ils être basés sur le hasard pur?