Je suis très novice en statistique et j'apprends à comprendre les bases, y compris les valeurs . Mais il y a un grand point d'interrogation dans mon esprit en ce moment et j'espère que ma compréhension est fausse. Voici mon processus de pensée:
Toutes les recherches dans le monde ne ressemblent-elles pas un peu aux singes du "théorème du singe infini"? Considérez qu’il existe 23887 universités dans le monde. Si chaque université compte 1 000 étudiants, cela représente 23 millions d'étudiants chaque année.
Disons que chaque année, chaque étudiant effectue au moins une recherche en utilisant des tests d'hypothèses avec .
Cela ne signifie-t-il pas que même si tous les échantillons de recherche provenaient d'une population aléatoire, environ 5% d'entre eux «rejeteraient l'hypothèse nulle comme invalide»? Sensationnel. Pensez-y. Cela représente environ un million d'articles de recherche par an en raison de résultats "significatifs".
Si c'est comme cela que ça marche, c'est effrayant. Cela signifie qu'une grande partie de la "vérité scientifique" que nous prenons pour acquise est basée sur le pur hasard.
Un simple morceau de code R semble conforter ma compréhension:
library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]
Il en va de même pour cet article sur le succès de la pêche: I Fooled Millions In Thinking Chocolate aide à perdre du poids. Voici comment .
Est-ce vraiment tout ce qu'il y a à faire? Est-ce ainsi que la "science" est censée fonctionner?
Réponses:
C’est certainement une préoccupation valable, mais ce n’est pas tout à fait correct.
Si 1 000 000 d'études sont effectuées et que toutes les hypothèses nulles sont vraies, environ 50 000 obtiendront des résultats significatifs à p <0,05. C'est ce que signifie une valeur. Cependant, le null n'est essentiellement jamais strictement vrai. Mais même si nous la réduisions à "presque vrai" ou "à peu près juste", cela voudrait dire que les 1 000 000 études devraient toutes porter sur des choses comme
etc. Absurdité.
Un problème est, bien sûr, que nous ne savons pas quelles sont les valeurs NULL qui sont vraies. Un autre problème est celui de @Glen_b mentionné dans son commentaire - le problème du tiroir de fichiers.
C'est pourquoi j'aime tant les idées de Robert Abelson qu'il présente dans Statistics comme argument fondé sur des principes . C'est-à-dire que les preuves statistiques devraient faire partie d'un argument de principe expliquant pourquoi quelque chose est le cas et devraient être jugées sur les critères de MAGIC:
la source
Rappelez-vous que les scientifiques ne sont PAS critiques comme des singes infinis, car leur comportement en matière de recherche - en particulier d'expérimentation - est tout sauf aléatoire. Les expériences sont (du moins supposées être) des manipulations et des mesures extrêmement soigneusement contrôlées qui reposent sur des hypothèses fondées sur des informations mécanistes et qui s'appuient sur un grand nombre de recherches antérieures. Ce ne sont pas seulement des tirs aléatoires dans le noir (ou des doigts de singe sur des machines à écrire).
Cette estimation du nombre de résultats de recherche publiés doit être très éloignée. Je ne sais pas s'il y a 23 millions d'étudiants universitaires (est-ce que cela comprend uniquement les universités ou les collèges?) Dans le monde, mais je sais que la grande majorité d'entre eux ne publient jamais de résultats scientifiques. Je veux dire, la plupart d'entre eux ne sont pas des étudiants en sciences et même la plupart d'entre eux ne publient jamais leurs résultats.
Une estimation plus probable (quelques discussions ) du nombre de publications scientifiques chaque année est d'environ 1-2 millions.
N'oubliez pas que toutes les recherches publiées ne comportent pas de statistiques où l'importance est juste à la valeur p = 0,05. On voit souvent des valeurs p telles que p <0,01 ou même p <0,001. Je ne sais pas ce que la "moyenne" valeur p est plus d'un million d'articles, bien sûr.
Gardez à l' esprit, les scientifiques sont vraiment pas censés prendre un petit nombre de résultats à la p autour de 0,05 comme « vérité scientifique ». Pas même proche. Les scientifiques sont supposés intégrer plusieurs études, chacune ayant un pouvoir statistique approprié, un mécanisme plausible, une reproductibilité, une ampleur d'effet, etc., et l'intégrer dans un modèle provisoire du fonctionnement de certains phénomènes.
Mais cela signifie-t-il que presque toute la science est correcte? En aucune façon. Les scientifiques sont des êtres humains et sont victimes de partis pris, de mauvaises méthodes de recherche (y compris d’approches statistiques inappropriées), de fraudes, de simples erreurs humaines et de malchance. Ce sont probablement ces facteurs plutôt que la convention p <0,05 qui expliquent probablement pourquoi une bonne partie de la science publiée est erronée. En fait, allons droit au but et faisons une déclaration encore plus "effrayante" que ce que vous avez avancé:
Pourquoi la plupart des résultats de recherche publiés sont-ils faux?
la source
Votre compréhension des valeurs semble être correcte.p
Des préoccupations similaires sont exprimées assez souvent. Dans votre exemple, il est logique de calculer non seulement le nombre d’études sur 23 millions aboutissant à des faux positifs, mais également la proportion d’études ayant obtenu un effet significatif faux. Ceci est appelé "taux de fausse découverte". Il n'est pas égal à et dépend de plusieurs autres facteurs, tels que, par exemple, la proportion de valeurs nulles dans vos études de 23 millions de dollars. C'est évidemment impossible à savoir, mais on peut deviner. Certaines personnes disent que le taux de fausses découvertes est d' au moins 30%.α
Voir par exemple cette discussion récente d'un article de 2014 de David Colquhoun: Confusion avec le taux de fausses découvertes et les tests multiples (sur Colquhoun 2014) . J'y ai discuté contre cette estimation "d'au moins 30%", mais je conviens que dans certains domaines de la recherche, le taux de fausses découvertes peut être légèrement supérieur à 5%. C'est vraiment inquiétant.
Je ne pense pas que dire que null soit presque jamais vrai aide ici; Les erreurs de type S et de type M (telles qu'introduites par Andrew Gelman) ne valent guère mieux que les erreurs de type I / II.
Je pense que ce que cela signifie vraiment, c'est qu'il ne faut jamais faire confiance à un résultat "significatif" isolé.
Ceci est même vrai en physique des hautes énergies avec leur critère super-strict ; nous croyons que la découverte du boson de Higgs est en partie due au fait qu’elle s’intègre si bien dans la prédiction théorique. Ceci est bien sûr beaucoup BEAUCOUP plus dans certaines autres disciplines avec des critères de signification conventionnels beaucoup plus bas ( ) et un manque de prédictions théoriques très spécifiques. α = 0,05α≈10−7 α=0.05
Les bonnes études, du moins dans mon domaine, ne rapportent pas un résultat isolé . Une telle constatation devrait être confirmée par une autre analyse (au moins partiellement indépendante) et par quelques autres expériences indépendantes. Si je regarde les meilleures études dans mon domaine, je vois toujours beaucoup d'expériences qui, ensemble, aboutissent à un résultat particulier; leur « cumulatif » -value (qui est jamais explicitement calculée) est très faible.pp<0.05 p
En d'autres termes, je pense que si un chercheur obtient un résultat , cela signifie simplement qu'il doit aller plus loin dans ses recherches. Cela ne veut certainement pas dire que cela devrait être considéré comme une "vérité scientifique".p<0.05
la source
Votre préoccupation est précisément la préoccupation qui sous-tend une grande partie des discussions scientifiques en cours sur la reproductibilité. Cependant, la situation réelle est un peu plus compliquée que vous ne le suggérez.
Premièrement, établissons une terminologie. Le test de signification d'une hypothèse nulle peut être compris comme un problème de détection de signal - l'hypothèse nulle est vraie ou fausse, et vous pouvez choisir de la rejeter ou de la conserver. La combinaison de deux décisions et de deux "vrais" états de choses possibles donne le tableau suivant, que la plupart des gens voient à un moment donné lorsqu'ils apprennent des statistiques:
Les scientifiques qui utilisent des tests de signification des hypothèses nuls tentent de maximiser le nombre de décisions correctes (indiquées en bleu) et de minimiser le nombre de décisions incorrectes (indiquées en rouge). Des scientifiques en activité essaient également de publier leurs résultats pour pouvoir trouver des emplois et faire avancer leur carrière.
Bien entendu, gardez à l'esprit que, comme de nombreux autres répondants l'ont déjà mentionné, l'hypothèse nulle n'est pas choisie au hasard, mais plutôt spécifiquement parce que, sur la base de la théorie antérieure, le scientifique estime qu'elle est fausse . Malheureusement, il est difficile de quantifier la proportion de fois où les scientifiques ont raison dans leurs prévisions, mais gardez à l'esprit que, lorsqu'ils traitent de la colonne " est faux", ils devraient se préoccuper des faux négatifs plutôt que des faux positifs.H0
Cependant, vous semblez vous préoccuper des faux positifs, concentrons-nous donc sur la colonne " est vrai". Dans cette situation, quelle est la probabilité qu'un scientifique publie un faux résultat?H0
Biais de publication
Tant que la probabilité de publication ne dépend pas de savoir si le résultat est "significatif", la probabilité est donc précisément - 0,05, et parfois inférieure en fonction du domaine. Le problème est qu'il ya une bonne preuve que la probabilité de publication ne dépend si le résultat est significatif (voir, par exemple, Stern & Simes, 1997 ; . Dwan et al, 2008 ), que ce soit parce que les scientifiques ne présentent qu'une des résultats significatifs pour la publication ( Rosenthal, 1979 ) ou parce que les résultats non significatifs sont soumis pour publication mais ne sont pas corrigés par les pairs.α
La question générale de la probabilité de publication en fonction de la valeur observée est ce que l’on entend par biais de publication . Si nous prenons un pas en arrière et réfléchissons aux implications du biais de publication pour une littérature de recherche plus large, un ouvrage de recherche affecté par un biais de publication contiendra toujours des résultats vrais - parfois l'hypothèse nulle selon laquelle un scientifique prétend être faux sera réellement fausse, et, en fonction du degré de biais de publication, un scientifique prétendra à juste titre qu’une hypothèse nulle donnée est vraie. Cependant, la littérature de recherche sera également encombrée par une trop grande proportion de faux positifs (c.-à-d. Des études dans lesquelles le chercheur prétend que l'hypothèse nulle est fausse alors que c'est vraiment le cas).p
Chercheur degrés de liberté
Le biais de publication n'est pas le seul moyen pour que, sous l'hypothèse nulle, la probabilité de publier un résultat significatif soit supérieure à . Lorsqu'ils sont utilisés de manière inappropriée, certains domaines de flexibilité dans la conception des études et l'analyse des données, parfois qualifiés de degrés de liberté du chercheur ( Simmons, Nelson, & Simonsohn, 2011 ), peuvent augmenter le taux de faux positifs, même en l'absence de biais de publication. Par exemple, si nous supposons que, lorsqu’un résultat non significatif est obtenu, tous les scientifiques (ou certains) excluront un point de données excentrique si cette exclusion modifie le résultat non significatif en un résultat significatif, le taux de faux positifs sera alors réduit. plus grand queαα α . Compte tenu de la présence d'un nombre suffisant de pratiques de recherche douteuses, le taux de faux positifs peut aller jusqu'à 0,60 même si le taux nominal était fixé à 0,05 ( Simmons, Nelson et Simonsohn, 2011 ).
Il est important de noter que l'utilisation inappropriée des degrés de liberté du chercheur (ce que l'on appelle parfois une pratique de recherche douteuse; Martinson, Anderson et de Vries, 2005 ) n'est pas la même chose que la constitution de données. Dans certains cas, l'exclusion des valeurs aberrantes est la bonne chose à faire, soit en raison d'une défaillance de l'équipement, soit pour une autre raison. Le problème clé est que, en présence de degrés de liberté du chercheur, les décisions prises au cours d'une analyse dépendent souvent de la manière dont les données sont obtenues ( Gelman & Loken, 2014), même si les chercheurs en question ne sont pas conscients de ce fait. Tant que les chercheurs utilisent les degrés de liberté des chercheurs (consciemment ou inconsciemment) pour augmenter la probabilité d'obtenir un résultat significatif de la même manière que le biais de publication.
Une mise en garde importante à la discussion ci-dessus est que les articles scientifiques (du moins en psychologie, qui est mon domaine) consistent rarement en un seul résultat. Plusieurs études, comportant chacune plusieurs tests, sont plus courantes. L'accent est mis sur la construction d'un argument plus large et sur l'élimination des explications alternatives pour la preuve présentée. Cependant, la présentation sélective des résultats (ou la présence de degrés de liberté du chercheur) peut fausser un ensemble de résultats aussi facilement qu'un résultat unique. Il est prouvé que les résultats présentés dans des documents à études multiples sont souvent beaucoup plus propres et solides que prévu, même si toutes les prédictions de ces études étaient toutes vraies ( Francis, 2013 ).
Conclusion
Fondamentalement, je suis d’accord avec votre intuition selon laquelle le test de signification d’une hypothèse nulle peut mal tourner. Cependant, je dirais que les véritables coupables qui génèrent un taux élevé de faux positifs sont des processus tels que le biais de publication et la présence de degrés de liberté de chercheur. En effet, de nombreux scientifiques sont bien conscients de ces problèmes et l'amélioration de la reproductibilité scientifique est un sujet de discussion actuel très actif (par exemple, Nosek et Bar-Anan, 2012 ; Nosek, Spies et Motyl, 2012 ). Donc, vous êtes en bonne compagnie avec vos préoccupations, mais je pense aussi qu'il y a aussi des raisons pour un optimisme prudent.
Références
Stern, JM et Simes, RJ (1997). Biais de publication: preuve de publication retardée dans une étude de cohorte de projets de recherche clinique. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640
Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E.,… Williamson, PR (2008). Revue systématique des preuves empiriques de biais de publication et de résultats. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081
Rosenthal, R. (1979). Le problème du tiroir de fichiers et la tolérance pour les résultats nuls. Psychological Bulletin, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638
Simmons, JP, LD, Nelson et Simonsohn, U. (2011). Psychologie des faux positifs: la flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter quelque chose d'important. Psychological Science, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632
Martinson, BC, Anderson, MS, et de Vries, R. (2005). Les scientifiques se comportent mal. Nature, 435, 737–738. http://doi.org/10.1038/435737a
Gelman, A. et Loken, E. (2014). La crise statistique en science. American Scientist, 102, 460-465.
Francis, G. (2013). Réplication, cohérence statistique et biais de publication. Journal of Mathematical Psychology, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003
Nosek, BA, et Bar-Anan, Y. (2012). Utopie scientifique: I. Ouverture de la communication scientifique. Psychological Enquiry, 23 (3), 217-243. http://doi.org/10.1080/1047840X.2012.692215
Nosek, BA, Spies, JR, et Motyl, M. (2012). Utopie scientifique: II. Restructuration des incitations et des pratiques visant à promouvoir la vérité plutôt que la publicité. Perspectives on Psychological Science, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058
la source
Un contrôle important de la question importante soulevée dans cette question est que la "vérité scientifique" ne repose pas sur des publications individuelles isolées. Si un résultat est suffisamment intéressant, il incitera d'autres scientifiques à en comprendre les implications. Ce travail aura tendance à confirmer ou à réfuter la conclusion initiale. Il peut y avoir une chance sur 20 de rejeter une hypothèse nulle vraie dans une étude individuelle, mais seulement un sur 400 de le faire deux fois de suite.
Si les scientifiques répètent simplement les expériences jusqu'à ce qu'ils trouvent la "signification" et publient ensuite leurs résultats, le problème pourrait être aussi important que le PO le suggère. Mais ce n’est pas ainsi que la science fonctionne, du moins après mes presque 50 ans d’expérience dans la recherche biomédicale. En outre, une publication traite rarement d'une seule expérience "significative", mais est plutôt basée sur un ensemble d'expériences interdépendantes (chacune devant être "significative" à elle seule) qui, ensemble, appuient une hypothèse de fond plus large.
Un problème beaucoup plus vaste provient de scientifiques trop attachés à leurs propres hypothèses. Ils peuvent ensuite surinterpréter les implications des expériences individuelles pour étayer leurs hypothèses, procéder à une édition douteuse des données (comme supprimer les données aberrantes de manière arbitraire) ou, comme je l’ai vu et aidé à comprendre, reconstituer les données.
La science, cependant, est un processus hautement social, indépendamment de la mythologie selon laquelle des scientifiques fous se cachent haut dans des tours d'ivoire. Les concessions entre des milliers de scientifiques qui défendent leurs intérêts, sur la base de ce qu’ils ont appris du travail des autres, constituent la protection institutionnelle ultime contre les faux positifs. De fausses conclusions peuvent parfois se perpétuer pendant des années, mais si un problème est suffisamment important, le processus identifiera éventuellement les conclusions erronées.
la source
Pour ajouter à la discussion, voici un post intéressant et une discussion ultérieure sur la façon dont les gens comprennent mal la valeur p.
Quoi qu’il en soit, ce qu’il faut retenir, c’est que la valeur p ne soit qu’une mesure de la force de la preuve pour rejeter une hypothèse donnée. Une valeur p n'est certainement pas un seuil difficile en dessous duquel une chose est "vraie" et au-dessus de laquelle il est uniquement dû au hasard. Comme expliqué dans le post référencé ci-dessus:
la source
Comme cela a également été souligné dans les autres réponses, cela ne posera de problèmes que si vous envisagez de manière sélective de considérer les résultats positifs dans les cas où l'hypothèse nulle est exclue. C'est pourquoi les scientifiques écrivent des articles de synthèse où ils prennent en compte les résultats de recherches déjà publiés et tentent de développer une meilleure compréhension du sujet sur cette base. Cependant, il reste encore un problème, qui est dû au prétendu "biais de publication", à savoir que les scientifiques sont plus susceptibles de rédiger un article sur un résultat positif que sur un résultat négatif. plus susceptibles d'être rejetés pour publication qu'un article sur un résultat positif.
En particulier dans les domaines où les tests statistiques sont très importants, ce sera un gros problème, le domaine de la médecine est un exemple notoire. C'est pourquoi il a été rendu obligatoire d'enregistrer les essais cliniques avant leur réalisation (par exemple ici ). Vous devez donc expliquer la configuration, la manière dont l'analyse statistique sera effectuée, etc., etc. avant le début du procès. Les principales revues médicales refuseront de publier des articles si les essais dont ils font état ont été non enregistrés.
Malheureusement, malgré cette mesure, le système ne fonctionne pas très bien .
la source
Ceci est proche d'un fait très important concernant la méthode scientifique: il met l'accent sur la falsifiabilité. La philosophie de la science la plus populaire à l’heure actuelle repose sur le concept de falsifiabilité de Karl Popper comme pierre angulaire.
Le processus scientifique de base est donc:
N'importe qui peut réclamer n'importe quelle théorie, à tout moment. La science admettra toute théorie "falsifiable". Le sens le plus littéral de ce mot est que, si quelqu'un d'autre n'aime pas la revendication, cette personne est libre de dépenser les ressources nécessaires pour réfuter la revendication. Si vous ne pensez pas que les chaussettes en argyle guérissent le cancer, vous êtes libre d'utiliser votre propre service médical pour le réfuter.
Étant donné que cette barre d’entrée est extrêmement basse, il est de tradition que la "Science", en tant que groupe culturel, n’entretiendra aucune idée tant que vous n’aurez pas "fait un bon effort" pour falsifier votre propre théorie.
L'acceptation des idées a tendance à se faire par étapes. Vous pouvez obtenir votre concept dans un article de revue avec une étude et une valeur p plutôt basse. Ce que cela vous achète, c'est de la publicité et une certaine crédibilité. Si quelqu'un est intéressé par votre idée, par exemple si votre science a des applications en ingénierie, elle peut vouloir l'utiliser. À ce moment-là, ils sont plus susceptibles de financer une série supplémentaire de falsification.
Ce processus se poursuit, toujours avec la même attitude: croyez ce que vous voulez, mais pour parler de science, il faut que je puisse le contredire plus tard.
Cette barre basse d’entrée est ce qui lui permet d’être aussi innovante. Donc, oui, il existe un grand nombre d’articles de revues théoriquement «faux». Cependant, la clé est que chaque article publié est théoriquement falsifiable. Ainsi, à tout moment, quelqu'un pourrait dépenser l'argent pour le tester.
C’est la clé: les journaux contiennent non seulement des éléments qui satisfont à un p-test raisonnable, mais ils contiennent également les clés permettant à d’autres personnes de le démanteler si les résultats se révèlent faux.
la source
C'est ainsi que fonctionnent beaucoup de sciences sociales. Pas tellement avec les sciences physiques. Pensez à ceci: vous avez tapé votre question sur un ordinateur. Les gens ont été capables de construire ces bêtes complexes appelées ordinateurs en utilisant les connaissances de la physique, de la chimie et d'autres domaines des sciences physiques. Si la situation était aussi mauvaise que vous le décrivez, aucun des composants électroniques ne fonctionnerait. Ou pensez aux choses comme une masse d'électron, qui est connue avec une précision insensée. Ils passent à travers des milliards de portes logiques dans un ordinateur et votre ordinateur fonctionne encore et encore pendant des années.
MISE À JOUR: pour répondre aux votes négatifs que j'ai reçus, je me suis senti inspiré de vous donner quelques exemples.
Le premier provient de la physique: Bystritsky, VM, et al. " Mesurer les facteurs S astrophysiques et les sections efficaces de la réaction p (d, γ) 3He dans la région d'énergie ultra-basse en utilisant une cible de deutéride de zirconium ." Physique des Particules et Noyaux Letters 10.7 (2013): 717-722.
Comme je l'ai déjà écrit, ces physiciens ne prétendent même pas faire de statistiques autres que le calcul des erreurs types. Il y a un tas de graphiques et de tableaux, pas une seule valeur p ou même un intervalle de confiance. La seule preuve statistique est la note d’erreur type , par exemple .0.237±0.061
Mon exemple suivant est tiré de ... psychologie: Paustian-Underdahl, Samantha C., Lisa Slattery Walker et David J. Woehr. " Genre et perceptions de l'efficacité du leadership: une méta-analyse des modérateurs contextuels ." Journal of Applied Psychology, 2014, vol. 99, n ° 6, 1129 –1145.
Maintenant, regardez quelques tableaux de papiers et devinez de quels papiers ils proviennent:
C'est la raison pour laquelle, dans un cas, vous avez besoin de statistiques "cool" et dans un autre, vous n'en avez pas: parce que les données sont de mauvaise qualité ou non. Lorsque vous avez de bonnes données, vous n'avez pas besoin de beaucoup de statistiques au-delà des erreurs standard.
UPDATE2: @ PatrickS.Forscher a fait une déclaration intéressante dans le commentaire:
Je dois être en désaccord. En économie et en finance, les théories ne sont pas du tout "douces". Vous pouvez consulter au hasard un article dans ces domaines et obtenir quelque chose comme ceci:
etc.
Il s'agit de Schervish, Mark J., Teddy Seidenfeld et Joseph B. Kadane. " Extensions de la théorie de l'utilité attendue et quelques limitations des comparaisons par paires ." (2003). Cela vous semble-t-il doux?
Je répète ce que je veux dire ici: lorsque vos théories ne sont pas bonnes et que vos données sont de mauvaise qualité, vous pouvez utiliser les calculs les plus difficiles tout en obtenant un résultat médiocre.
Dans cet article, ils parlent des services publics, du concept de bonheur et de satisfaction - absolument inobservable. C'est comme ce qui est utile d'avoir une maison contre manger un cheeseburger? Vraisemblablement, il y a cette fonction, où vous pouvez brancher "manger cheeseburger" ou "vivre chez soi" et la fonction crachera la réponse dans certaines unités. Aussi fou que cela puisse paraître, c’est sur quoi est construite l’écomique moderne, grâce à von Neuman.
la source