J'ai lu de nombreux articles académiques sur l'évolution / l'écologie, parfois dans le but spécifique de voir comment les statistiques sont utilisées «dans le monde réel» en dehors du manuel. Je prends normalement les statistiques dans les papiers comme évangile et les utilise pour m'aider dans mon apprentissage statistique. Après tout, si un article a pris des années à écrire et a été soumis à un examen par les pairs, alors les statistiques seront-elles sûrement solides? Mais au cours des derniers jours, je me suis interrogé sur mon hypothèse et je me suis demandé à quelle fréquence l'analyse statistique publiée dans des articles scientifiques est-elle suspecte? En particulier, on pourrait s’attendre à ce que ceux qui travaillent dans des domaines tels que l’écologie et l’évolution aient passé moins de temps à apprendre les statistiques et plus de temps à l’apprentissage de leurs domaines.
À quelle fréquence les gens trouvent-ils des statistiques suspectes dans les journaux universitaires?
la source
Réponses:
Mon expérience de la lecture d'articles qui tentent d'appliquer des statistiques dans une grande variété de domaines (sciences politiques, économie, psychologie, médecine, biologie, finance, science actuarielle, comptabilité, optique, astronomie et bien d'autres) est que la qualité des L'analyse statistique peut se situer n'importe où dans le spectre, de l'excellent travail bien fait au non-sens flagrant. J'ai vu une bonne analyse dans chacun des domaines que j'ai mentionnés et une analyse assez mal faite dans la quasi-totalité d'entre eux.
Certains journaux sont généralement assez bons, et certains peuvent ressembler davantage à jouer aux fléchettes avec un bandeau sur les yeux - la plupart d’entre eux ne sont peut-être pas trop éloignés de la cible, mais il y en aura quelques-uns dans le mur, le sol et le plafond. Et peut-être le chat.
Je n'ai pas l'intention de nommer les coupables, mais je dirai que j'ai vu des carrières académiques reposant sur une utilisation erronée des statistiques (c'est-à-dire où les mêmes erreurs et incompréhensions ont été répétées, papier après papier, pendant plus de dix ans).
Donc mon conseil est laisser le lecteur se méfier ; ne croyez pas que les éditeurs et les réviseurs savent ce qu'ils font. Avec le temps, vous aurez peut-être une bonne idée des auteurs sur lesquels on peut généralement compter pour ne rien faire de trop choquant, et de ceux qui doivent être traités avec une prudence particulière. Vous pouvez avoir l’impression que certaines statistiques ont des normes très élevées.
Mais même un auteur généralement bon peut faire une erreur, ou bien les arbitres et les éditeurs peuvent ne pas détecter les erreurs qu'ils pourraient normalement trouver; un bon journal peut publier un hurleur.
[Parfois, vous verrez même de très mauvais journaux gagner des prix ou des récompenses ... ce qui ne dit pas grand chose pour la qualité des personnes qui jugent le prix, non plus.]
Je ne voudrais pas deviner ce que la fraction de "mauvaises" statistiques que j'aurais pu voir (sous différentes formes et à chaque étape de la définition de la question, de la conception de l'étude, de la collecte de données, de la gestion de données, etc. analyse et conclusions), mais ce n’est pas assez petit pour que je me sente à l’aise.
Je pourrais citer des exemples, mais je ne pense pas que ce soit le bon forum pour le faire. (Ce serait bien s'il y avait un bon forum pour cela, en fait, mais encore une fois, il deviendrait probablement très politisé très rapidement et ne servirait bientôt plus son but.)
J'ai passé un peu de temps à parcourir PLOS ONE ... et encore une fois, je ne vais pas pointer du doigt des documents spécifiques. Certaines choses que j'ai remarquées: il semblerait qu'une grande partie des articles contiennent des statistiques, probablement plus de la moitié comportant des tests d'hypothèses. Les principaux dangers semblent être de nombreux tests, avec un élevé comme 0,05 sur chacun (ce qui n’est pas automatiquement un problème, du moment que nous comprenons que de très petits effets pourraient se révéler significatifs par hasard), ou incroyablement bas. niveau de signification individuel, ce qui aura tendance à donner une faible puissance. J'ai aussi vu un certain nombre de cas où environ une demi-douzaine de tests différentsα ont apparemment été appliquées pour résoudre exactement la même question. Cela me semble une idée généralement mauvaise. Globalement, la norme était plutôt bonne sur quelques dizaines de journaux, mais j’ai vu un journal absolument terrible.
[Je pourrais peut-être citer un seul exemple, indirectement. Cette question demande de savoir si quelqu'un fait quelque chose de douteux. C'est loin d'être la pire chose que j'ai vue.]
D'autre part, je vois aussi (encore plus souvent) des cas dans lesquels des personnes sont obligées de franchir toutes sortes d'obstacles inutiles pour que leur analyse soit acceptée. les choses parfaitement raisonnables à faire ne sont pas acceptées car il existe une "bonne" façon de faire les choses, selon un critique, un éditeur ou un superviseur, ou simplement dans la culture tacite d'un domaine particulier.
la source
Je respecte la position de @ Glen_b sur la bonne façon de répondre ici (et je n’ai certainement pas l’intention de la minimiser), mais je ne peux pas résister à l'idée de citer un exemple particulièrement divertissant et proche de chez moi. Au risque de politiser les choses et de nuire à l'objectif de cette question, je recommande Wagenmakers, Wetzels, Boorsboom et Van Der Maas (2011) . Je l'ai cité dans un article connexe de la bêta SE de Cognitive Sciences ( Comment la science cognitive explique-t-elle l'intentionnalité à distance et le fonctionnement du cerveau chez les receveurs? ), Qui considère un autre exemple de "fléchette qui frappe le chat". L'article de Wagenmakers et de ses collègues commente directement un vrai "hurleur": il a été publié dans JPSP (un des plus grandes revues de psychologie)) il y a quelques années. Ils argumentent également plus généralement en faveur de l'analyse bayésienne et que:
Je n'ai probablement pas besoin de vous dire que cela n'a pas été perçu comme une prédication à la chorale. FWIW, il y a aussi une réfutation (comme il semble toujours y avoir entre Bayésiens et fréquentistes; ( Bem, Utts, & Johnson, 2011 ) , mais j'ai le sentiment que le débat n'a pas été vraiment réussi .
La psychologie en tant que communauté scientifique a récemment fait l'objet d'un peu de réplication, en partie à cause de cette lacune et d'autres lacunes méthodologiques notoires. D'autres commentaires évoquent ici des cas similaires à ce que l'on appelait jadis les corrélations vaudou en neuroscience sociale (comment se fait-il que, dans le cas de BTW politiquement incorrect?, Le document a été renommé; Vul, Harris, Winkielman et Pashler, 2009 ). Cela aussi a attiré sa réfutation , que vous pouvez consulter pour plus de débats sur des pratiques très discutables.
Pour encore plus de loisirs éducatifs aux dépens (plus dépersonnalisés) de (pseudo) statisticiens se conduisant mal, consultez notre question actuellement la 8ème la plus votée ici sur CV avec un autre titre (certes) politiquement incorrect, " Quels sont les péchés statistiques courants? " @MikeLawrence attribue son inspiration à son étude parallèle de la psychologie et des statistiques. C'est l'un de mes favoris personnels, et ses réponses sont très utiles pour vous éviter les innombrables pièges.
Sur le plan personnel, j'ai passé une grande partie de mes cinq derniers mois ici principalement parce qu'il est incroyablement difficile d'obtenir des statistiques fiables sur certaines questions relatives à l'analyse de données. Franchement, l’examen par les pairs n’est souvent pas très rigoureux, en particulier en ce qui concerne l’analyse statistique de la recherche dans les sciences plus jeunes, avec des questions complexes et de nombreuses complications épistémiques. C'est pourquoi j'ai ressenti le besoin d'assumer personnellement la responsabilité de perfectionner les méthodes dans mon propre travail.
En présentant ma thèse , j'ai compris à quel point la responsabilité personnelle de l'examen statistique était importante. Deux psychologues exceptionnels de mon alma mater ont déclaré que je commettais l’ un des péchés les plus fondamentaux dans mon interprétation des corrélations. Je m'étais imaginé au-dessus de moi et je l'avais déjà présenté plusieurs fois à des étudiants de premier cycle, mais j'y suis quand même allé et j'ai été appelé (tôt, merci, mon Dieu). J'y suis allé parce que les recherches que je passais en revue et les reproduisais y sont allées! Ainsi, j'ai fini par ajouter plusieurs sections à ma thèse cela a incité les autres chercheurs à supposer que la causalité reposait sur des études longitudinales quasi expérimentales (parfois même à partir de corrélations transversales) et à ignorer prématurément d'autres explications.
Mon comité, qui comprenait un autre psychométricien exceptionnel et le futur président du SPSP (qui publie JPSP), a accepté ma thèse, mais, pour être franc, je ne me vanterai pas de le dire. Depuis, j’ai réussi à percer plusieurs failles dans mes propres méthodes malgré le passage du processus de révision externe avec de très bons relecteurs. Je suis maintenant tombé dans la partie profonde des statistiques en essayant de les associer à des méthodes plus appropriées pour la modélisation prédictive des notations de Likert telles que l'analyse SEM, IRT et l'analyse non paramétrique (voir Tests de régression après réduction de la dimension).). Je choisis volontairement de passer des années sur un document que je pourrais probablement simplement publier tel quel à la place ... Je pense qu'il me reste même une étude de simulation à faire avant que je puisse procéder consciencieusement.
Cependant, j’insiste sur le fait que c’est facultatif - peut-être même un excès de zèle et un luxe coûteux au sein de la culture «publier ou périr» qui met souvent l’accent sur la qualité plutôt que sur la qualité dans les dossiers de travail en début de carrière. L'application erronée de modèles paramétriques pour des données continues à des distributions de données ordinales contraires à l'hypothèse est trop fréquente, de même que l'interprétation erronée et la représentation erronée de la signification statistique (voir la section Prise en compte des vues enchâssées sur les valeurs p ). Je pourrais tout à fait m'en sortir (à court terme) ... et ce n'est même pas si difficile de faire mieux que ça. Je suppose que je dois remercier pour plusieurs avancées récentes dans les programmes R! En espérant que les temps changent.
Références
· Bem, DJ, Utts, J., et Johnson, WO (2011). Les psychologues doivent-ils changer la façon dont ils analysent leurs données? Journal de la personnalité et de la psychologie sociale, 101 (4), 716–719. Extrait de http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009). Des corrélations étonnamment élevées dans les études IRMf sur les émotions, la personnalité et la cognition sociale. Perspectives on Psychological Science, 4 (3), 274-290. Extrait de http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, R. Wetzels, D. Borsboom et H. Van der Maas (2011). Pourquoi les psychologues doivent-ils changer la façon dont ils analysent leurs données? Le cas du psi. Journal de la personnalité et de la psychologie sociale, 100 , 426-432. Extrait de http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .
la source
Je me souviens que, à l’Université, quelques étudiants en sciences sociales de dernière année avaient demandé à différentes occasions (l’un d’eux avait une 1ère) de déterminer une moyenne pour leur projet comportant une poignée de points de données. (Ils ne rencontraient donc pas de problème avec l'utilisation d'un logiciel, mais simplement avec le concept de calcul mathématique avec une calculatrice.)
Ils me donnent juste des regards vides quand je leur demande quel type de moyenne ils voulaient.
Pourtant, ils ont tous ressenti le besoin de mettre des statistiques dans leur rapport, car c’était chose faite - je suppose qu’ils ont tous lu 101 articles qui contiennent des statistiques sans penser à ce que les statistiques signifiaient.
Il est clair que le chercheur qui leur a enseigné au cours des trois années ne s'est pas suffisamment soucié de l'exactitude des statistiques pour distiller la compréhension des élèves.
(J'étais étudiant en science informatique à l'époque. Je poste ceci comme réponse car c'est un peu long pour un commentaire.)
la source
En tant que liste malheureusement incomplète, je trouve les statistiques les plus souvent correctes dans 1) les articles de physique suivis de 2) les articles de statistiques et le plus misérable dans 3) les articles de médecine. Les raisons en sont simples et ont trait à la complétude des exigences imposées au modèle prototype dans chaque domaine.
Dans les articles de physique, les équations et les statistiques appliquées doivent prêter attention aux unités équilibrées et sont les causes les plus fréquentes de relations de cause à effet et de tests par rapport à des standards physiques.
En statistique, 1) les unités et la causalité sont parfois ignorées, les hypothèses sont parfois heuristiques et les tests physiques sont trop souvent ignorés, mais l'égalité (ou les inégalités), c'est-à-dire que la logique est généralement préservée le long d'un chemin inductif, où celle-ci ne peut pas corriger hypothèses non physiques.
En médecine, les unités sont généralement ignorées, les équations et les hypothèses sont généralement heuristiques, généralement non vérifiées et souvent fausses.
Naturellement, un domaine tel que la mécanique statistique est plus susceptible d’avoir des hypothèses vérifiables que, disons, l’économie, et cela ne reflète pas le talent des auteurs potentiels dans ces domaines. Cela dépend davantage de ce qui est réellement testable et de ce qui a été fait historiquement dans chaque domaine.
la source
Tout article qui réfute l'hypothèse nulle nulle utilise des statistiques sans valeur (la grande majorité de ce que j'ai vu). Ce processus ne peut fournir aucune information non fournie par la taille de l'effet. De plus, cela ne nous dit pas si un résultat significatif est réellement dû à la cause théorisée par le chercheur. Cela nécessite une enquête approfondie des données afin de mettre en évidence des facteurs de confusion. Le plus souvent, si elles sont présentes, les preuves les plus solides sont même considérées comme des "valeurs aberrantes".
Je ne connais pas très bien l’évolution / l’écologie, mais dans le cas de la recherche psychologique et médicale, j’appellerais le niveau de compréhension statistique «très confus» et «un obstacle au progrès scientifique». Les gens sont supposés réfuter quelque chose que leur théorie prédit, et non l'inverse (différence / effet nul).
Des milliers d'articles ont été écrits sur ce sujet. Rechercher la controverse hybride NHST.
Edit: Et je veux dire que le test de signification de l'hypothèse de nullité nulle a une valeur scientifique maximale de zéro. Cette personne frappe le clou sur la tête:
http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/
Aussi: Paul Meehl. 1967. Tests théoriques en psychologie et physique: un paradoxe méthodologique
Edit 3:
Si quelqu'un a des arguments en faveur de l'utilité de Strawman NHST qui n'exigent pas de penser, "rejetez l'hypothèse selon laquelle le taux de réchauffement est identique, mais NE PRENEZ PAS ceci pour dire que le taux de réchauffement n'est pas le même" est une raison rationnelle. déclaration, je serais heureux de recevoir vos commentaires.
Edit 4:
Que voulait dire Fisher dans la citation suivante? Est - il suggère qu'il pensait « Si le modèle / théorie A est incompatible avec les données, nous pouvons dire est faux, mais rien si non A est vrai »?
Karl Pearson et RA Fisher sur des tests statistiques: Un échange de 1935 de la nature
Est-ce qu'il a supposé que les gens n'essaieraient que d'invalider des hypothèses plausibles plutôt que des hommes de paille? Ou ai-je tort?
la source