Au cours des dernières années, divers chercheurs ont soulevé un problème préjudiciable de test d'hypothèse scientifique, surnommé "degré de liberté du chercheur", ce qui signifie que les scientifiques ont de nombreux choix à faire lors de leur analyse qui biaisent vers la recherche avec une valeur p <5%. Ces choix ambigus sont, par exemple, le cas à inclure, ce cas est classé comme aberrant, exécutant de nombreuses spécifications de modèle jusqu'à ce que quelque chose apparaisse, ne publie pas de résultats nuls, etc. (l'article qui a déclenché ce débat en psychologie est ici , voir un article Slate populaire et un débat de suivi par Andrew Gelman ici , et le magazine Time aborde également ce sujet ici .)
Tout d'abord , une question de clarification:
Le magazine Time a écrit:
"Une puissance de 0,8 signifie que sur dix vraies hypothèses testées, seules deux seront exclues car leurs effets ne sont pas repris dans les données;"
Je ne sais pas comment cela s'inscrit dans la définition de la fonction de puissance que j'ai trouvée dans le manuel, qui est la probabilité de rejeter le null en fonction du paramètre . Avec différents nous avons un pouvoir différent, donc je ne comprends pas très bien la citation ci-dessus.θ
Deuxièmement , certaines implications de la recherche:
Dans mon domaine de science politique / économie, les universitaires utilisent simplement toutes les données pays-année disponibles. Ne devrions-nous donc pas nous préoccuper ici de jouer des échantillons?
Le problème de l'exécution de plusieurs tests mais de la communication d'un seul modèle peut-il être résolu simplement par le fait que quelqu'un d'autre dans la discipline réexaminera votre document et vous frappera immédiatement pour ne pas avoir de résultats solides? Anticipant cela, les chercheurs de mon domaine sont plus susceptibles d'inclure une
robustness check
section, où ils montrent que plusieurs spécifications de modèle ne changent pas le résultat. Est-ce suffisant?Andrew Gelman et d'autres soulèvent le point que quelles que soient les données, il serait toujours possible de trouver et de publier un "modèle" qui n'est pas vraiment là. Mais cela ne devrait pas être un sujet de préoccupation, étant donné que tout "modèle" empirique doit être soutenu par une théorie, et les théories rivales au sein d'une discipline s'engageront simplement dans un débat / une course pour trouver quel camp est capable de trouver plus de "modèles". dans divers endroits. Si un motif est vraiment faux, alors la théorie derrière sera rapidement annulée lorsqu'il n'y a pas de motif similaire dans d'autres échantillons / paramètres. N'est-ce pas ainsi que la science progresse?
En supposant que la tendance actuelle des revues pour un résultat nul se développera réellement, existe-t-il un moyen pour nous d'agréger tous les résultats nuls et positifs ensemble et de faire une inférence sur la théorie qu'ils essaient tous de tester?
la source
Réponses:
Au lieu d'utiliser des valeurs de p pour évaluer les allégations, nous devons suivre les conseils de Robert Abelson et utiliser les critères MAGIC:
Pour en savoir plus sur Abelson, voir ma critique de son livre
Et nous devrions nous concentrer sur les tailles d'effet, et non sur les valeurs de p dans la sortie statistique (à l'exception peut-être de certaines sortes d'exploration de données, sur lesquelles je ne suis pas du tout expert). Et les tailles d'effet doivent être jugées dans leur contexte:
Un statisticien / analyste de données ne doit pas être une personne étrange, utilisée comme une boîte noire dans laquelle les données sont entrées et sorties à partir desquelles les valeurs p sont obtenues; il / elle devrait être un collaborateur dans la recherche conçue pour faire un argument raisonnable sur la signification d'un ensemble de données dans le contexte d'un domaine, étant donné les théories actuelles (ou leur manque) et les preuves actuelles (ou leur absence).
Malheureusement, cette approche nécessite une réflexion de la part des chercheurs de fond, de l'analyste de données et de quiconque examine les résultats (que ce soit un patron aux cheveux pointus, un comité de dissertation, un éditeur de journal ou autre). Curieusement, même les universitaires semblent opposés à ce genre de pensée.
Pour en savoir plus sur mes opinions, voici un article que j'ai écrit qui a été publié dans Sciences360.
la source
Le domaine de la science statistique a abordé ces questions depuis ses débuts. Je continue de dire que le rôle du statisticien est de s'assurer que le taux d'erreur de type 1 reste fixe. Cela implique que le risque de tirer de fausses conclusions positives ne peut être éliminé, mais peut être contrôlé. Cela devrait attirer notre attention sur le volume extrêmement important de recherches scientifiques en cours plutôt que sur la philosophie et l'éthique de la pratique statistique générale. Pour chaque résultat incroyable (non crédible) qui fait surface dans les médias (ou dans la politique gouvernementale), au moins 19 autres résultats non crédibles ont été abattus pour leurs résultats nuls.
En effet, si vous allez, disons, à clinictrials.gov, vous constaterez qu'il y a (pour presque toutes les indications de maladie) bien plus de 1000 essais cliniques pour des agents pharmaceutiques en cours aux États-Unis en ce moment même. Cela signifie qu'avec un taux d'erreur faux positif de 0,001, en moyenne au moins 1 médicament sera mis sur les étagères sans effet. La validité de 0,05 comme seuil validé pour la signification statistique a été mise à l'épreuve à maintes reprises. Ironiquement, seuls les statisticiens se sentent mal à l'aise avec l'utilisation d'un taux d'erreur faux positif de 1/20 alors que les acteurs financiers (qu'ils soient IP ou Merck) poursuivront leurs croyances avec ténacité indépendamment des résultats in vitro, des preuves théoriques ou de la force des preuves antérieures. Honnêtement, cette ténacité est une qualité personnelle réussie et louable de nombreuses personnes qui réussissent dans des rôles non statistiques. Ils sont généralement assis au-dessus des statisticiens, dans leurs totems respectifs, qui ont tendance à tirer parti de cette ténacité.
Je pense que la citation de Time que vous proposez est complètement fausse. La puissance est la probabilité de rejeter l'hypothèse nulle étant donné qu'elle est fausse. Plus important encore, cela dépend de la façon dont "l'hypothèse nulle" est "fausse" (qui dépend à son tour d'une taille d'effet mesurable). Je parle rarement de puissance hors du contexte de l'effet que nous jugerions "intéressant" à détecter. (par exemple, une survie de 4 mois après un traitement chimiothérapeutique du cancer du pancréas de stade 4 n'est pas intéressante, il n'y a donc aucune raison de recruter 5000 personnes pour un essai de phase 3).
Pour répondre aux questions que vous avez posées
???
La multiplicité est difficile car elle ne conduit pas à une règle de décision évidente sur la façon de gérer les données. Par exemple, supposons que nous soyons intéressés par un simple test de différence moyenne. Malgré les protestations infinies de mes collègues, il est facile de montrer qu'un test t est bien calibré pour détecter les différences de moyenne quelle que soit la distribution d'échantillonnage des données. Supposons que nous poursuivions alternativement leur chemin. Ils commenceraient par tester la normalité en utilisant une variante d'un test de distribution bien connu (par exemple l'étalonnage du qqplot). Si les données semblaient suffisamment anormales, ils demanderaient alors si les données suivent une transformation bien connue, puis appliqueraient une transformation de Box Cox pour déterminer une transformation de puissance (éventuellement logarithmique) qui maximise l'entropie. Si une valeur numérique évidente apparaît, ils utiliseront cette transformation. Sinon, ils utiliseront le test de Wilcoxon «sans distribution». Pour cette séquence d'événements ad hoc, je ne peux pas commencer à espérer comment calculer l'étalonnage et la puissance pour un test simple des différences moyennes alors que le test t simple et stupide aurait suffi. Je soupçonne que des actes stupides comme celui-ci peuvent être liés mathématiquement à l'estimation sur-efficace de Hodge: des estimateurs qui sont de grande puissance sous une hypothèse spécifique que nous voulons être vraie. Néanmoins, ce processus est s estimation sur-efficace: des estimateurs de puissance élevée sous une hypothèse spécifique que nous voulons être vrais. Néanmoins, ce processus est s estimation sur-efficace: des estimateurs de puissance élevée sous une hypothèse spécifique que nous voulons être vrais. Néanmoins, ce processus estnon statistique car le taux d'erreur de faux positifs n'a pas été contrôlé.
Le concept selon lequel les tendances peuvent être «découvertes» par erreur dans tout ensemble aléatoire de données remonte probablement à l'article bien écrit de Martin intitulé «Grille statistique de Munchaesen» . Il s'agit d'une lecture très éclairante qui remonte à 1984 avant que le veau d'or de l'apprentissage automatique nous soit né tel que nous le connaissons actuellement. En effet, une hypothèse correctement formulée est falsifiable, mais les erreurs de type 1 sont devenues beaucoup plus coûteuses dans notre société axée sur les données qu'elles ne l'ont jamais été auparavant. Considérez, par exemple, les preuves falsifiées de la recherche anti-vaccin qui a conduit à une séquence massive de décès par coqueluche. Les résultats qui ont repoussé la défenestration publique des vaccins étaient liés à une seule étude(ce qui, bien que faux, n'a été ni confirmé par des recherches externes). Il existe un élan éthique pour obtenir des résultats et signaler la force de la preuve honnête à la vérité. Quelle est la force des preuves? Cela n'a pas grand-chose à voir avec la valeur de p que vous obtenez, mais la valeur de p que vous avez dit que vous qualifieriez de significative. Et rappelez-vous que le fudging de vos données modifie la valeur de p, même lorsque le test de confirmation final signale quelque chose de différent (souvent beaucoup plus petit).
OUI! Vous pouvez clairement voir dans les méta-analyses publiées par des revues telles que le rapport Cochrane que la distribution des résultats des tests semble plus bimodale que le noraml, avec seulement des résultats positifs et négatifs qui en font des revues. Cette preuve est absolument folle et déroutante pour quiconque en pratique clinique. Si, au lieu de cela, nous publions des résultats nuls (qui proviennent d'études dont nous aurions été intéressés, quels qu'ils soient ), nous pouvons nous attendre à ce que les méta-analyses représentent réellement des preuves significatives et représentatives.
la source
Tout d'abord, je ne suis pas un statisticien, juste un chercheur qui s'est penché sur ce sujet ces dernières années pour comprendre pourquoi les méthodes que j'observe utilisées autour de moi font tellement défaut et pourquoi il y a tant de confusion au sujet de concepts de base comme le «quoi est une valeur p? " Je vais vous donner mon point de vue.
La puissance est fonction de θ, de la variance et de la taille de l'échantillon. Je ne sais pas quelle est la confusion. De plus, dans de nombreux cas où le test de signification est utilisé, l'hypothèse nulle de moyenne1 = moyenne2 est toujours fausse. Dans ces cas, la signification n'est fonction que de la taille de l'échantillon. S'il vous plaît, lisez "Les tests théoriques en psychologie et physique: un paradoxe méthodologique" de Paul Meehl, cela a clarifié beaucoup de choses pour moi et je n'ai jamais vu de réponse adéquate. Paul Meehl a quelques autres articles à ce sujet que vous pouvez trouver en recherchant son nom.
Si vous lisez l'article de Simmons 2011, ce n'est qu'une des techniques de "p-hacking" mentionnées. S'il est vrai qu'il n'y a qu'un seul ensemble de données et que personne n'en extrait d'échantillons sélectifs, je suppose qu'il n'y a pas de place pour augmenter la taille de l'échantillon.
Si la réplication se produisait sans biais de publication, il n'y aurait pas besoin de "revues du résultat nul". Je dirais que la section de vérification de la robustesse est bonne, mais n'est pas suffisante en présence de chercheurs qui ne publient pas ce qu'ils considèrent comme des résultats nuls. Je ne considérerais pas non plus un résultat robuste simplement parce que plusieurs techniques d'analyse sur les mêmes données aboutissent à la même conclusion. Un résultat robuste est celui qui fait une prédiction correcte de l'effet / corrélation / etc. sur les nouvelles données .
Une réplication n'obtient pas p <0,05 les deux fois. La théorie devrait être considérée comme plus robuste si elle prédit un effet / corrélation / etc. différent de celui utilisé dans la première étude. Je ne parle pas de la présence d'un effet ou d'une corrélation, mais de la valeur précise ou d'une petite plage de valeurs par rapport à une plage de valeurs possible. La présence d'un effet accru / diminué ou d'une corrélation positive / négative est 100% susceptible d'être vraie dans le cas où l'hypothèse nulle est fausse. Lisez Meehl.
La science ne peut pas fonctionner correctement si les chercheurs ne publient pas de résultats nuls. Le fait que le motif n'ait pas été découvert dans le deuxième échantillon / paramètre ne signifie pas non plus qu'il n'existe pas dans les conditions de l'étude initiale.
Ce serait une méta-analyse . Il n'y a rien de spécial dans les résultats nuls dans ce cas, si ce n'est que les chercheurs ne les publient pas parce que les valeurs de p étaient supérieures au seuil arbitraire. En présence de biais de publication, la méta-analyse n'est pas fiable, de même que l'ensemble de la littérature souffre de biais de publication. Bien qu'elle puisse être utile, la méta-analyse est bien inférieure pour évaluer une théorie que de demander à cette théorie de faire une prédiction précise qui est ensuite testée. Le biais de publication n'a pas autant d'importance tant que de nouvelles prédictions se concrétisent et sont reproduites par des groupes indépendants.
la source
Je dirais simplement que le test d'hypothèse nulle ne concerne vraiment que l'hypothèse nulle. Et généralement, l'hypothèse nulle n'est généralement pas ce qui est intéressant, et peut même ne pas être «le statu quo» - en particulier dans les tests d'hypothèse de type régression. Souvent en sciences sociales, il n'y a pas de statu quo, donc l'hypothèse nulle peut être tout à fait arbitraire. Cela fait une énorme différence dans l'analyse, car le point de départ n'est pas défini, de sorte que différentes recherches commencent avec différentes hypothèses nulles, probablement en fonction des données dont elles disposent. Comparez cela à quelque chose comme les lois du mouvement de Newton - il est logique d'avoir ceci comme hypothèse nulle, et essayez de trouver de meilleures théories à partir de ce point de départ.
De plus, les valeurs de p ne calculent pas la probabilité correcte - nous ne voulons pas connaître les probabilités de queue, sauf si l'hypothèse alternative est plus probable lorsque vous vous déplacez plus loin dans les queues. Ce que vous voulez vraiment, c'est à quel point la théorie prédit ce qui a été réellement vu. Par exemple, supposons que je prédise qu'il y a 50% de chances de "douche légère", et mon concurrent prédit qu'il y a 75% de chances. Cela s'avère correct et nous observons une légère averse. Maintenant, lorsque vous décidez quelle personne météo est correcte, vous ne devriez pas donner à ma prédiction un crédit supplémentaire pour avoir également donné 40% de chances d'un "orage", ni retirer un crédit à mon concurrent pour avoir donné à "l'orage" une chance de 0%.
Cela est particulièrement vrai pour l'exemple critiqué par Gelman - il n'y a jamais eu vraiment qu'une seule hypothèse testée, et peu de réflexion a été faite sur a) quelles sont les explications alternatives (en particulier sur la confusion et les effets non contrôlés), b) combien sont les alternatives soutenues par des recherches antérieures, et surtout, c) quelles prévisions font-elles (le cas échéant) qui sont substantiellement différentes de la valeur nulle?
la source