Implications du débat actuel sur la signification statistique

10

Au cours des dernières années, divers chercheurs ont soulevé un problème préjudiciable de test d'hypothèse scientifique, surnommé "degré de liberté du chercheur", ce qui signifie que les scientifiques ont de nombreux choix à faire lors de leur analyse qui biaisent vers la recherche avec une valeur p <5%. Ces choix ambigus sont, par exemple, le cas à inclure, ce cas est classé comme aberrant, exécutant de nombreuses spécifications de modèle jusqu'à ce que quelque chose apparaisse, ne publie pas de résultats nuls, etc. (l'article qui a déclenché ce débat en psychologie est ici , voir un article Slate populaire et un débat de suivi par Andrew Gelman ici , et le magazine Time aborde également ce sujet ici .)

Tout d'abord , une question de clarification:

Le magazine Time a écrit:

"Une puissance de 0,8 signifie que sur dix vraies hypothèses testées, seules deux seront exclues car leurs effets ne sont pas repris dans les données;"

Je ne sais pas comment cela s'inscrit dans la définition de la fonction de puissance que j'ai trouvée dans le manuel, qui est la probabilité de rejeter le null en fonction du paramètre . Avec différents nous avons un pouvoir différent, donc je ne comprends pas très bien la citation ci-dessus. $\theta$ $\theta$

Deuxièmement , certaines implications de la recherche:

Dans mon domaine de science politique / économie, les universitaires utilisent simplement toutes les données pays-année disponibles. Ne devrions-nous donc pas nous préoccuper ici de jouer des échantillons?
Le problème de l'exécution de plusieurs tests mais de la communication d'un seul modèle peut-il être résolu simplement par le fait que quelqu'un d'autre dans la discipline réexaminera votre document et vous frappera immédiatement pour ne pas avoir de résultats solides? Anticipant cela, les chercheurs de mon domaine sont plus susceptibles d'inclure une robustness checksection, où ils montrent que plusieurs spécifications de modèle ne changent pas le résultat. Est-ce suffisant?
Andrew Gelman et d'autres soulèvent le point que quelles que soient les données, il serait toujours possible de trouver et de publier un "modèle" qui n'est pas vraiment là. Mais cela ne devrait pas être un sujet de préoccupation, étant donné que tout "modèle" empirique doit être soutenu par une théorie, et les théories rivales au sein d'une discipline s'engageront simplement dans un débat / une course pour trouver quel camp est capable de trouver plus de "modèles". dans divers endroits. Si un motif est vraiment faux, alors la théorie derrière sera rapidement annulée lorsqu'il n'y a pas de motif similaire dans d'autres échantillons / paramètres. N'est-ce pas ainsi que la science progresse?
En supposant que la tendance actuelle des revues pour un résultat nul se développera réellement, existe-t-il un moyen pour nous d'agréger tous les résultats nuls et positifs ensemble et de faire une inférence sur la théorie qu'ils essaient tous de tester?

hypothesis-testing inference philosophical reproducible-research social-science Heisenberg
la source

Voir aussi "Test théorique en psychologie et physique: un paradoxe méthodologique" . L '"hypothèse nulle" est toujours fausse pour votre domaine. Même avec de bonnes pratiques de recherche, les tests de signification et les tests d'hypothèse sont probablement inappropriés.

Flask

Votre question 1 entre en conflit avec la question 3. En polsci / économie, y a-t-il d'autres échantillons / paramètres disponibles ou non?

Flask

11

Au lieu d'utiliser des valeurs de p pour évaluer les allégations, nous devons suivre les conseils de Robert Abelson et utiliser les critères MAGIC:

Magnitude
Articulation
Generality
Interestingness
Credibility

Pour en savoir plus sur Abelson, voir ma critique de son livre

Et nous devrions nous concentrer sur les tailles d'effet, et non sur les valeurs de p dans la sortie statistique (à l'exception peut-être de certaines sortes d'exploration de données, sur lesquelles je ne suis pas du tout expert). Et les tailles d'effet doivent être jugées dans leur contexte:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Un statisticien / analyste de données ne doit pas être une personne étrange, utilisée comme une boîte noire dans laquelle les données sont entrées et sorties à partir desquelles les valeurs p sont obtenues; il / elle devrait être un collaborateur dans la recherche conçue pour faire un argument raisonnable sur la signification d'un ensemble de données dans le contexte d'un domaine, étant donné les théories actuelles (ou leur manque) et les preuves actuelles (ou leur absence).

Malheureusement, cette approche nécessite une réflexion de la part des chercheurs de fond, de l'analyste de données et de quiconque examine les résultats (que ce soit un patron aux cheveux pointus, un comité de dissertation, un éditeur de journal ou autre). Curieusement, même les universitaires semblent opposés à ce genre de pensée.

Pour en savoir plus sur mes opinions, voici un article que j'ai écrit qui a été publié dans Sciences360.

Peter Flom - Réintégrer Monica
la source

4

+1 Bien que je sois certainement d'accord avec vous, je peux imaginer que dire 'ma réclamation est soutenue par MAGIC' ne serait pas toujours utile :-)

Marc Claesen

1

Oui, il faudrait le préciser, mais si vous le faisiez, je pense que cela pourrait fonctionner: "Ce sont de grands effets qui ont quelques exceptions, affectent un grand nombre de personnes, sont intéressants parce que XXXX et crédibles parce qu'ils XXXX" pourrait fonctionner. Je ne l'ai pas vu essayé. :-)

Peter Flom - Réintègre Monica

1

Oui; une affirmation est "crédible" s'il existe une théorie qui dit comment cela pourrait se produire; s'il est répliqué, etc. Il est moins crédible s'il n'y a pas d'explication physique ou autre explication théorique. Moins une allégation est crédible, plus il lui faut de preuves.

Peter Flom - Réintègre Monica

2

@Anh La crédibilité en science doit être mesurée par la façon dont les théories prédisent les phénomènes non utilisés dans le développement de la théorie. Pour évaluer si les prévisions étaient bonnes, la crédibilité doit être reproduite par des chercheurs indépendants. Il existe des tonnes de preuves empiriques que les tests de signification et les tests d'hypothèse semblent tous deux décourager les deux comportements, au lieu d'encourager les activités contre-productives du biais de publication et du «piratage p» d'une «signification» arbitraire.

Flask

1

@Flask - Je dirais que les valeurs de p ne sont pas nécessairement le problème, plus que l'utilisation de tests d'hypothèses faibles sont le problème. La physique utilise également des valeurs de p mais avec des hypothèses qui conduisent à des prédictions ponctuelles (c'est-à-dire une hypothèse nulle réelle). Trouver un "effet positif" est fondamentalement inutile pour la construction de la théorie - vous devez faire une estimation ponctuelle pour confirmer correctement la théorie.

Probabilogic

3

Le domaine de la science statistique a abordé ces questions depuis ses débuts. Je continue de dire que le rôle du statisticien est de s'assurer que le taux d'erreur de type 1 reste fixe. Cela implique que le risque de tirer de fausses conclusions positives ne peut être éliminé, mais peut être contrôlé. Cela devrait attirer notre attention sur le volume extrêmement important de recherches scientifiques en cours plutôt que sur la philosophie et l'éthique de la pratique statistique générale. Pour chaque résultat incroyable (non crédible) qui fait surface dans les médias (ou dans la politique gouvernementale), au moins 19 autres résultats non crédibles ont été abattus pour leurs résultats nuls.

En effet, si vous allez, disons, à clinictrials.gov, vous constaterez qu'il y a (pour presque toutes les indications de maladie) bien plus de 1000 essais cliniques pour des agents pharmaceutiques en cours aux États-Unis en ce moment même. Cela signifie qu'avec un taux d'erreur faux positif de 0,001, en moyenne au moins 1 médicament sera mis sur les étagères sans effet. La validité de 0,05 comme seuil validé pour la signification statistique a été mise à l'épreuve à maintes reprises. Ironiquement, seuls les statisticiens se sentent mal à l'aise avec l'utilisation d'un taux d'erreur faux positif de 1/20 alors que les acteurs financiers (qu'ils soient IP ou Merck) poursuivront leurs croyances avec ténacité indépendamment des résultats in vitro, des preuves théoriques ou de la force des preuves antérieures. Honnêtement, cette ténacité est une qualité personnelle réussie et louable de nombreuses personnes qui réussissent dans des rôles non statistiques. Ils sont généralement assis au-dessus des statisticiens, dans leurs totems respectifs, qui ont tendance à tirer parti de cette ténacité.

Je pense que la citation de Time que vous proposez est complètement fausse. La puissance est la probabilité de rejeter l'hypothèse nulle étant donné qu'elle est fausse. Plus important encore, cela dépend de la façon dont "l'hypothèse nulle" est "fausse" (qui dépend à son tour d'une taille d'effet mesurable). Je parle rarement de puissance hors du contexte de l'effet que nous jugerions "intéressant" à détecter. (par exemple, une survie de 4 mois après un traitement chimiothérapeutique du cancer du pancréas de stade 4 n'est pas intéressante, il n'y a donc aucune raison de recruter 5000 personnes pour un essai de phase 3).

Pour répondre aux questions que vous avez posées

???
La multiplicité est difficile car elle ne conduit pas à une règle de décision évidente sur la façon de gérer les données. Par exemple, supposons que nous soyons intéressés par un simple test de différence moyenne. Malgré les protestations infinies de mes collègues, il est facile de montrer qu'un test t est bien calibré pour détecter les différences de moyenne quelle que soit la distribution d'échantillonnage des données. Supposons que nous poursuivions alternativement leur chemin. Ils commenceraient par tester la normalité en utilisant une variante d'un test de distribution bien connu (par exemple l'étalonnage du qqplot). Si les données semblaient suffisamment anormales, ils demanderaient alors si les données suivent une transformation bien connue, puis appliqueraient une transformation de Box Cox pour déterminer une transformation de puissance (éventuellement logarithmique) qui maximise l'entropie. Si une valeur numérique évidente apparaît, ils utiliseront cette transformation. Sinon, ils utiliseront le test de Wilcoxon «sans distribution». Pour cette séquence d'événements ad hoc, je ne peux pas commencer à espérer comment calculer l'étalonnage et la puissance pour un test simple des différences moyennes alors que le test t simple et stupide aurait suffi. Je soupçonne que des actes stupides comme celui-ci peuvent être liés mathématiquement à l'estimation sur-efficace de Hodge: des estimateurs qui sont de grande puissance sous une hypothèse spécifique que nous voulons être vraie. Néanmoins, ce processus est s estimation sur-efficace: des estimateurs de puissance élevée sous une hypothèse spécifique que nous voulons être vrais. Néanmoins, ce processus est s estimation sur-efficace: des estimateurs de puissance élevée sous une hypothèse spécifique que nous voulons être vrais. Néanmoins, ce processus estnon statistique car le taux d'erreur de faux positifs n'a pas été contrôlé.
Le concept selon lequel les tendances peuvent être «découvertes» par erreur dans tout ensemble aléatoire de données remonte probablement à l'article bien écrit de Martin intitulé «Grille statistique de Munchaesen» . Il s'agit d'une lecture très éclairante qui remonte à 1984 avant que le veau d'or de l'apprentissage automatique nous soit né tel que nous le connaissons actuellement. En effet, une hypothèse correctement formulée est falsifiable, mais les erreurs de type 1 sont devenues beaucoup plus coûteuses dans notre société axée sur les données qu'elles ne l'ont jamais été auparavant. Considérez, par exemple, les preuves falsifiées de la recherche anti-vaccin qui a conduit à une séquence massive de décès par coqueluche. Les résultats qui ont repoussé la défenestration publique des vaccins étaient liés à une seule étude(ce qui, bien que faux, n'a été ni confirmé par des recherches externes). Il existe un élan éthique pour obtenir des résultats et signaler la force de la preuve honnête à la vérité. Quelle est la force des preuves? Cela n'a pas grand-chose à voir avec la valeur de p que vous obtenez, mais la valeur de p que vous avez dit que vous qualifieriez de significative. Et rappelez-vous que le fudging de vos données modifie la valeur de p, même lorsque le test de confirmation final signale quelque chose de différent (souvent beaucoup plus petit).
OUI! Vous pouvez clairement voir dans les méta-analyses publiées par des revues telles que le rapport Cochrane que la distribution des résultats des tests semble plus bimodale que le noraml, avec seulement des résultats positifs et négatifs qui en font des revues. Cette preuve est absolument folle et déroutante pour quiconque en pratique clinique. Si, au lieu de cela, nous publions des résultats nuls (qui proviennent d'études dont nous aurions été intéressés, quels qu'ils soient ), nous pouvons nous attendre à ce que les méta-analyses représentent réellement des preuves significatives et représentatives.

AdamO
la source

1

Dans " Sur la probabilité comme base d'action", William Deming fait une distinction entre les études "énumératives" et "analytiques". Il fait remarquer que les résultats de chaque expérience sont conditionnels à l'environnement exact de l'expérience, donc les statisticiens tentent de contrôler le "taux d'erreur de type I" sera toujours un arrêt d'une quantité inconnue lorsqu'un traitement est appliqué dans différentes conditions .

Flask

@Flask De même, aucune procédure mécanique sur la station spatiale internationale n'est parfaitement calibrée, mais l'attention des ingénieurs aux détails et la minimisation des erreurs nous ont permis de ne pas trouver une bizarrerie spatiale entre nos mains.

AdamO

Les ingénieurs (espérons-le) testent les composants dans toutes les conditions attendues, puis ajoutent une marge d'erreur supplémentaire en fonction des modèles qu'ils génèrent. C'est le type de comportement préconisé par Deming et diffère d'essayer de tirer des conclusions sur les performances futures d'un traitement ou la relation entre les facteurs de l'évaluation de l'erreur d'échantillonnage d'une seule étude. C'est une distinction très intéressante que je n'ai pas vue mentionnée ailleurs.

Flask

Je ne pense pas qu'il soit tout à fait défendable de dire qu'un "processus n'est pas statistique car le taux d'erreur faux positif n'a pas été contrôlé". Les statistiques sont bien plus que le fréquentisme avec ses contrôles de taux d'erreur, et les bits non fréquentistes sont les bits les plus utiles pour la science. Vous aimerez peut-être lire mon article récemment arXived sur le sujet: arxiv.org/abs/1311.0081

Michael Lew

1

@Adamo L'absence de toute quantification des preuves dans l'inférence fréquentiste est en effet une opinion populaire parmi les Bayésiens (et les vraisemblables), mais elle est bien validée et était l'opinion explicitement exprimée par Neyman et Pearson dans le premier article où ils ont conçu les méthodes fréquentistes! Vous devriez peut-être lire mon article avec un esprit ouvert. L'information est là.

Michael Lew

3

Tout d'abord, je ne suis pas un statisticien, juste un chercheur qui s'est penché sur ce sujet ces dernières années pour comprendre pourquoi les méthodes que j'observe utilisées autour de moi font tellement défaut et pourquoi il y a tant de confusion au sujet de concepts de base comme le «quoi est une valeur p? " Je vais vous donner mon point de vue.

Tout d'abord, une question de clarification:

Le magazine Time a écrit:
"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the
Les données;"

Je ne sais pas comment cela s'inscrit dans la définition de la fonction de puissance que j'ai trouvée dans le manuel, qui est la probabilité de rejeter le nul en fonction du paramètre θ. Avec différents θ, nous avons un pouvoir différent, donc je ne comprends pas très bien la citation ci-dessus.

La puissance est fonction de θ, de la variance et de la taille de l'échantillon. Je ne sais pas quelle est la confusion. De plus, dans de nombreux cas où le test de signification est utilisé, l'hypothèse nulle de moyenne1 = moyenne2 est toujours fausse. Dans ces cas, la signification n'est fonction que de la taille de l'échantillon. S'il vous plaît, lisez "Les tests théoriques en psychologie et physique: un paradoxe méthodologique" de Paul Meehl, cela a clarifié beaucoup de choses pour moi et je n'ai jamais vu de réponse adéquate. Paul Meehl a quelques autres articles à ce sujet que vous pouvez trouver en recherchant son nom.

Dans mon domaine de science politique / économie, les universitaires utilisent simplement toutes les données pays-année disponibles. Ne devrions-nous donc pas nous préoccuper ici de jouer des échantillons?

Si vous lisez l'article de Simmons 2011, ce n'est qu'une des techniques de "p-hacking" mentionnées. S'il est vrai qu'il n'y a qu'un seul ensemble de données et que personne n'en extrait d'échantillons sélectifs, je suppose qu'il n'y a pas de place pour augmenter la taille de l'échantillon.

Le problème de l'exécution de plusieurs tests mais de la communication d'un seul modèle peut-il être résolu simplement par le fait que quelqu'un d'autre dans la discipline réexaminera votre document et vous frappera immédiatement pour ne pas avoir de résultats solides? Anticipant cela, les chercheurs dans mon domaine sont plus susceptibles d'inclure une section de vérification de la robustesse, où ils montrent que plusieurs spécifications de modèle ne changent pas le résultat. Est-ce suffisant?

Si la réplication se produisait sans biais de publication, il n'y aurait pas besoin de "revues du résultat nul". Je dirais que la section de vérification de la robustesse est bonne, mais n'est pas suffisante en présence de chercheurs qui ne publient pas ce qu'ils considèrent comme des résultats nuls. Je ne considérerais pas non plus un résultat robuste simplement parce que plusieurs techniques d'analyse sur les mêmes données aboutissent à la même conclusion. Un résultat robuste est celui qui fait une prédiction correcte de l'effet / corrélation / etc. sur les nouvelles données .

Une réplication n'obtient pas p <0,05 les deux fois. La théorie devrait être considérée comme plus robuste si elle prédit un effet / corrélation / etc. différent de celui utilisé dans la première étude. Je ne parle pas de la présence d'un effet ou d'une corrélation, mais de la valeur précise ou d'une petite plage de valeurs par rapport à une plage de valeurs possible. La présence d'un effet accru / diminué ou d'une corrélation positive / négative est 100% susceptible d'être vraie dans le cas où l'hypothèse nulle est fausse. Lisez Meehl.

Andrew Gelman et d'autres soulèvent le point que quelles que soient les données, il serait toujours possible de trouver et de publier un "modèle" qui n'est pas vraiment là. Mais cela ne devrait pas être une préoccupation, étant donné que tout "modèle" empirique doit être soutenu par une théorie, et les théories rivales au sein d'une discipline se livreront simplement à un débat / course pour trouver quel camp est capable de trouver plus de "modèles". dans divers endroits. Si un motif est vraiment faux, alors la théorie derrière sera rapidement annulée lorsqu'il n'y a pas de motif similaire dans d'autres échantillons / paramètres. N'est-ce pas ainsi que la science progresse?

La science ne peut pas fonctionner correctement si les chercheurs ne publient pas de résultats nuls. Le fait que le motif n'ait pas été découvert dans le deuxième échantillon / paramètre ne signifie pas non plus qu'il n'existe pas dans les conditions de l'étude initiale.

En supposant que la tendance actuelle des revues pour un résultat nul se développera réellement, existe-t-il un moyen pour nous d'agréger tous les résultats nuls et positifs ensemble et de faire une inférence sur la théorie qu'ils essaient tous de tester?

Ce serait une méta-analyse . Il n'y a rien de spécial dans les résultats nuls dans ce cas, si ce n'est que les chercheurs ne les publient pas parce que les valeurs de p étaient supérieures au seuil arbitraire. En présence de biais de publication, la méta-analyse n'est pas fiable, de même que l'ensemble de la littérature souffre de biais de publication. Bien qu'elle puisse être utile, la méta-analyse est bien inférieure pour évaluer une théorie que de demander à cette théorie de faire une prédiction précise qui est ensuite testée. Le biais de publication n'a pas autant d'importance tant que de nouvelles prédictions se concrétisent et sont reproduites par des groupes indépendants.

Ballon
la source

Ma confusion à propos de la citation temporelle est que la fonction de puissance ne doit pas être limitée au moment où la valeur null est vraie, comme l'indique la citation. Le domaine de la fonction de puissance est tout l'espace des paramètres si je ne me trompe pas. Et donc, il n'y a pas de "puissance 0.8" particulière que l'on puisse attribuer à un test.

Heisenberg

Je suis entièrement d'accord avec vous sur le point qu'une théorie doit être testée sur de nouvelles données. Mais dans le cas de la science politique ou de la macroéconomie, où nous n'avons que tant de pays et tant d'années, l'effort est-il alors nécessairement contrecarré?

Heisenberg

@Anh chaque seconde, il y a de nouvelles données à ajouter. La théorie devrait prédire l'avenir. En astronomie, il y avait la prédiction des positions des comètes par exemple. Vous calculez également la puissance d'une valeur de paramètre attendue. Donc, dans le cas de la citation, ils feraient référence à la puissance de tester une théorie qui prédit une corrélation d'au moins r = 0,5.

Flask

Clarifier r = 0,5 serait un exemple de corrélation prédite par une théorie.

Flask

2

Je dirais simplement que le test d'hypothèse nulle ne concerne vraiment que l'hypothèse nulle. Et généralement, l'hypothèse nulle n'est généralement pas ce qui est intéressant, et peut même ne pas être «le statu quo» - en particulier dans les tests d'hypothèse de type régression. Souvent en sciences sociales, il n'y a pas de statu quo, donc l'hypothèse nulle peut être tout à fait arbitraire. Cela fait une énorme différence dans l'analyse, car le point de départ n'est pas défini, de sorte que différentes recherches commencent avec différentes hypothèses nulles, probablement en fonction des données dont elles disposent. Comparez cela à quelque chose comme les lois du mouvement de Newton - il est logique d'avoir ceci comme hypothèse nulle, et essayez de trouver de meilleures théories à partir de ce point de départ.

De plus, les valeurs de p ne calculent pas la probabilité correcte - nous ne voulons pas connaître les probabilités de queue, sauf si l'hypothèse alternative est plus probable lorsque vous vous déplacez plus loin dans les queues. Ce que vous voulez vraiment, c'est à quel point la théorie prédit ce qui a été réellement vu. Par exemple, supposons que je prédise qu'il y a 50% de chances de "douche légère", et mon concurrent prédit qu'il y a 75% de chances. Cela s'avère correct et nous observons une légère averse. Maintenant, lorsque vous décidez quelle personne météo est correcte, vous ne devriez pas donner à ma prédiction un crédit supplémentaire pour avoir également donné 40% de chances d'un "orage", ni retirer un crédit à mon concurrent pour avoir donné à "l'orage" une chance de 0%.

$I$ $D$ $H$

B F = \frac{P (D | H I)}{P (D | \bar{H} I)}

$BF=\frac{P(D|HI)}{P(D|\overline{H}I)}$

$H$ $BF=\infty$ $H$ $0.001$

$104,490,000$ $52,263,471$ $y\sim Bin(n,0.5)$ $y|\theta\sim Bin(n,\theta)$ $\theta\sim U(0,1)$ $y\sim BetaBin(n,1,1)\sim DU(0,\dots,n)$ $p=0.00015$

B F = \frac{(\binom{n}{y}) 2^{- n}}{\frac{1}{n + 1}} = \frac{(n + 1)!}{2^{n} y! (n - y)!} = 11.90

$BF=\frac{{n\choose y}2^{-n}}{\frac{1}{n+1}}=\frac{(n+1)!}{2^ny!(n-y)!}=11.90$

$\frac{1}{n+1}=0.0000000096$ $0.00000011$

Cela est particulièrement vrai pour l'exemple critiqué par Gelman - il n'y a jamais eu vraiment qu'une seule hypothèse testée, et peu de réflexion a été faite sur a) quelles sont les explications alternatives (en particulier sur la confusion et les effets non contrôlés), b) combien sont les alternatives soutenues par des recherches antérieures, et surtout, c) quelles prévisions font-elles (le cas échéant) qui sont substantiellement différentes de la valeur nulle?

$\overline{H}$ $H_1,\dots,H_K$ $H_k$ $0.01$ $0.1$

$K$

H_{K + 1} = Something else not yet thought of

$H_{K+1}=\text{Something else not yet thought of}$

H_{K + 1}

$H_{K+1}$

H_{1}, \dots, H_{K}

$H_1,\dots,H_K$

H_{0}

$H_0$

H_{A}

$H_A$

H_{1}, \dots, H_{K}

$H_1,\dots,H_K$

probabilitéislogique
la source

Implications du débat actuel sur la signification statistique

Réponses: