Pourquoi les méthodes bayésiennes ne nécessitent-elles pas plusieurs corrections de test?

22

Andrew Gelman a écrit un article détaillé sur les raisons pour lesquelles les tests bayésiens AB ne nécessitent pas de correction d'hypothèses multiples: pourquoi nous n'avons (habituellement) pas à nous inquiéter des comparaisons multiples , 2012.

Je ne comprends pas très bien: pourquoi les méthodes bayésiennes ne nécessitent-elles pas plusieurs corrections de tests?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

Ma compréhension est que l'approche bayésienne présentée ci-dessus rend compte de la distribution sous-jacente partagée par toutes les hypothèses (contrairement à une correction fréquentiste de Bonferroni). Mon raisonnement est-il correct?

amibe dit réintégrer Monica
la source
Je suivrais l'exemple d'Andrew Gelman: Pourquoi nous (habituellement) n'avons pas à nous inquiéter des comparaisons multiples , 2012. Voir aussi sur son blog .
Patrick McCann
5
Bien que les liens de Patrick soient très utiles, il serait formidable de voir une réponse plus autonome orientée vers le «réviseur scientifique moyennement alphabétisé».
conjectures

Réponses:

14

Une façon étrange de répondre à la question est de noter que la méthode bayésienne ne fournit aucun moyen de le faire, car les méthodes bayésiennes sont conformes aux règles de preuve acceptées et les méthodes fréquentistes sont souvent en désaccord avec elles. Exemples:

  • Avec les statistiques fréquentistes, la comparaison du traitement A à B doit pénaliser la comparaison des traitements C et D en raison de considérations d'erreur de type I au niveau familial; avec le bayésien, la comparaison AB est indépendante.
  • Pour les tests fréquentiels séquentiels, des pénalités sont généralement requises pour plusieurs analyses des données. Dans un cadre séquentiel de groupe, une comparaison précoce pour A vs B doit être pénalisée pour une comparaison ultérieure qui n'a pas encore été faite, et une comparaison ultérieure doit être pénalisée pour une comparaison antérieure même si la comparaison antérieure n'a pas modifié le cours de la étude.

Le problème provient du renversement par le fréquentiste du flux de temps et d'informations, obligeant les fréquentateurs à considérer ce qui aurait pu se produire au lieu de ce qui s'est produit . En revanche, les évaluations bayésiennes ancrent toute évaluation à la distribution précédente, qui étalonne les preuves. Par exemple, la distribution antérieure de la différence AB étalonne toutes les évaluations futures de l'AB et n'a pas à prendre en compte la CD.

Avec les tests séquentiels, il existe une grande confusion sur la façon d'ajuster les estimations ponctuelles lorsqu'une expérience se termine tôt en utilisant l'inférence fréquentiste. Dans le monde bayésien, le précédent "recule" sur toutes les estimations ponctuelles, et la distribution postérieure mise à jour s'applique à l'inférence à tout moment et ne nécessite aucune considération complexe d'espace d'échantillonnage.

Frank Harrell
la source
4
Je ne comprends pas vraiment cet argument. Si nous effectuons 1000 comparaisons différentes avec une approche fréquentiste habituelle, nous devrions bien sûr nous attendre à environ 50 significatifs avec des effets p <0,05 même sous le zéro. D'où les corrections. Si nous utilisons à la place des estimations / tests bayésiens, ayant des antécédents (environ 0?) Pour toutes les comparaisons, alors oui, les a priori réduiront les postérieurs vers zéro, mais nous aurions toujours des facteurs postérieurs et / ou Bayes variant de manière aléatoire et en aurons probablement certains des cas sur 1000 qui ressembleront à des effets "substantiels", même lorsque les vrais effets sont tous nuls.
amibe dit Réintégrer Monica
1
@amoeba - une façon de le considérer est que le bayésien prend en compte toutes les alternatives - pas seulement "null" vs "une alternative". Compte tenu de tous les moyens alternatifs, chacun a généralement une probabilité antérieure plus faible, ce qui pénalise efficacement l'inférence. Vous devez considérer toutes les combinaisons vrai / faux (en supposant que vous n'avez aucune connaissance préalable des combinaisons qui sont impossibles). Vous craignez que quelque chose ne tourne mal dans * un seul cas *. Et les cas? 2 1000 - 12100021000-1
probabilités
1
Désolé, @probabilityislogic, je ne suis pas sûr d'avoir compris votre point. Assez juste sur "toutes les alternatives", mais que se passe-t-il dans la pratique? Comme je l'ai dit, nous estimons 1000 différences de groupe (par exemple); nous avons un prior sur la différence de groupe; nous obtenons 1000 postérieurs, 95% d'intervalles crédibles, ou autre. Ensuite, nous examinerions chaque intervalle crédible pour vérifier s'il est suffisamment éloigné de zéro pour avoir un effet "significatif / substantiel". Si nous le faisons 1000 fois, nous aurons probablement des «faux positifs» dans le sens où certains effets sembleront importants même si tous les 1000 effets sont en fait égaux à zéro. Non?
amibe dit Réintégrer Monica
1
1000
1
@probabilityislogic: Eh bien, je suis absolument en faveur des modèles à plusieurs niveaux, même si je ne les vois pas nécessairement comme un outil bayésien - les modèles mixtes et les ANOVA avec des effets aléatoires sont couramment utilisés aux côtés des tests t et autres ...
amibe dit Réintégrer Monica
6

Ce type de modèle hiérarchique réduit les estimations et réduit le nombre de fausses allégations dans une mesure raisonnable pour un nombre d'hypothèses petit à modéré. Garantit-il un taux d'erreur spécifique de type I? Non.

Cette suggestion particulière de Gelman (qui reconnaît le problème de regarder trop de choses différentes et de conclure trop facilement à tort que vous voyez quelque chose pour certains d'entre eux - en fait l'un de ses sujets de prédilection sur son blog) est distincte d'une alternative extrême. point de vue selon lequel les méthodes bayésiennes n'ont pas besoin de tenir compte de la multiplicité, car tout ce qui compte, c'est votre probabilité (et votre priorité).

Björn
la source
1
(+1) À ma connaissance, dans quelques cas (par exemple, sans dimension avec un précédent correspondant), l'inférence bayésienne n'offre aucun contrôle sur le taux d'erreur de type 1. Ainsi, la correction de tests multiples dans le cadre bayésien ne peut pas être considérée par l'IHMO comme une correction pour l'erreur de type 1.
peuhp
6

Question très intéressante, voici mon point de vue.

Il s'agit de coder les informations, puis tournez la manivelle bayésienne. Cela semble trop beau pour être vrai - mais les deux sont plus difficiles qu'ils ne le semblent.

Je commence par poser la question

Quelles informations sont utilisées lorsque nous nous inquiétons des comparaisons multiples?

Je peux penser à certains - le premier est le «dragage de données» - tester «tout» jusqu'à ce que vous obteniez suffisamment de succès / échecs (je pense que presque toutes les personnes formées aux statistiques seraient exposées à ce problème). Vous avez également moins sinistre, mais essentiellement le même "J'ai tellement de tests à exécuter - sûrement tous ne peuvent pas être corrects".

Après réflexion, une chose que je remarque est que vous n'avez pas tendance à entendre beaucoup d'hypothèses spécifiques ou de comparaisons spécifiques. Tout tourne autour de la «collection» - cela déclenche ma réflexion vers l'échangeabilité - les hypothèses comparées sont «similaires» les unes aux autres d'une certaine manière. Et comment encodez-vous l'échangeabilité en analyse bayésienne? - hyper-priors, modèles mixtes, effets aléatoires, etc !!!

Mais l'interchangeabilité ne vous y apporte qu'une partie du chemin. Tout est-il échangeable? Ou avez-vous une «rareté» - comme seulement quelques coefficients de régression non nuls avec un large bassin de candidats. Les modèles mixtes et les effets aléatoires normalement distribués ne fonctionnent pas ici. Ils restent "coincés" entre le bruit d'écrasement et les signaux intacts (par exemple, dans votre exemple, gardez les paramètres "true" de locationB et locationC égaux, et définissez arbitrairement grand ou petit paramètre locationA "true" et regardez le modèle mixte linéaire standard échouer.) . Mais il peut être corrigé - par exemple avec des prieurs "à pointe et dalle" ou des prieurs "fer à cheval".

Il s'agit donc davantage de décrire le type d'hypothèse dont vous parlez et d'obtenir autant de caractéristiques connues reflétées dans le précédent et la probabilité. L'approche d'Andrew Gelman n'est qu'un moyen de gérer implicitement une large classe de comparaisons multiples. Tout comme les moindres carrés et les distributions normales ont tendance à bien fonctionner dans la plupart des cas (mais pas tous).

En ce qui concerne la façon dont cela fonctionne, vous pourriez penser à une personne raisonnant comme suit - le groupe A et le groupe B pourraient avoir la même moyenne - J'ai regardé les données, et les moyens sont "proches" - Par conséquent, pour obtenir une meilleure estimation pour les deux, je devrais regrouper les données, car ma pensée initiale était qu'elles ont la même moyenne. - S'ils ne sont pas les mêmes, les données prouvent qu'ils sont "proches", donc la mise en commun "un peu" ne me fera pas trop mal si mon hypothèse était fausse (tous les modèles sont faux, certains sont utiles)

Notez que tout ce qui précède repose sur la prémisse initiale "ils pourraient être les mêmes". Otez cela, et il n'y a aucune justification pour la mise en commun. Vous pouvez probablement aussi voir une façon de penser "distribution normale" des tests. «Zéro est le plus probable», «sinon zéro, alors près de zéro est le plus probable», «les valeurs extrêmes sont peu probables». Considérez cette alternative:

  • les moyennes des groupes A et B peuvent être égales, mais elles peuvent aussi être radicalement différentes

Ensuite, l'argument concernant la mise en commun "un peu" est une très mauvaise idée. Il vaut mieux choisir la mise en commun totale ou la mise en commun zéro. Beaucoup plus comme un Cauchy, un pic et une dalle, type de situation (beaucoup de masse autour de zéro et beaucoup de masse pour les valeurs extrêmes)

Il n'est pas nécessaire de traiter l'ensemble des comparaisons multiples, car l'approche bayésienne incorpore les informations qui nous amènent à nous inquiéter dans le précédent et / ou la vraisemblance . Dans un sens, il s'agit plutôt d'un rappel de bien réfléchir aux informations dont vous disposez et de vous assurer que vous les avez incluses dans votre analyse.

probabilitéislogique
la source
2
l1exp(-|X|)
@StasK - l1 fonctionnerait mieux, mais comme il est log-concave, il aurait du mal avec des non-zéros épars. Ceux que j'ai mentionnés sont tous log-convexes. Une variante proche de l1 est la double pareto généralisée - obtenir en prenant un mélange de paramètres d'échelle de laplace (similaire au lasso adaptatif en langage ML)
probabilités
5

Tout d'abord, si je comprends bien le modèle que vous avez présenté, je pense qu'il est un peu différent de la proposition Gelman, qui ressemble davantage à:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

En pratique, en ajoutant ce commonLocationparamètre, les inférences sur les paramètres des 3 distributions (ici les emplacements 1, 2 et 3) ne sont plus indépendantes les unes des autres. De plus, commonLocationtend à réduire les valeurs attendues des paramètres vers un paramètre central (généralement estimé). Dans un certain sens, cela fonctionne comme une régularisation de toutes les inférences, ce qui rend inutile le besoin de correction pour plusieurs corrections (comme dans la pratique, nous effectuons une seule estimation multivariée tenant compte de l'interaction entre chacun d'eux grâce à l'utilisation du modèle).

Comme l'a souligné l'autre réponse, cette correction n'offre aucun contrôle sur l'erreur de type I mais dans la plupart des cas, la méthode bayésienne n'offre aucun contrôle de ce type même à l'échelle d'inférence unique et la correction pour la comparaison multiple doit être pensée différemment dans le bayésien réglage.

peuhp
la source