Les rapports de vraisemblance et la comparaison des modèles bayésiens offrent-ils des alternatives supérieures et suffisantes aux tests d'hypothèse nulle?

En réponse à un nombre croissant de statisticiens et de chercheurs qui critiquent l'utilité des tests d'hypothèse nulle (NHT) pour la science comme un effort cumulatif, le groupe de travail sur l'inférence statistique de l'American Psychological Association a évité une interdiction pure et simple du NHT, mais a plutôt suggéré que les chercheurs rapportent les tailles d'effet en plus des valeurs de p dérivées du NHT.

Cependant, les tailles d'effet ne sont pas facilement cumulables entre les études. Les approches méta-analytiques peuvent accumuler des distributions de tailles d'effet, mais les tailles d'effet sont généralement calculées comme un rapport entre l'amplitude de l'effet brut et le "bruit" inexpliqué dans les données d'une expérience donnée, ce qui signifie que la distribution des tailles d'effet n'est pas affectée seulement par le variabilité de l'ampleur brute de l'effet d'une étude à l'autre, mais aussi variabilité de la manifestation du bruit d'une étude à l'autre.

En revanche, une autre mesure de la force de l'effet, les rapports de vraisemblance, permet à la fois une interprétation intuitive étude par étude et peut être facilement agrégée entre les études pour une méta-analyse. Dans chaque étude, la probabilité représente le poids de la preuve pour un modèle contenant un effet donné par rapport à un modèle qui ne contient pas l'effet, et pourrait généralement être rapporté comme, par exemple, «Calcul d'un rapport de vraisemblance pour l'effet de X a révélé 8 fois plus de preuves de l'effet que de sa valeur nulle respective ". De plus, le rapport de vraisemblance permet également une représentation intuitive de la force des résultats nuls dans la mesure où les rapports de vraisemblance inférieurs à 1 représentent des scénarios où le nul est favorisé et en prenant l'inverse de cette valeur représente le poids de la preuve du nul par rapport à l'effet. Notamment, le rapport de vraisemblance est représenté mathématiquement comme le rapport des variances inexpliquées des deux modèles, qui ne diffèrent que par la variance expliquée par l'effet et ne constituent donc pas un écart conceptuel énorme par rapport à la taille de l'effet. D'un autre côté, le calcul d'un rapport de vraisemblance méta-analytique, représentant le poids de la preuve d'un effet entre les études, consiste simplement à prendre le produit des rapports de vraisemblance entre les études.

Ainsi, je soutiens que pour la science qui cherche à établir le degré de preuve brute en faveur d'un effet / modèle, les rapports de vraisemblance sont la voie à suivre.

Il existe des cas plus nuancés où les modèles ne peuvent être différenciés que par la taille spécifique d'un effet, auquel cas une sorte de représentation de l'intervalle sur lequel nous pensons que les données sont cohérentes avec les valeurs des paramètres de l'effet pourrait être préférée. En effet, le groupe de travail de l'APA recommande également de rendre compte des intervalles de confiance, qui peuvent être utilisés à cette fin, mais je soupçonne qu'il s'agit également d'une approche irréfléchie.

Les intervalles de confiance sont lamentablement souvent mal interprétés ( par les étudiants et les chercheurs ). Je crains également que leur capacité d'utilisation dans le NHT (en évaluant l'inclusion de zéro dans l'IC) ne servira qu'à retarder encore plus l'extinction du NHT en tant que pratique inférentielle.

Au lieu de cela, lorsque les théories ne sont différenciables que par la taille des effets, je suggère que l'approche bayésienne serait plus appropriée, où la distribution antérieure de chaque effet est définie séparément par chaque modèle, et les distributions postérieures résultantes sont comparées.

Cette approche, remplaçant les valeurs de p, les tailles d'effet et les intervalles de confiance par des rapports de vraisemblance et, si nécessaire, une comparaison du modèle bayésien, semble-t-elle suffisante? Manque-t-il une caractéristique inférentielle nécessaire que les alternatives ici dénigrées fournissent?

bayesian confidence-interval effect-size inference Mike Lawrence
la source

Pourrait être une question plus ciblée? Peut-être une approche axée sur la vraisemblance d'un problème d'inférence spécifique?

conjugateprior

Mais pendant que nous sommes ici: À propos: avez-vous mélangé des mesures de la taille de l'effet, généralement identifiées avec un paramètre, pour des mesures de preuves comparatives pour un modèle complet? Les LR ne ressemblent qu'à des candidats pour ces derniers. De plus, si vous voulez que les fonctions de vraisemblance, seules ou en combinaison, vous disent tout ce que les données essaient de vous dire sur un modèle, vous êtes essentiellement bayésien. Parce que c'est le principe de vraisemblance. (Allez, l'eau est belle :-)

conjugateprior

Votre titre et votre paragraphe de conclusion semblent ne pas être d'accord sur la question de savoir si vous proposez d'utiliser des intervalles de confiance ou de les remplacer.

2011

@onestop: en effet, je viens de réaliser que j'ai oublié de changer le titre; J'ai changé d'avis concernant les intervalles de confiance lors de la rédaction de la question. J'ai édité le titre maintenant. Toutes mes excuses pour la confusion.

Mike Lawrence

@Conjugate Prior: Entièrement d'accord avec vos deux premières phrases. Mais vous pouvez accepter le principe de vraisemblance sans être bayésien si vous n'aimez pas l'idée des a priori et baser l'inférence uniquement sur les probabilités - voir les livres de Edwards books.google.com/books?id=2a_XZ-gvct4C et Royall books.google .com / books? id = oysWLTFaI_gC . Bien que quelqu'un (et j'aimerais me souvenir de qui et où) a un jour comparé cela à casser des œufs mais ne pas manger l'omelette.

2011

Les principaux avantages d'une approche bayésienne, du moins pour moi en tant que chercheur en psychologie sont:

1) vous permet d'accumuler des preuves en faveur du nul

2) contourne les problèmes théoriques et pratiques des tests séquentiels

3) n'est pas vulnérable à rejeter un null juste à cause d'un énorme N (voir point précédent)

4) est mieux adapté lorsque vous travaillez avec de petits effets (avec de grands effets, les méthodes fréquenciste et bayésienne ont tendance à être d'accord à peu près tout le temps)

5) permet de faire une modélisation hiérarchique d'une manière réalisable. Par exemple, l'introduction d'effets d'effets et de participants dans certaines classes de modèles comme les modèles d'arbres de traitement multinomiaux devrait être effectuée dans un cadre bayésien, sinon le temps de calcul serait incroyablement long.

6) vous donne de "vrais" intervalles de confiance

7) Vous avez besoin de 3 choses: la vraisemblance, les antérieurs et la probabilité des données. le premier que vous obtenez de vos données, le second que vous inventez et le troisième dont vous n'avez pas besoin du tout étant donné la proportionnalité. Ok, j'exagère peut-être un peu ;-)

Dans l'ensemble, on peut inverser votre question: cela signifie-t-il que les statistiques fréquentistes classiques ne sont pas suffisantes? Je pense que dire «non» est un verdict trop sévère. La plupart des problèmes peuvent être quelque peu évités si l'on va au-delà des valeurs de p et en examinant des choses comme la taille des effets, la possibilité d'effets d'items et la répétition cohérente des résultats (trop de documents d'une expérience sont publiés!).

Mais tout n'est pas aussi simple avec Bayes. Prenez par exemple la sélection de modèles avec des modèles non imbriqués. Dans ces cas, les priors sont extrêmement importants car ils affectent grandement les résultats, et parfois vous n'avez pas beaucoup de connaissances sur la plupart des modèles avec lesquels vous voulez travailler afin de bien faire vos priors. En outre, cela prend vraiment beaucoup de temps ...

Je laisse deux références à tous ceux qui pourraient être intéressés à plonger dans les Bayes.

"Un cours de modélisation graphique bayésienne pour les sciences cognitives" par Lee et Wagenmakers

"Modélisation bayésienne à l'aide de WinBUGS" par Ntzoufras

Dave Kellen
la source

Les rapports de vraisemblance et la comparaison des modèles bayésiens offrent-ils des alternatives supérieures et suffisantes aux tests d'hypothèse nulle?

Réponses: