Je suis relativement nouveau dans les statistiques bayésiennes et j'ai récemment utilisé JAGS pour construire des modèles hiérarchiques bayésiens sur différents ensembles de données. Bien que je sois très satisfait des résultats (par rapport aux modèles GLM standard), je dois expliquer aux non-statisticiens quelle est la différence avec les modèles statistiques standard. En particulier, je voudrais illustrer pourquoi et quand les HBM fonctionnent mieux que les modèles plus simples.
Une analogie serait utile, en particulier celle qui illustre certains éléments clés:
- les multiples niveaux d'hétérogénéité
- la nécessité de plus de calculs pour s'adapter au modèle
- la possibilité d'extraire plus de "signal" à partir des mêmes données
Notez que la réponse devrait vraiment être une analogie éclairant les personnes non-statistiques, pas un exemple facile et agréable à suivre.
bayesian
hierarchical-bayesian
nassimhddd
la source
la source
Réponses:
Je voudrais illustrer un exemple de modélisation concernant le taux de cancer (comme dans Johnson et Albert 1999). Il touchera le premier et le troisième élément de votre intérêt.Nje Xje θje
Nje . θje
θje θje Xje∼ B i n ( Nje, θje)
Une distribution conjointe complète serait alors p ( D , θ , η | N ) = p ( η ) ∏ N i = 1 B i n ( x i | N i , θ i ) B e t a ( θ i | η ) où η = ( a , b ) . Nous devons inférer ηθje∼ B e t a ( a , b )
p ( D , θ , η| N) = p ( η) ∏Ni = 1B i n ( xje| Nje, θje) B e t a ( θje| η) η= ( a , b ) η à partir des données. S'il est fixé à une constante, les informations ne circuleront pas entre et elles seront conditionnellement indépendantes. Mais en traitant η comme des inconnues, nous permettons aux villes disposant de moins de données d'emprunter une force statistique aux villes disposant de plus de données.
L'idée principale est de plus bayésien et de placer les a priori sur les a priori comme pour modéliser l'incertitude dans les hyperparamètres. Cela permet un flux d'influence entre θ i dans cet exemple.θje η
θje
Le problème consiste donc à prévoir les taux de cancer dans diverses villes. Disons que nous avons des données sur le nombre de personnes dans différentes villes et le nombre de personnes décédées d'un cancer x i . Disons que nous voulons estimer les taux de cancer θ i . Il existe différentes façons de les modéliser et comme nous voyons des problèmes avec chacun d'eux. Nous verrons comment la modélisation bayésienne héréditaire peut surmonter certains problèmes. 1. Une façon consiste à faire des estimations séparément, mais nous souffrirons d'un problème de données rares et nous sous-estimerions les taux comme pour les faibles N i
2. Une autre approche pour gérer le problème des données rares serait d'utiliser le même pour toutes les villes et de lier les paramètres, mais c'est également une hypothèse très forte. 3. Donc, ce qui pourrait être fait, c'est que tous les θ i sont similaires d'une certaine manière, mais aussi avec des variations spécifiques à la ville. On pourrait donc modéliser de telle sorte que tous les θ i soient tirés d'une distribution commune. Dites x i ∼ B i n ( N i , θ i ) et θ i ∼ B e t a ( a ,
la source
Lorsque vous êtes malade, vous observez des symptômes mais ce que vous voulez, c'est un diagnostic. Si vous n'êtes pas médecin, je suppose que vous pouvez simplement trouver le diagnostic qui correspond le mieux à vos symptômes. Mais ce que Ph HBM ferait, c'est d'examiner vos symptômes, leur signification relative, la façon dont ils correspondent / relient vos différents problèmes de santé antérieurs, celui de votre famille, les maladies courantes et les conditions environnementales actuelles, votre faiblesse, votre force ... puis il combinera ces éléments en utilisant ses connaissances pour mettre à jour ce qu'il pense de votre état de santé et vous donnera le diagnostic le plus probable.
Je suis sûr que cette analogie atteint sa limite très bientôt, mais je pense qu'elle peut donner une bonne intuition de ce que l'on attendrait d'un HBM, n'est-ce pas? (et je n'en ai pas trouvé de meilleur)
la source