Sélection du modèle bayésien et intervalle crédible

9

J'ai un ensemble de données avec trois variables, où toutes les variables sont quantitatives. Appelons-le , et . Je monte un modèle de régression dans une perspective bayésienne via MCMC avecyX1X2rjags

J'ai fait une analyse exploratoire et le nuage de points de suggère d'utiliser un terme quadratique. J'ai ensuite monté deux modèlesy×X2

(1)y=β0+β1X1+β2X2

(2) y=β0+β1X1+β2X2+β3X1X2+β4X12+β5X22

Dans le modèle 1, la taille de l'effet de chaque paramètre n'est pas petite et l'intervalle crédible à 95% ne contient pas la valeur 0.

Dans le modèle 2, la taille de l'effet des paramètres β3 et β4 sont petits et chacun des intervalles crédibles pour tous les paramètres contient 0.

Le fait qu'un intervalle crédible contient 0 suffit de dire que le paramètre n'est pas significatif?

J'ai ensuite ajusté le modèle suivant

(3)y=β0+β1X1+β2X2+β3X22

La taille de l'effet de chaque paramètre n'est pas petite, mais à l'exception de β1 tous les intervalles crédibles contiennent 0.

Quelle est la bonne façon de faire une sélection de variables dans les statistiques bayésiennes?

EDIT: Je peux utiliser Lasso dans n'importe quel modèle de régression, comme le modèle Beta? J'utilise un modèle à dispersion variable où

log(σ)=-δδX
δδest un vecteur. Je devrais utiliser Laplace avantδδ aussi?

EDIT2: j'ai monté deux modèles, dont un à priori gaussienβj, δj et une avec Laplace (double exponentielle).

Les estimations pour le modèle gaussien sont

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

Les estimations pour le modèle Lasso sont

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

Les estimations pour δ2 et δ4 beaucoup réduit dans le modèle Lasso, cela signifie que je devrais supprimer ces variables du modèle?

EDIT3: Le modèle à double exponentielle a priori (Lasso) me donne des valeurs de déviance, BIC et DIC plus grandes que le modèle avec des a priori gaussiens et j'obtiens même des valeurs plus petites après avoir supprimé le coefficient de dispersionδ2 dans le modèle gaussien.


la source
2
La section 18.4 de DBDA2E * concerne la sélection des variables dans la régression multiple. Avec une grande prudence, vous pouvez mettre des indicateurs d'inclusion avec chaque coefficient et regarder la probabilité postérieure d'inclusion. Lors de l'interprétation des distributions postérieures des paramètres, l'IDH à 95%, y compris zéro, n'indique pas une équivalence à zéro. * DBDA2E = Doing Bayesian Data Analysis 2nd Edition.
John K. Kruschke
2
La façon naturelle de comparer les modèles dans un cadre bayésien consiste à utiliser des probabilités marginales et non des intervalles crédibles. Une alternative liée à la moyenne du modèle consiste à utiliser une représentation de mélange et à déduire des poids de chaque modèle / composant quel modèle est préféré par les données.
Xi'an
@ Xi'an, mais comparer deux ou plusieurs modèles par des probabilités marginales ne serait pas la même chose que d'utiliser des facteurs de Bayes, si tous les modèles avaient la même probabilité antérieure?
DeltaIV
Cher professeur Kruschke, j'ai un doute concernant le calcul des intervalles crédibles. Ce que j'ai compris, il peut y avoir de nombreux intervalles crédibles selon la plausibilité du postérieur en fonction des différents prieurs. Mais ici, comment décider quels prieurs sont les plus plausibles, ce qui donne à son tour les postérieurs les plus plausibles? Une autre question est, j'utilise l'inférence variationnelle (VI) pour calculer les postérieurs et finalement calculer la limite inférieure des preuves du modèle. Comment calculer l'intervalle crédible pour les postérieurs en cas de VI? De plus comment procéder pour le facteur Bayes en cas de VI?
Sandipan Karmakar

Réponses:

9

Il est bien connu que la construction d'un modèle basé sur ce qui est significatif (ou un autre critère tel que l'AIC, si un intervalle crédible contient 0, etc.) est assez problématique, en particulier si vous faites ensuite l'inférence comme si vous n'aviez pas fait de construction de modèle. Faire une analyse bayésienne ne change rien à cela (voir aussi https://stats.stackexchange.com/a/201931/86652 ). C'est-à-dire que vous ne devriez pas faire de sélection de variables, mais plutôt faire la moyenne des modèles (ou quelque chose qui pourrait vous donner des coefficients nuls, mais qui reflète tout le processus de modélisation, comme LASSO ou filet élastique).

Le choix du modèle bayésien est plus généralement défini comme une moyenne du modèle bayésien. Vous avez différents modèles, chacun avec une probabilité antérieure différente. Si la probabilité du modèle postérieur pour un modèle devient suffisamment faible, vous rejetez essentiellement le modèle. Pour des poids antérieurs égaux pour chaque modèle et des a priori plats, la moyenne du modèle avec des poids proportionnels àexp(-BIC/2) pour chaque modèle se rapproche de cela.

Vous pouvez également exprimer la moyenne du modèle comme un a priori qui est un mélange entre une masse ponctuelle (le poids de la masse ponctuelle est la probabilité a priori que l'effet soit exactement nul = l'effet n'est pas dans le modèle) et une distribution continue (par exemple antérieurs à pointes et dalles). L'échantillonnage MCMC peut être assez difficile pour un tel a priori.

Carvalho et al. motiver le retrait du fer à cheval avant en suggérant qu'il fonctionne comme une approximation continue d'un précédent à pointe et dalle. Il s'agit également d'incorporer le problème dans un modèle hiérarchique où, dans une certaine mesure, la taille et la présence d'effets sur certaines variables assouplissent un peu les preuves requises pour d'autres (grâce au paramètre de rétrécissement global, c'est un peu comme une fausse découverte contrôle des débits) et, d'autre part, permettent aux effets individuels de se suffire à eux-mêmes si les preuves sont suffisamment claires. Il existe une implémentation pratique de celui-ci disponible à partir du package brms R qui s'appuie sur Stan / rstan . Il existe un certain nombre d'autres priors similaires tels que le fer à cheval + prieur et l'ensemble du sujet est un domaine de recherche en cours.

Björn
la source
Le lasso bayésien est comme ça stats.stackexchange.com/questions/28609/… ? Je suis un modèle avec une variable de dispersion, je devrais également utiliser le double exposant avant pour ces paramètres?
2

Il existe un certain nombre de méthodes formelles pour la sélection des variables bayésiennes. Une revue légèrement dépassée des méthodes de sélection des variables bayésiennes est présentée dans:

Un examen des méthodes de sélection des variables bayésiennes: quoi, comment et qui

Un examen plus récent, qui comprend également une comparaison des différentes méthodes et des performances des packages R où elles sont implémentées, est le suivant:

Méthodes et outils pour la sélection des variables bayésiennes et la moyenne du modèle dans la régression linéaire univariée

Cette référence est particulièrement utile dans la mesure où elle vous pointe vers des packages R spécifiques où il vous suffit de brancher la réponse et les valeurs de covariable (et dans certains cas les valeurs d'hyperparamètre) afin d'exécuter la sélection de variable.

Une autre façon, rapide et sale et non recommandée, d'effectuer la sélection de variables "bayésienne" consiste à utiliser la sélection pas à pas (avant, arrière, les deux) en utilisant BIC et la commande R stepAIC (), qui peut être modifiée pour effectuer la sélection en termes de BIC.

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

Une autre façon rapide et sale de tester β4=0 c'est en utilisant le rapport de densité Savage-Dickey et la simulation postérieure que vous avez déjà:

https://arxiv.org/pdf/0910.1452.pdf

CTHULHU
la source
Je pense que la question est de savoir pourquoi les trois paramètres du modèle 3 ont tous des régions crédibles contenant 0 et non si oui ou non β4est 0.
Michael R. Chernick
@MichaelChernick Alors pourquoi le PO demande- "In this case is reasonable say that $\beta_4\neq 0$"t-il? et "Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU
J'ai raté cette partie de la question, mais je ne pense pas que c'était le principal problème.
Michael R. Chernick
1
@MichaelChernick Eh bien, je suppose que l'OP a le dernier mot ici ...
CTHULHU
1

L'idée globale des statistiques bayésiennes est différente d'une approche fréquentiste. De cette façon, je pense que l'utilisation des termes d'importance n'est pas exacte. Je suppose que c'est au lecteur de décider si les résultats (distribution) que vous obtenez de votre modèle pour votreβsont pour lui fiables ou confiants. Cela dépend toujours de la distribution elle-même. Dans quelle mesure est-il asymétrique et large et quelle partie de la zone est inférieure à zéro?

Vous pouvez également trouver une belle conférence sur le sujet ici à 41:55:

https://vimeo.com/14553953

burton030
la source
J'ai ajouté un exemple d'histogramme d'une variable qui contient un intervalle crédible 0pourriez-vous jeter un oeil?
1
De retour du week-end. Où peut-on trouver l'histogramme?
burton030