J'ai un ensemble de données avec trois variables, où toutes les variables sont quantitatives. Appelons-le , et . Je monte un modèle de régression dans une perspective bayésienne via MCMC avecrjags
J'ai fait une analyse exploratoire et le nuage de points de suggère d'utiliser un terme quadratique. J'ai ensuite monté deux modèles
(1)
(2)
Dans le modèle 1, la taille de l'effet de chaque paramètre n'est pas petite et l'intervalle crédible à 95% ne contient pas la valeur .
Dans le modèle 2, la taille de l'effet des paramètres et sont petits et chacun des intervalles crédibles pour tous les paramètres contient .
Le fait qu'un intervalle crédible contient suffit de dire que le paramètre n'est pas significatif?
J'ai ensuite ajusté le modèle suivant
(3)
La taille de l'effet de chaque paramètre n'est pas petite, mais à l'exception de tous les intervalles crédibles contiennent .
Quelle est la bonne façon de faire une sélection de variables dans les statistiques bayésiennes?
EDIT: Je peux utiliser Lasso dans n'importe quel modèle de régression, comme le modèle Beta? J'utilise un modèle à dispersion variable où
EDIT2: j'ai monté deux modèles, dont un à priori gaussien, et une avec Laplace (double exponentielle).
Les estimations pour le modèle gaussien sont
Mean SD Naive SE Time-series SE
B[1] -1.17767 0.07112 0.0007497 0.0007498
B[2] -0.15624 0.03916 0.0004128 0.0004249
B[3] 0.15600 0.05500 0.0005797 0.0005889
B[4] 0.07682 0.04720 0.0004975 0.0005209
delta[1] -3.42286 0.32934 0.0034715 0.0034712
delta[2] 0.06329 0.27480 0.0028966 0.0028969
delta[3] 1.06856 0.34547 0.0036416 0.0036202
delta[4] -0.32392 0.26944 0.0028401 0.0028138
Les estimations pour le modèle Lasso sont
Mean SD Naive SE Time-series SE
B[1] -1.143644 0.07040 0.0007421 0.0007422
B[2] -0.160541 0.05341 0.0005630 0.0005631
B[3] 0.137026 0.05642 0.0005947 0.0005897
B[4] 0.046538 0.04770 0.0005028 0.0005134
delta[1] -3.569151 0.27840 0.0029346 0.0029575
delta[2] -0.004544 0.15920 0.0016781 0.0016786
delta[3] 0.411220 0.33422 0.0035230 0.0035629
delta[4] -0.034870 0.16225 0.0017103 0.0017103
lambda 7.269359 5.45714 0.0575233 0.0592808
Les estimations pour et beaucoup réduit dans le modèle Lasso, cela signifie que je devrais supprimer ces variables du modèle?
EDIT3: Le modèle à double exponentielle a priori (Lasso) me donne des valeurs de déviance, BIC et DIC plus grandes que le modèle avec des a priori gaussiens et j'obtiens même des valeurs plus petites après avoir supprimé le coefficient de dispersion dans le modèle gaussien.
Réponses:
Il est bien connu que la construction d'un modèle basé sur ce qui est significatif (ou un autre critère tel que l'AIC, si un intervalle crédible contient 0, etc.) est assez problématique, en particulier si vous faites ensuite l'inférence comme si vous n'aviez pas fait de construction de modèle. Faire une analyse bayésienne ne change rien à cela (voir aussi https://stats.stackexchange.com/a/201931/86652 ). C'est-à-dire que vous ne devriez pas faire de sélection de variables, mais plutôt faire la moyenne des modèles (ou quelque chose qui pourrait vous donner des coefficients nuls, mais qui reflète tout le processus de modélisation, comme LASSO ou filet élastique).
Le choix du modèle bayésien est plus généralement défini comme une moyenne du modèle bayésien. Vous avez différents modèles, chacun avec une probabilité antérieure différente. Si la probabilité du modèle postérieur pour un modèle devient suffisamment faible, vous rejetez essentiellement le modèle. Pour des poids antérieurs égaux pour chaque modèle et des a priori plats, la moyenne du modèle avec des poids proportionnels àexp( - BIC / 2 ) pour chaque modèle se rapproche de cela.
Vous pouvez également exprimer la moyenne du modèle comme un a priori qui est un mélange entre une masse ponctuelle (le poids de la masse ponctuelle est la probabilité a priori que l'effet soit exactement nul = l'effet n'est pas dans le modèle) et une distribution continue (par exemple antérieurs à pointes et dalles). L'échantillonnage MCMC peut être assez difficile pour un tel a priori.
Carvalho et al. motiver le retrait du fer à cheval avant en suggérant qu'il fonctionne comme une approximation continue d'un précédent à pointe et dalle. Il s'agit également d'incorporer le problème dans un modèle hiérarchique où, dans une certaine mesure, la taille et la présence d'effets sur certaines variables assouplissent un peu les preuves requises pour d'autres (grâce au paramètre de rétrécissement global, c'est un peu comme une fausse découverte contrôle des débits) et, d'autre part, permettent aux effets individuels de se suffire à eux-mêmes si les preuves sont suffisamment claires. Il existe une implémentation pratique de celui-ci disponible à partir du package brms R qui s'appuie sur Stan / rstan . Il existe un certain nombre d'autres priors similaires tels que le fer à cheval + prieur et l'ensemble du sujet est un domaine de recherche en cours.
la source
Il existe un certain nombre de méthodes formelles pour la sélection des variables bayésiennes. Une revue légèrement dépassée des méthodes de sélection des variables bayésiennes est présentée dans:
Un examen des méthodes de sélection des variables bayésiennes: quoi, comment et qui
Un examen plus récent, qui comprend également une comparaison des différentes méthodes et des performances des packages R où elles sont implémentées, est le suivant:
Méthodes et outils pour la sélection des variables bayésiennes et la moyenne du modèle dans la régression linéaire univariée
Cette référence est particulièrement utile dans la mesure où elle vous pointe vers des packages R spécifiques où il vous suffit de brancher la réponse et les valeurs de covariable (et dans certains cas les valeurs d'hyperparamètre) afin d'exécuter la sélection de variable.
Une autre façon, rapide et sale et non recommandée, d'effectuer la sélection de variables "bayésienne" consiste à utiliser la sélection pas à pas (avant, arrière, les deux) en utilisant BIC et la commande R stepAIC (), qui peut être modifiée pour effectuer la sélection en termes de BIC.
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html
Une autre façon rapide et sale de testerβ4= 0 c'est en utilisant le rapport de densité Savage-Dickey et la simulation postérieure que vous avez déjà:
https://arxiv.org/pdf/0910.1452.pdf
la source
"In this case is reasonable say that $\beta_4\neq 0$"
t-il? et"Which is the right way to do variable selection in Bayesian statistics"
?L'idée globale des statistiques bayésiennes est différente d'une approche fréquentiste. De cette façon, je pense que l'utilisation des termes d'importance n'est pas exacte. Je suppose que c'est au lecteur de décider si les résultats (distribution) que vous obtenez de votre modèle pour votreβ sont pour lui fiables ou confiants. Cela dépend toujours de la distribution elle-même. Dans quelle mesure est-il asymétrique et large et quelle partie de la zone est inférieure à zéro?
Vous pouvez également trouver une belle conférence sur le sujet ici à 41:55:
https://vimeo.com/14553953
la source