Je sais que cela brouillerait l'inférence statistique, mais je ne souhaite vraiment que me rapprocher le plus possible d'un modèle précis.
J'ai une variable de résultat dichotomique, avec un large éventail de prédicteurs dichotomiques. Je pense que j'aimerais essayer d'utiliser LASSO pour sélectionner les variables à inclure dans mon modèle, puis entrer ces variables sélectionnées dans une régression Logit.
Y a-t-il quelque chose que je néglige en ce qui concerne l'aspect pratique de cette approche?
model-selection
lasso
logit
EvKohl
la source
la source
Réponses:
Il existe un package en R appelé glmnet qui peut s'adapter à un modèle logistique LASSO pour vous! Ce sera plus simple que l'approche que vous envisagez. Plus précisément, glmnet est un hybride entre LASSO et la régression Ridge, mais vous pouvez définir un paramètreα = 1 faire un pur modèle LASSO. Puisque vous êtes intéressé par la régression logistique, vous définissez family = "binomial".
Vous pouvez en savoir plus ici: http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html#intro
la source
stata lasso logistic
me donne homepages.ucl.ac.uk/~ucakgam/stata.html comme premier résultat.Premièrement, rien ne garantit qu'un modèle de probabilité linéaire se rapprochera très bien d'un modèle logit; par conséquent, le sous-ensemble de variables sélectionné pour l'une peut être moins approprié pour l'autre.
Deuxièmement, le réajustement n'applique aucun rétrécissement du tout, malgré la sélection variable qui a eu lieu à la première étape; risquer de graves erreurs de calibrage et peut-être une petite perte de discrimination.
Vous pouvez peut-être valider la procédure sur un ensemble de données particulier, mais cela ne semble pas sûr en général, ou offrir un avantage par rapport à une régression logistique par étapes. Et bien sûr, c'est inutile; LASSOL1 - une pénalité normale peut être utilisée pour le retrait et la sélection dans la régression logistique.
la source