Je construis une régression logistique en R en utilisant la méthode LASSO avec les fonctions cv.glmnet
pour sélectionner le lambda
et glmnet
pour le modèle final.
Je connais déjà tous les inconvénients de la sélection automatique de modèle mais je dois quand même le faire.
Mon problème est que je dois inclure des variables factorielles (catégorielles) dans le modèle, y a-t-il un moyen de le faire sans créer beaucoup de variables fictives? Ces variables sont presque toutes des chaînes et non des nombres.
Réponses:
glmnet ne peut pas prendre le facteur directement, vous devez transformer les variables de facteur en variables muettes. Ce n'est qu'une étape simple en utilisant model.matrix, par exemple:
alpha = 1 va construire un LASSO.
la source