Ma situation:
- petit échantillon: 116
- variable de résultat binaire
- longue liste de variables explicatives: 44
- les variables explicatives ne venaient pas du haut de ma tête; leur choix était basé sur la littérature.
- la plupart des cas dans l'échantillon et la plupart des variables ont des valeurs manquantes.
Approche de sélection des fonctionnalités choisie: LASSO
Le package glmnet de R ne me permet pas d'exécuter la routine glmnet, apparemment en raison de l'existence de valeurs manquantes dans mon ensemble de données. Il semble y avoir différentes méthodes pour gérer les données manquantes, donc je voudrais savoir:
- LASSO impose-t-il des restrictions quant à la méthode d'imputation que je peux utiliser?
- Quel serait le meilleur pari pour la méthode d'imputation? Idéalement, j'ai besoin d'une méthode que je pourrais exécuter sur SPSS (de préférence) ou R.
MISE À JOUR1: Il est devenu clair à partir de certaines des réponses ci-dessous que j'ai traité des problèmes plus fondamentaux avant d'envisager des méthodes d'imputation. Je voudrais ajouter ici de nouvelles questions à ce sujet. Sur la réponse suggérant le codage en valeur constante et la création d'une nouvelle variable pour faire face aux valeurs «non applicables» et à l'utilisation du lasso de groupe:
- Diriez-vous que si j'utilise le groupe LASSO, je pourrais utiliser l'approche suggérée pour les prédicteurs continus également pour les prédicteurs catégoriques? Si c'est le cas, je suppose que cela équivaudrait à créer une nouvelle catégorie - je crains que cela n'introduise un biais.
- Est-ce que quelqu'un sait si le paquet glmnet de R prend en charge le groupe LASSO? Sinon, quelqu'un pourrait-il en suggérer un autre qui le fasse en combinaison avec une régression logistique? Plusieurs options mentionnant le groupe LASSO peuvent être trouvées dans le référentiel CRAN, des suggestions des plus appropriées pour mon cas? Peut-être SGL?
Il s'agit d'un suivi d'une question précédente ( comment sélectionner un sous-ensemble de variables de ma longue liste d'origine afin d'effectuer une analyse de régression logistique? ).
OBS: Je ne suis pas statisticien.
la source
Réponses:
Lorsqu'un prédicteur continu contient des valeurs «non applicables», il est souvent utile de le coder en utilisant deux variables:X
où est une constante, &c
Supposons que le prédicteur linéaire de la réponse soit donné par
qui se résout à
lorsque est mesuré, ouX
lorsque x est «sans objet». Le choix de est arbitraire, et n'affecte pas les estimations de l'ordonnée à l'origine ou de la pente ; décrit l'effet de non applicable par rapport à .c β0 β1 β2 X x = c
Ce n'est pas une approche appropriée lorsque la réponse varie en fonction d'une valeur inconnue de : la variabilité du groupe `` manquant '' sera gonflée, et les estimations des coefficients d'autres prédicteurs biaisées en raison de la confusion. Mieux vaut imputer les valeurs manquantes.X
L'utilisation de LASSO pose deux problèmes:
Vous pouvez résoudre ces deux problèmes en utilisant plutôt le groupe LASSO avec un groupe comprenant et : la pénalité de norme est appliquée à la norme de la matrice orthonormalisée . (Les prédicteurs catégoriques sont les enfants-affiches du groupe LASSO - vous coderiez simplement «non applicable» comme niveau distinct, comme cela se fait souvent dans une régression non pénalisée.) Voir Meier et al (2008), JRSS B, 70 , 1, «The lasso de groupe pour la régression logistique " & grplasso .X1 X2 L1 L2 [ x1→ X2→]
la source
L'imputation multiple n'est jamais une mauvaise approche. Vous pouvez également effectuer la probabilité maximale d'informations complètes. Bon examen et comparaison ici et ici .
Mais si vous suivez cette voie, envisagez d'utiliser Stan pour ajuster l'imputation ML simultanément avec votre régression en tant que modèle bayésien unique, car LASSO est de toute façon un cas particulier de régression bayésienne .
la source
mi
qui pourrait vous aider.Amelia
etmice
.La commande CATREG dans Statistics gère les données manquantes avec LASSO. Vous pouvez exclure des cas dans la liste ou faire imputer la procédure Bien que son nom suggère qu'il s'agit de variables catégorielles, vous pouvez définir l'échelle sur Numérique pour gérer le cas continu.
la source
PROC CATREG
, je suppose?Vous pouvez également considérer l'approche simple présentée dans le document suivant:
Loh, PL et Wainwright, MJ (2011). Régression à haute dimension avec données bruyantes et manquantes: garanties prouvables avec non-convexité . Dans Advances in Neural Information Processing Systems (pp. 2726-2734).
la source