Je suis probablement confronté à un problème qui a probablement été résolu une centaine de fois auparavant, mais je ne sais pas où trouver la réponse.
Lorsque j'utilise la régression logistique, étant donné de nombreuses fonctionnalités et que j'essaie de prédire une valeur binaire catégorielle , je suis intéressé par la sélection d'un sous-ensemble des fonctionnalités qui prédit bien .
Existe-t-il une procédure similaire au lasso qui peut être utilisée? (Je n'ai vu que le lasso utilisé pour la régression linéaire.)
L'examen des coefficients du modèle ajusté indique-t-il l'importance des différentes caractéristiques?
Modifier - Clarifications après avoir vu certaines des réponses:
Lorsque je me réfère à l'amplitude des coefficients ajustés, je veux dire ceux qui sont ajustés à des caractéristiques normalisées (moyenne 0 et variance 1). Sinon, comme l'a souligné @probabilityislogic, 1000x semblerait moins important que x.
Je ne souhaite pas simplement trouver le meilleur sous-ensemble k (comme le proposait @Davide), mais plutôt peser l'importance des différentes fonctionnalités les unes par rapport aux autres. Par exemple, une fonctionnalité peut être "âge" et l'autre fonctionnalité "âge> 30". Leur importance supplémentaire peut être faible, mais les deux peuvent être importants.
la source
La réponse à votre dernière question est un NON catégorique. L'ampleur des coefficients n'est en aucun cas une mesure d'importance. Le lasso peut être utilisé pour la régression logistique. Vous devez étudier la zone de manière plus approfondie. Les méthodes que vous devez étudier sont celles qui impliquent des méthodes "pénalisées". Si vous recherchez des méthodes de détection qui découvrent des prédicteurs "masqués", un terme qui peut être défini quelque part mais qui n'est pas couramment utilisé, vous devez rechercher des méthodes qui inspectent les interactions et la structure non linéaire dans l'espace des prédicteurs et le lien entre les résultats et cet espace. Il y a pas mal de discussions sur ces questions et méthodes dans le texte de Frank Harrell "Stratégies de modélisation de régression".
La stratégie de sélection en amont ne fournira pas de résultats valides (bien qu'elle produise des résultats). Si vous avez examiné un cas de 20 prédicteurs aléatoires pour 100 événements, vous en trouverez probablement 2 ou 3 qui seront sélectionnés avec un processus de sélection en amont. La prévalence de la sélection en amont dans le monde réel ne reflète pas une réflexion statistique minutieuse, mais plutôt sa disponibilité aisée en SAS et SPSS et le manque de sophistication de la base d'utilisateurs de ces produits. La base d'utilisateurs R a plus de mal à accéder à ces méthodes et les utilisateurs qui affichent des demandes sur les listes de diffusion et SO sont généralement informés des problèmes liés aux méthodes de sélection en amont (ou en aval).
la source
L'anglais n'est pas ma langue maternelle, donc je n'ai peut-être pas compris quel est votre problème, mais si vous avez besoin de trouver le meilleur modèle, vous pouvez essayer d'utiliser une procédure à rebours (et éventuellement ajouter des interactions), en commençant par un modèle avec toutes les covariables. Vous pouvez ensuite regarder à la fois les valeurs residuelles_vs_prédictives et les graphiques qq-plot pour vérifier si le modèle décrit bien votre phénomène
la source