J'ajuste une régression logistique pas à pas sur un ensemble de données dans SPSS. Dans la procédure, j'adapte mon modèle à un sous-ensemble aléatoire qui est d'env. 60% de l'échantillon total, soit environ 330 cas.
Ce que je trouve intéressant, c'est que chaque fois que je rééchantillonne mes données, différentes variables apparaissent et disparaissent dans le modèle final. Quelques prédicteurs sont toujours présents dans le modèle final, mais d'autres apparaissent et sortent en fonction de l'échantillon.
Ma question est la suivante. Quelle est la meilleure façon de gérer cela? J'espérais voir la convergence des variables prédictives, mais ce n'est pas le cas. Certains modèles ont un sens beaucoup plus intuitif d'un point de vue opérationnel (et seraient plus faciles à expliquer aux décideurs), et d'autres ajustent légèrement les données.
En bref, comme les variables se déplacent, comment recommanderiez-vous de gérer ma situation?
Merci d'avance.
la source
Une question importante est "pourquoi faire pourquoi voulez-vous un modèle avec le moins de variables possible?". Si vous voulez avoir le moins de variables possible pour minimiser le coût de la collecte de données pour l'utilisation opérationnelle de votre modèle, alors les réponses données par whuber et mbq sont un excellent début.
Si les performances prédictives sont ce qui est vraiment important, alors vous feriez probablement mieux de ne faire aucune sélection de fonctionnalités du tout et d'utiliser plutôt une régression logistique régularisée (cf. régression de crête). En fait, si la performance prédictive était ce qui était de première importance, j'utiliserais la régression logistique régularisée ensachée comme une sorte de stratégie «ceinture et bretelles» pour éviter de sur-ajuster un petit ensemble de données. Millar dans son livre sur la sélection de sous-ensembles dans la régression donne à peu près ce conseil en annexe, et je l'ai trouvé excellent pour les problèmes avec beaucoup de fonctionnalités et pas beaucoup d'observations.
Si la compréhension des données est importante, il n'est pas nécessaire que le modèle utilisé pour comprendre les données soit le même que celui utilisé pour faire des prédictions. Dans ce cas, je rééchantillonnerais les données plusieurs fois et regarderais les modèles des variables sélectionnées dans les échantillons pour trouver quelles variables étaient informatives (comme le suggère mbq, si la sélection des fonctionnalités est instable, un seul échantillon ne donnera pas l'image complète), mais j'utiliserais tout de même l'ensemble de modèles de régression logistique régularisé ensaché pour les prévisions.
la source
En général, il y a deux problèmes de sélection des fonctionnalités:
La convergence de la sélection des prédicteurs est dans un domaine du problème le plus pertinent, qui est extrêmement difficile et nécessite donc des outils beaucoup plus puissants que la régression logistique, des calculs lourds et un traitement très soigné.
Mais il semble que vous posiez le premier problème, vous ne devriez donc pas vous en préoccuper. Je peux généralement seconder la réponse de Whuber, mais je ne suis pas d'accord avec l'affirmation selon laquelle vous devriez abandonner le rééchantillonnage - ici, ce ne sera pas une méthode pour stabiliser la sélection des fonctionnalités, mais néanmoins ce sera une simulation pour estimer les performances d'une sélection de fonctionnalités couplée + formation , vous donnera donc un aperçu en toute confiance de votre précision.
la source
Vous pourriez jeter un coup d'œil à l'article Stability Selection de Meinshausen et Buhlmann dans JR Statist. Soc B (2010) 72 Partie 4, et la discussion qui a suivi. Ils considèrent ce qui se passe lorsque vous divisez à plusieurs reprises votre ensemble de points de données au hasard en deux moitiés et recherchez des fonctionnalités dans chaque moitié. En supposant que ce que vous voyez dans une moitié est indépendant de ce que vous voyez dans l'autre moitié correspondante, vous pouvez prouver les limites du nombre attendu de variables faussement sélectionnées.
la source
N'utilisez pas par étapes! Voir mon papier
la source