Les procédures courantes de sélection des variables basées sur les données (par exemple, avant, arrière, pas à pas, tous les sous-ensembles) ont tendance à produire des modèles avec des propriétés indésirables, notamment:
- Coefficients biaisés loin de zéro.
- Erreurs standard trop petites et intervalles de confiance trop étroits.
- Testez les statistiques et les valeurs de p qui n'ont pas la signification annoncée.
- Estimations de l'ajustement du modèle trop optimistes.
- Termes inclus qui peuvent être dénués de sens (par exemple, exclusion de termes d'ordre inférieur).
Pourtant, les procédures de sélection des variables persistent. Étant donné les problèmes de sélection des variables, pourquoi ces procédures sont-elles nécessaires? Qu'est-ce qui motive leur utilisation?
Quelques propositions pour entamer la discussion ....
- Le désir de coefficients de régression interprétables? (Mal orienté dans un modèle avec de nombreux IVs?)
- Éliminer la variance introduite par des variables non pertinentes?
- Éliminer les covariances / redondances inutiles parmi les variables indépendantes?
- Réduire le nombre d'estimations de paramètres (problèmes de puissance, taille d'échantillon)
Y en a-t-il d'autres? Les problèmes traités par les techniques de sélection des variables sont-ils plus ou moins importants que les problèmes posés par les procédures de sélection des variables? Quand devraient-ils être utilisés? Quand ne devraient-ils pas être utilisés?
Réponses:
La sélection variable (sans pénalisation) ne fait qu'empirer les choses. La sélection des variables n'a presque aucune chance de trouver les «bonnes» variables, et se traduit par une surestimation importante des effets des variables restantes et une énorme sous-estimation des erreurs standard. C'est une erreur de croire que la sélection de variables effectuée de la manière habituelle aide à contourner le problème du "grand p petit n". L'essentiel est que le modèle final est trompeur à tous points de vue. Ceci est lié à une déclaration étonnante que j'ai lue dans un article d'épidémiologie: "Nous n'avions pas une taille d'échantillon adéquate pour développer un modèle multivariable, alors nous avons plutôt effectué tous les tests possibles pour les tableaux 2x2."
Chaque fois que l'ensemble de données à portée de main est utilisé pour éliminer les variables, tout en utilisant Y pour prendre la décision, toutes les quantités statistiques seront déformées. La sélection de variable typique est un mirage.
Modifier : (Copie des commentaires d'en bas cachés par le pli)
Je ne veux pas être égoïste, mais mon livre Regression Modeling Strategies va dans le détail. Des documents en ligne, y compris des documents, peuvent être trouvés sur ma page Web . Certaines méthodes disponibles sont la pénalisation (régression de crête), la pénalisation (lasso) et le filet dit élastique (combinaison de et ). Ou utilisez la réduction des données (aveugle à la réponse ) avant d'effectuer une régression. Mon livre y consacre plus de place que la pénalisation.L 1 L 1 L 2 YL2 L1 L1 L2 Y
la source
Tout d'abord, les inconvénients que vous avez mentionnés sont les effets d'une sélection incorrecte des fonctionnalités , c'est-à-dire sur-équipée, inachevée ou dépassée.
Tout niveau pertinent donne un aperçu de ce qui motive réellement le processus donné, alors ayez une valeur explicative. Le niveau optimal minimal (par conception) donne un modèle non surajusté travaillant sur des données aussi épurées que possible.
Les FS du monde réel veulent simplement atteindre l'un de ces objectifs (généralement ce dernier).
la source
La sélection des variables est nécessairement due au fait que la plupart des modèles ne traitent pas bien un grand nombre de variables non pertinentes. Ces variables n'introduiront que du bruit dans votre modèle, ou pire, vous feront sur-ajuster. C'est une bonne idée d'exclure ces variables de l'analyse.
De plus, vous ne pouvez pas inclure toutes les variables qui existent dans chaque analyse, car il y en a un nombre infini. À un moment donné, vous devez tracer la ligne, et c'est bien de le faire de manière rigoureuse. D'où toute la discussion sur la sélection des variables.
La plupart des problèmes de sélection des variables peuvent être résolus par validation croisée ou en utilisant un modèle avec pénalisation intégrée et sélection des caractéristiques (comme le filet élastique pour les modèles linéaires).
Si vous êtes intéressé par certains résultats empiriques liés à plusieurs variables provoquant un sur-ajustement, consultez les résultats du concours Don't Overfit sur Kaggle.
la source