Pourquoi la sélection des variables est-elle nécessaire?

31

Les procédures courantes de sélection des variables basées sur les données (par exemple, avant, arrière, pas à pas, tous les sous-ensembles) ont tendance à produire des modèles avec des propriétés indésirables, notamment:

  1. Coefficients biaisés loin de zéro.
  2. Erreurs standard trop petites et intervalles de confiance trop étroits.
  3. Testez les statistiques et les valeurs de p qui n'ont pas la signification annoncée.
  4. Estimations de l'ajustement du modèle trop optimistes.
  5. Termes inclus qui peuvent être dénués de sens (par exemple, exclusion de termes d'ordre inférieur).

Pourtant, les procédures de sélection des variables persistent. Étant donné les problèmes de sélection des variables, pourquoi ces procédures sont-elles nécessaires? Qu'est-ce qui motive leur utilisation?

Quelques propositions pour entamer la discussion ....

  • Le désir de coefficients de régression interprétables? (Mal orienté dans un modèle avec de nombreux IVs?)
  • Éliminer la variance introduite par des variables non pertinentes?
  • Éliminer les covariances / redondances inutiles parmi les variables indépendantes?
  • Réduire le nombre d'estimations de paramètres (problèmes de puissance, taille d'échantillon)

Y en a-t-il d'autres? Les problèmes traités par les techniques de sélection des variables sont-ils plus ou moins importants que les problèmes posés par les procédures de sélection des variables? Quand devraient-ils être utilisés? Quand ne devraient-ils pas être utilisés?

Brett
la source
À mon avis, pour discuter clairement d'un problème, nous devons d'abord le spécifier d'une bonne manière, puis le formuler sous une forme mathématique appropriée afin d'avoir un cadre dans lequel le problème est clairement discuté. Pour le problème de sélection des variables, par exemple pour les modèles de régression linéaire. Il semble raisonnable de fixer d'abord un modèle et d'étudier (i) les avantages / inconvénients (par exemple, amélioration / aggravation de l'estimation ou de la prévision) de la sélection des variables? (ii) les avantages de la procédure de sélection des variables par rapport à l'estimation LS?

Réponses:

17

La sélection variable (sans pénalisation) ne fait qu'empirer les choses. La sélection des variables n'a presque aucune chance de trouver les «bonnes» variables, et se traduit par une surestimation importante des effets des variables restantes et une énorme sous-estimation des erreurs standard. C'est une erreur de croire que la sélection de variables effectuée de la manière habituelle aide à contourner le problème du "grand p petit n". L'essentiel est que le modèle final est trompeur à tous points de vue. Ceci est lié à une déclaration étonnante que j'ai lue dans un article d'épidémiologie: "Nous n'avions pas une taille d'échantillon adéquate pour développer un modèle multivariable, alors nous avons plutôt effectué tous les tests possibles pour les tableaux 2x2."

Chaque fois que l'ensemble de données à portée de main est utilisé pour éliminer les variables, tout en utilisant Y pour prendre la décision, toutes les quantités statistiques seront déformées. La sélection de variable typique est un mirage.

Modifier : (Copie des commentaires d'en bas cachés par le pli)

Je ne veux pas être égoïste, mais mon livre Regression Modeling Strategies va dans le détail. Des documents en ligne, y compris des documents, peuvent être trouvés sur ma page Web . Certaines méthodes disponibles sont la pénalisation (régression de crête), la pénalisation (lasso) et le filet dit élastique (combinaison de et ). Ou utilisez la réduction des données (aveugle à la réponse ) avant d'effectuer une régression. Mon livre y consacre plus de place que la pénalisation.L 1 L 1 L 2 YL2L1L1L2Y

Frank Harrell
la source
6
Je pense que cette réponse serait améliorée en fournissant quelques conseils sur la façon de procéder. La réponse fait des déclarations très larges et définitives (dont je suis généralement d'accord avec beaucoup) sans référence aux ressources qui étayeraient les affirmations. La pénalisation n'est certainement pas une panacée non plus, et il y a beaucoup de choix à faire si l'on va dans cette direction.
Cardinal
3
Veuillez voir ci-dessus où j'ai fourni plus d'informations. La façon la plus brève d'énoncer le problème est qu'une des principales raisons pour lesquelles une variable est "sélectionnée" est que son effet a été surestimé.
Frank Harrell
2
Oui, je suis d'accord que votre livre contient du bon matériel à ce sujet, tout comme, par exemple, ESL. (Cela dit, il y a au moins quelques exemples en ESL où une certaine forme de sélection en arrière est également utilisée.) Vous mentionnez la pénalisation (ou régression de crête), mais cela ne va généralement pas trop loin en termes de variable / modèle sélection en soi. Le filet élastique a un comportement correct, mais son inconvénient dans mon esprit est que peu importe comment vous le regardez, il n'admet pas une interprétation "statistique" très agréable ou naturelle, alors que les pénalisations et font dans certains sens. L 1 L 2L2L1L2
Cardinal
2
De bons points bien que je pense que donne une interprétation naturelle parce que c'est juste une autre façon d'estimer les mêmes coefficients de modèle. Vous avez raison: sans ne supprime aucune variable. Nous le faisons pour des performances prédictives supérieures et pour gérer le grand petit cas. L 2 L 1 p nL2L2L1pn
Frank Harrell
2
Peut-être que mon commentaire n'était pas aussi clair que je le souhaitais. Oui, je suis d'accord que la pénalisation en elle-même plusieurs interprétations agréables, même si elle ne donne lieu à aucune sélection de variables. C'est le filet élastique que je ne trouve pas particulièrement bien motivé ou naturel d'un point de vue statistique au-delà du fait que dans certains cas, de meilleures performances prédictives sont obtenues. L2
Cardinal
14

Tout d'abord, les inconvénients que vous avez mentionnés sont les effets d'une sélection incorrecte des fonctionnalités , c'est-à-dire sur-équipée, inachevée ou dépassée.

eYYYeY

Tout niveau pertinent donne un aperçu de ce qui motive réellement le processus donné, alors ayez une valeur explicative. Le niveau optimal minimal (par conception) donne un modèle non surajusté travaillant sur des données aussi épurées que possible.

Les FS du monde réel veulent simplement atteindre l'un de ces objectifs (généralement ce dernier).


la source
4
Je suppose que vous faites référence à la suppression de variables sans utiliser les données disponibles. Vous ne pouvez pas utiliser l'ensemble de données à portée de main pour ce faire. Cela ne serait pas fiable et fausserait l'inférence statistique.
Frank Harrell
Comme je l'ai écrit, ce n'est qu'un fondement théorique du problème (provenant des réseaux bayésiens). La façon exacte de réaliser cela est évidemment impossible, et je conviens certainement que la modélisation statistique a beaucoup souffert de l'utilisation insensée de RFE et d'autres choses similaires - mais l'apprentissage automatique a des algorithmes heuristiques qui ne sont certainement pas désespérés (c'est-à-dire faire des sélections et des modèles stables qui s'avèrent ne pas être sur-adaptés dans des tests équitables).
Qu'est-ce que RFE ???????
kjetil b halvorsen
@kjetilbhalvorsen Élimination des fonctionnalités récursives
@mbq Thx pour votre réponse intéressante! Pouvez-vous fournir une référence (livres, articles, etc.)? Appréciez votre réponse!
Kare
10

La sélection des variables est nécessairement due au fait que la plupart des modèles ne traitent pas bien un grand nombre de variables non pertinentes. Ces variables n'introduiront que du bruit dans votre modèle, ou pire, vous feront sur-ajuster. C'est une bonne idée d'exclure ces variables de l'analyse.

De plus, vous ne pouvez pas inclure toutes les variables qui existent dans chaque analyse, car il y en a un nombre infini. À un moment donné, vous devez tracer la ligne, et c'est bien de le faire de manière rigoureuse. D'où toute la discussion sur la sélection des variables.

La plupart des problèmes de sélection des variables peuvent être résolus par validation croisée ou en utilisant un modèle avec pénalisation intégrée et sélection des caractéristiques (comme le filet élastique pour les modèles linéaires).

Si vous êtes intéressé par certains résultats empiriques liés à plusieurs variables provoquant un sur-ajustement, consultez les résultats du concours Don't Overfit sur Kaggle.

Zach
la source
1
Je pense que le premier paragraphe contient une incompréhension importante du problème. La sélection des variables ne résout en rien ces problèmes, elle les masque uniquement. La sélection variable entraîne d'énormes problèmes de surajustement, bien que, comme vous l'avez mentionné plus tard, il existe des moyens de nous pénaliser honnêtement pour les dommages causés par la sélection variable.
Frank Harrell
3
@Frank Harrell: comment décidez-vous des variables à exclure d'un modèle?
Zach
11
(1) Utiliser la connaissance du sujet avant de regarder l'ensemble de données; (2) Utiliser une analyse de redondance / réduction des données aveugle à Y; (3) Utilisez une méthode qui pénalise adéquatement l'énorme problème de comparaison multiple causé par la sélection des fonctionnalités (voir ailleurs sur cette page).
Frank Harrell