Récemment, j'ai découvert que dans la littérature d'économétrie appliquée, lorsqu'il s'agit de problèmes de sélection de caractéristiques, il n'est pas rare d'effectuer LASSO suivi d'une régression OLS en utilisant les variables sélectionnées.
Je me demandais comment qualifier la validité d'une telle procédure. Cela causera-t-il des problèmes tels que des variables omises? Des preuves montrant qu'il est plus efficace, ou les résultats sont-ils plus interprétables?
Voici quelques discussions connexes:
Utilisation d'arbres après sélection de variables à l'aide de Lasso / Random
Si, comme indiqué, une telle procédure n'est pas correcte en général, alors pourquoi y a-t-il encore tant de recherches qui le font? Puis-je dire que ce n'est qu'une règle de base, une solution de compromis, en raison de certaines des propriétés mal à l'aise de l'estimateur LASSO, et de l'attachement des gens à l'OLS?
Réponses:
Il y a quelques jours, une question similaire avait la référence pertinente:
Au moins pour moi, le document est une lecture assez difficile, car les preuves derrière ce relativement simple sont assez élaborées. Lorsque vous souhaitez estimer un modèle comme
où est votre résultat, est un effet de traitement d'intérêt et est un vecteur de contrôles potentiels. Le paramètre cible est . En supposant que la majeure partie de la variation de votre résultat s'explique par le traitement et un ensemble de contrôles clairsemé, Belloni et al. (2014) développent une méthode de sélection à double robustesse qui fournit des estimations ponctuelles correctes et des intervalles de confiance valides. Cette hypothèse de rareté est cependant importante.yi Ti Xi α
Si inclut quelques prédicteurs importants deXi yi mais que vous ne savez pas de quoi il s'agit (que ce soit des variables uniques, leurs polynômes d'ordre supérieur ou des interactions avec d'autres variables), vous pouvez effectuer une procédure de sélection en trois étapes:
Ils fournissent des preuves pour expliquer pourquoi cela fonctionne et pourquoi vous obtenez les intervalles de confiance corrects, etc., de cette méthode. Ils montrent également que si vous effectuez uniquement une sélection LASSO sur la régression ci-dessus, puis régressez le résultat sur le traitement et les variables sélectionnées, vous obtenez des estimations ponctuelles erronées et de faux intervalles de confiance, comme Björn l'a déjà dit.
Le but de cette opération est double: comparer votre modèle initial, où la sélection des variables était guidée par l'intuition ou la théorie, au modèle de sélection à double robustesse vous donne une idée de la qualité de votre premier modèle. Peut-être que votre premier modèle a oublié certains termes au carré ou d'interaction importants et souffre donc d'une forme fonctionnelle mal spécifiée ou de variables omises. Deuxièmement, Belloni et al. (2014) peut améliorer l'inférence sur votre paramètre cible car les régresseurs redondants ont été pénalisés dans leur procédure.
la source
Pour effectuer une sélection de variables, puis réexécuter une analyse, comme si aucune sélection de variables ne s'était produite et que le modèle sélectionné avait été prévu dès le départ, conduit généralement à des tailles d'effet exagérées, à des valeurs de p invalides et à des intervalles de confiance avec une couverture inférieure à la valeur nominale. Peut-être que si la taille de l'échantillon est très grande et qu'il y a quelques effets énormes et beaucoup d'effets nuls, LASSO + OLS pourrait ne pas être trop affecté par cela, mais à part cela, je ne vois aucune justification raisonnable et dans ce cas, le LASSO les estimations devraient être très bien aussi.
la source