Comment est-il logique de faire OLS après la sélection de variable LASSO?

20

Récemment, j'ai découvert que dans la littérature d'économétrie appliquée, lorsqu'il s'agit de problèmes de sélection de caractéristiques, il n'est pas rare d'effectuer LASSO suivi d'une régression OLS en utilisant les variables sélectionnées.

Je me demandais comment qualifier la validité d'une telle procédure. Cela causera-t-il des problèmes tels que des variables omises? Des preuves montrant qu'il est plus efficace, ou les résultats sont-ils plus interprétables?

Voici quelques discussions connexes:

Sélection variable avec LASSO

Utilisation d'arbres après sélection de variables à l'aide de Lasso / Random

Si, comme indiqué, une telle procédure n'est pas correcte en général, alors pourquoi y a-t-il encore tant de recherches qui le font? Puis-je dire que ce n'est qu'une règle de base, une solution de compromis, en raison de certaines des propriétés mal à l'aise de l'estimateur LASSO, et de l'attachement des gens à l'OLS?

ZLIU
la source
Pourriez-vous expliquer ce que signifie faire une "régression OLS" après avoir effectué le LASSO? En quoi consiste précisément cette étape OLS qui tente d'estimer que le LASSO n'a pas estimé?
whuber
2
Il existe quelques documents de travail récents sur le sujet. Beaucoup semblent exiger l'hypothèse que l'ensemble des variables valides est rare. Si cette hypothèse ne se vérifie pas, alors le biais des variables omises serait présent. Et les gens aiment ols parce qu'ils veulent interpréter les coefs comme étant des effets marginaux hors échantillon. L'économétrie est assez coincée dans ce paradigme.
generic_user
4
Dans ce livre LASSO récent (gratuit en ligne), la section 11.4 semble résoudre ce problème. Je n'ai pas lu cela en détail, mais l'introduction se termine en disant "Étant donné [une estimation LASSO] qui récupère correctement le support de , nous pouvons très bien estimer ... simplement en effectuant une régression des moindres carrés ordinaires limitée à ce sous-ensemble. " β^ββ
GeoMatt22

Réponses:

12

Il y a quelques jours, une question similaire avait la référence pertinente:

  • Belloni, A., Chernozhukov, V., et Hansen, C. (2014) "Inférence sur les effets du traitement après sélection parmi les contrôles de grande dimension", Review of Economic Studies, 81 (2), pp. 608-50 ( lien )

Au moins pour moi, le document est une lecture assez difficile, car les preuves derrière ce relativement simple sont assez élaborées. Lorsque vous souhaitez estimer un modèle comme

yi=αTi+Xiβ+ϵi

où est votre résultat, est un effet de traitement d'intérêt et est un vecteur de contrôles potentiels. Le paramètre cible est . En supposant que la majeure partie de la variation de votre résultat s'explique par le traitement et un ensemble de contrôles clairsemé, Belloni et al. (2014) développent une méthode de sélection à double robustesse qui fournit des estimations ponctuelles correctes et des intervalles de confiance valides. Cette hypothèse de rareté est cependant importante.yiTiXiα

Si inclut quelques prédicteurs importants deXiyi mais que vous ne savez pas de quoi il s'agit (que ce soit des variables uniques, leurs polynômes d'ordre supérieur ou des interactions avec d'autres variables), vous pouvez effectuer une procédure de sélection en trois étapes:

  1. yiXi
  2. TiXi
  3. yiTi

Ils fournissent des preuves pour expliquer pourquoi cela fonctionne et pourquoi vous obtenez les intervalles de confiance corrects, etc., de cette méthode. Ils montrent également que si vous effectuez uniquement une sélection LASSO sur la régression ci-dessus, puis régressez le résultat sur le traitement et les variables sélectionnées, vous obtenez des estimations ponctuelles erronées et de faux intervalles de confiance, comme Björn l'a déjà dit.

Le but de cette opération est double: comparer votre modèle initial, où la sélection des variables était guidée par l'intuition ou la théorie, au modèle de sélection à double robustesse vous donne une idée de la qualité de votre premier modèle. Peut-être que votre premier modèle a oublié certains termes au carré ou d'interaction importants et souffre donc d'une forme fonctionnelle mal spécifiée ou de variables omises. Deuxièmement, Belloni et al. (2014) peut améliorer l'inférence sur votre paramètre cible car les régresseurs redondants ont été pénalisés dans leur procédure.

Andy
la source
Estimation ponctuelle "correcte"?
Richard Hardy
3

Pour effectuer une sélection de variables, puis réexécuter une analyse, comme si aucune sélection de variables ne s'était produite et que le modèle sélectionné avait été prévu dès le départ, conduit généralement à des tailles d'effet exagérées, à des valeurs de p invalides et à des intervalles de confiance avec une couverture inférieure à la valeur nominale. Peut-être que si la taille de l'échantillon est très grande et qu'il y a quelques effets énormes et beaucoup d'effets nuls, LASSO + OLS pourrait ne pas être trop affecté par cela, mais à part cela, je ne vois aucune justification raisonnable et dans ce cas, le LASSO les estimations devraient être très bien aussi.

Björn
la source
1
Mais pourquoi le deuxième modèle part de zéro comme si aucune sélection de variables ne s'était produite? LASSO ne sélectionne-t-il pas la variable explicative avec le meilleur pouvoir prédictif? BTW J'ai pensé à refaire la variable matricielle lâche LASSO dans glm. Maintenant, j'ai compris que LASSO en soi est une régression.
SIslam