Intuition pour les degrés de liberté du LASSO

Zou et al. "Sur les" degrés de liberté "du lasso" (2007) montrent que le nombre de coefficients non nuls est une estimation non biaisée et cohérente des degrés de liberté du lasso.

Cela me semble un peu contre-intuitif.

Supposons que nous ayons un modèle de régression (où les variables sont à moyenne nulle)

y = β x + ε .

$y=\beta x + \varepsilon.$

Supposons qu'un OLS sans restriction estimation de est . Elle pourrait à peu près coïncider avec une estimation LASSO de pour une intensité de pénalité très faible. $\beta$ $\hat\beta_{OLS}=0.5$ $\beta$
Supposons en outre que l'estimation LASSO pour une intensité de pénalité particulière est . Par exemple, pourrait être le «optimal» pour l'ensemble de données à portée de main trouvé en utilisant la validation croisée. $\lambda^*$ $\hat\beta_{LASSO,\lambda^*}=0.4$ $\lambda^*$ $\lambda$
Si je comprends bien, dans les deux cas, les degrés de liberté sont de 1 car les deux fois il y a un coefficient de régression non nul.

Question:

Comment viennent les degrés de liberté dans les deux cas sont les mêmes , même si suggère moins « liberté » dans l' ajustement de ? $\hat\beta_{LASSO,\lambda^*}=0.4$ $\hat\beta_{OLS}=0.5$

Les références:

Zou, Hui, Trevor Hastie et Robert Tibshirani. "Sur les" degrés de liberté "du lasso." The Annals of Statistics 35.5 (2007): 2173-2192.

regression lasso degrees-of-freedom shrinkage Richard Hardy
la source

grande question, qui mériterait plus d'attention!

Matifou

Supposons qu'on nous donne un ensemble de observations à dimensions, , . On suppose un modèle de la forme: où , la , et désignant le produit scalaire. $n$ $p$ $x_i \in \mathbb{R}^p$ $i = 1, \dotsc, n$

\begin{aligned} Y_{i} = ⟨ β, x_{i} ⟩ + ϵ \end{aligned}

$\begin{align} Y_i = \langle \beta, x_i\rangle + \epsilon \end{align}$

ϵ \sim N (0, σ^{2})

$\epsilon \sim N(0, \sigma^2)$

β \in R^{p}

$\beta \in \mathbb{R}^p$

⟨ \cdot, \cdot ⟩

$\langle \cdot, \cdot \rangle$

soit une estimation de

utilisant la méthode d'ajustement

(soit OLS ou LASSO pour nos besoins). La formule pourdegrés de liberté donnés dans l'article (équation 1.2) est:

\hat{β} = δ ({Y_{i}}_{i = 1}^{n})

$\hat{\beta} = \delta(\{Y_i\}_{i=1}^n)$

β

$\beta$

δ

$\delta$

\begin{aligned} df (\hat{β}) = \sum_{i = 1}^{n} \frac{Cov (⟨ \hat{β}, x_{i} ⟩, Y_{i})}{σ^{2}} . \end{aligned}

$\begin{align} \text{df}(\hat{\beta}) = \sum_{i=1}^n \frac{\text{Cov}(\langle\hat{\beta}, x_i\rangle, Y_i)}{\sigma^2}. \end{align}$

En inspectant cette formule, nous pouvons supposer que, selon votre intuition, le vrai DOF pour le LASSO sera en effet inférieur au vrai DOF d'OLS; le retrait de coefficient effectué par le LASSO devrait tendre à diminuer les covariances.

Maintenant, pour répondre à votre question, la raison pour laquelle le DOF pour le LASSO est le même que le DOF pour OLS dans votre exemple est simplement que vous avez affaire à des estimations (quoique non biaisées), obtenues à partir d'un ensemble de données particulier échantillonné à partir du modèle , des vraies valeurs DOF. Pour tout ensemble de données particulier, une telle estimation ne sera pas égale à la vraie valeur (d'autant plus que l'estimation doit être un entier alors que la vraie valeur est un nombre réel en général).

$\lambda$

e2crawfo
la source

{\hat{β}}_{L A S S O} = 0

$\hat\beta_{LASSO}=0$

< 1

$<1$

= 1

$=1$

Soit dit en passant, pourquoi l'estimation des degrés de liberté doit-elle être entière? Est-ce vraiment le cas? Permettez-moi également de remarquer que la notation interne du produit semble inutilement compliquée et est rarement utilisée sur ce site; une notation matricielle suffirait. Mais c'est votre choix, bien sûr.

Richard Hardy

Oui, ça résume bien. L'estimation des degrés de liberté doit être un entier pour LASSO (au moins pour un seul ensemble de données) simplement parce que l'estimation est le nombre de coefficients non nuls.

e2crawfo

L'énoncé L'estimation des degrés de liberté doit être un entier pour LASSO simplement parce que l'estimation est le nombre de coefficients non nuls me semble très tautologique. En général, je ne pense pas que le df doive être entier, d'après la définition même du df que vous avez écrit. De même, dans le cas de la crête, il n'est pas nécessairement nul.

Matifou

Intuition pour les degrés de liberté du LASSO

Réponses: