Pourquoi la régression des crêtes ne réduira-t-elle pas certains coefficients à zéro comme le lasso?

Pour expliquer la régression LASSO, le diagramme d'un diamant et d'un cercle est souvent utilisé. On dit que parce que la forme de la contrainte dans LASSO est un diamant, la solution des moindres carrés obtenue pourrait toucher le coin du diamant de telle sorte qu'elle entraîne un rétrécissement d'une variable. Cependant, en régression de crête, car il s'agit d'un cercle, il ne touchera souvent pas l'axe. Je ne pouvais pas comprendre pourquoi il ne pouvait pas toucher l'axe ou peut-être avoir une probabilité plus faible que LASSO de rétrécir certains paramètres. En plus de cela, pourquoi LASSO et la crête ont-ils une variance plus faible que les moindres carrés ordinaires? Ce qui précède est ma compréhension de la crête et de LASSO et je peux me tromper. Quelqu'un peut-il m'aider à comprendre pourquoi ces deux méthodes de régression ont une variance plus faible?

regression lasso ridge-regression user10024395
la source

Duplication possible de Pourquoi le Lasso offre-t-il une sélection de variables?

Juho Kokkala du

Ok, la partie de variance en gras n'est pas en double, au moins de cette question; alors peut-être que cette question pourrait être modifiée pour se concentrer sur cela.

Juho Kokkala du

Ceci est bien expliqué dans la figure 3.11 de web.stanford.edu/~hastie/local.ftp/Springer/OLD/…

@fcop j'ai lu le livre mais je ne comprends pas très bien les maths

user10024395

Mais pour comprendre l'image, vous n'avez pas besoin des mathématiques?

Réponses:

Ceci concerne la variance

OLS fournit ce qu'on appelle le meilleur estimateur linéaire non biaisé (BLEU) . Cela signifie que si vous prenez un autre estimateur sans biais, il est lié à une variance plus élevée que la solution OLS. Alors pourquoi diable devrions-nous envisager autre chose que cela?

Maintenant, l'astuce avec la régularisation, comme le lasso ou la crête, consiste à ajouter un biais à son tour pour essayer de réduire la variance. Parce que quand vous estimez votre erreur de prédiction, il est une combinaison de trois choses :

E [(y - \hat{F} (X))^{2}] = Biais [\hat{F} (X))]^{2} + Var [\hat{F} (X))] + σ^{2}

$\text{E}[(y-\hat{f}(x))^2]=\text{Bias}[\hat{f}(x))]^2 +\text{Var}[\hat{f}(x))]+\sigma^2$ La dernière partie est l'erreur irréductible, nous n'avons donc aucun contrôle sur cela. En utilisant la solution OLS, le terme de biais est nul. Mais il se pourrait que le deuxième mandat soit important. Ce pourrait être une bonne idée ( si nous voulons de bonnes prévisions ) d'ajouter un biais et, espérons-le, de réduire la variance.

Quel est donc ce ? Il s'agit de la variance introduite dans les estimations des paramètres de votre modèle. Le modèle linéaire a la forme $\text{Var}[\hat{f}(x))]$ Pour obtenir la solution OLS, nous résolvons le problème de minimisation Ceci permetobtenir la solution Le problème de minimisation pourrégression d'arête est similaire:

y = X β + ϵ, ϵ \sim N (0, σ^{2} je)

$\mathbf{y}=\mathbf{X}\beta + \epsilon,\qquad \epsilon\sim\mathcal{N}(0,\sigma^2I)$

\arg min_{β} | | y - X β | |^{2}

$\arg \min_\beta ||\mathbf{y}-\mathbf{X}\beta||^2$

{\hat{β}}_{OLS} = (X^{T} X)^{- 1} X^{T} y

$\hat{\beta}_{\text{OLS}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$

Maintenantla solution devient

Doncnous ajoutons cette

(appelé la crête) sur la diagonale de la matrice queon inverti. L'effet que cela a sur la matrice

est qu'il "éloigne" le déterminant de la matrice de zéro. Ainsi, lorsque vous l'inversez, vous n'obtenez pas d'énormes valeurs propres. Mais cela conduit à un autre fait intéressant, à savoir que la variance des estimations des paramètres devient plus faible.

\arg min_{β} | | y - X β | |^{2} + λ | | β | |^{2} λ > 0

$\arg \min_\beta ||\mathbf{y}-\mathbf{X}\beta||^2+\lambda||\beta||^2\qquad \lambda>0$

{\hat{β}}_{crête} = (X^{T} X + λ je)^{- 1} X^{T} y

$\hat{\beta}_{\text{Ridge}} = (\mathbf{X}^T\mathbf{X}+\lambda I)^{-1}\mathbf{X}^T\mathbf{y}$

λ I

$\lambda I$

X^{T} X

$\mathbf{X}^T\mathbf{X}$

Je ne sais pas si je peux fournir une réponse plus claire que celle-ci. Tout cela se résume à la matrice de covariance pour les paramètres du modèle et la magnitude des valeurs dans cette matrice de covariance.

J'ai pris l'exemple de la régression de crête, car c'est beaucoup plus facile à traiter. Le lasso est beaucoup plus difficile et il y a toujours des recherches en cours sur ce sujet.

Ces diapositives fournissent plus d'informations et ce blog contient également des informations pertinentes.

EDIT: Qu'est-ce que je veux dire qu'en ajoutant la crête, le déterminant est " retiré " de zéro?

$\mathbf{X}^T\mathbf{X}$

det (X^{T} X - t je) = 0

$\text{det}(\mathbf{X}^T\mathbf{X}-tI)=0$

t

$t$

det (X^{T} X + λ je - t je) = 0

$\text{det}(\mathbf{X}^T\mathbf{X}+\lambda I-tI)=0$

det (X^{T} X - (t - λ) je) = 0

$\text{det}(\mathbf{X}^T\mathbf{X}-(t-\lambda)I)=0$

(t - λ)

$(t-\lambda)$

t_{i}

$t_i$

t_{i} + λ

$t_i+\lambda$

λ

$\lambda$

Voici un code R pour illustrer cela:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

Ce qui donne les résultats:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Ainsi, toutes les valeurs propres sont décalées de 3 exactement.

Vous pouvez également le prouver en général en utilisant le théorème du cercle de Gershgorin . Là, les centres des cercles contenant les valeurs propres sont les éléments diagonaux. Vous pouvez toujours ajouter "assez" à l'élément diagonal pour faire tous les cercles dans le demi-plan réel positif. Ce résultat est plus général et n'est pas nécessaire pour cela.

Gumeo
la source

Pouvez-vous expliquer comment il "éloigne" le déterminant de zéro (mathématiquement)? Merci

user10024395

@ user2675516 J'ai modifié ma réponse.

Gumeo

"Cela signifie que si vous prenez un autre estimateur sans biais, il est lié à une variance plus élevée que la solution OLS". Vous voulez dire un biais plus élevé que l'OLS? Je pensais que l'OLS avait le moins de biais, donc toute autre chose aurait un biais plus élevé.

Veuillez

@ML_Pro OLS a un biais nul et, de tous les estimateurs sans biais, il a la plus petite variance. Ceci est un théorème . Donc, si vous en choisissez un autre, la variance augmentera. Mais si vous régularisez, vous introduisez un parti pris.

Gumeo

Merci! Votre réponse m'a rendu curieux. Pouvez-vous répondre à cette nouvelle question que j'ai créée? stats.stackexchange.com/questions/294926/…

GeorgeOfTheRF

Régression de crête

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

Résoudra cette équation uniquement pour un β pour l'instant et ce dernier, vous pouvez généraliser ceci:

Donc, (y-xβ) ^ 2 + λβ ^ 2 c'est notre équation pour un β.

Notre objectif est de minimiser l'équation ci-dessus, pour être en mesure de le faire, égaliser cela à zéro et prendre les dérivées wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- En utilisant l'expansion (ab) ^ 2

Dérivés partiels wrt

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

finalement

β = xy / (x ^ 2 + λ)

Si vous observez le dénominateur, il ne deviendra jamais nul, car nous ajoutons une valeur de λ (c'est-à-dire un hyper paramètre). Et donc la valeur de β sera aussi faible que possible mais ne deviendra pas nulle.

Régression LASSO:

L1 = (y-xβ) ^ 2 + λ∑ | β |

Résoudra cette équation uniquement pour un β pour le moment et ce dernier, vous pouvez généraliser cela à plusieurs β:

Donc, (y-xβ) ^ 2 + λβ c'est notre équation pour un β, ici j'ai considéré la valeur + ve de β.

Notre objectif est de minimiser l'équation ci-dessus, pour être en mesure de le faire, égaliser cela à zéro et prendre les dérivées wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Utilisation de l'expansion (ab) ^ 2

Dérivés partiels wrt

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ 2β = 2xy-λ

finalement

β = (2xy-λ) / (2X ^ 2)

Si vous observez le numérateur, il deviendra nul, car nous soustrayons une valeur de λ (c'est-à-dire un hyper paramètre). Et donc la valeur de β sera mise à zéro.

Chetan Patil
la source