Pour expliquer la régression LASSO, le diagramme d'un diamant et d'un cercle est souvent utilisé. On dit que parce que la forme de la contrainte dans LASSO est un diamant, la solution des moindres carrés obtenue pourrait toucher le coin du diamant de telle sorte qu'elle entraîne un rétrécissement d'une variable. Cependant, en régression de crête, car il s'agit d'un cercle, il ne touchera souvent pas l'axe. Je ne pouvais pas comprendre pourquoi il ne pouvait pas toucher l'axe ou peut-être avoir une probabilité plus faible que LASSO de rétrécir certains paramètres. En plus de cela, pourquoi LASSO et la crête ont-ils une variance plus faible que les moindres carrés ordinaires? Ce qui précède est ma compréhension de la crête et de LASSO et je peux me tromper. Quelqu'un peut-il m'aider à comprendre pourquoi ces deux méthodes de régression ont une variance plus faible?
la source
Réponses:
Ceci concerne la variance
OLS fournit ce qu'on appelle le meilleur estimateur linéaire non biaisé (BLEU) . Cela signifie que si vous prenez un autre estimateur sans biais, il est lié à une variance plus élevée que la solution OLS. Alors pourquoi diable devrions-nous envisager autre chose que cela?
Maintenant, l'astuce avec la régularisation, comme le lasso ou la crête, consiste à ajouter un biais à son tour pour essayer de réduire la variance. Parce que quand vous estimez votre erreur de prédiction, il est une combinaison de trois choses :
Quel est donc ce ? Il s'agit de la variance introduite dans les estimations des paramètres de votre modèle. Le modèle linéaire a la forme y = X β + ϵ ,Var [ f^( x ) ) ]
Pour obtenir la solution OLS, nous résolvons le problème de minimisation
arg min β | | y - X β | | 2
Ceci permetobtenir la solution
β OLS = ( X T X ) - 1 X T y
Le problème de minimisation pourrégression d'arête est similaire:
arg min β | | y - X β | |
Je ne sais pas si je peux fournir une réponse plus claire que celle-ci. Tout cela se résume à la matrice de covariance pour les paramètres du modèle et la magnitude des valeurs dans cette matrice de covariance.
J'ai pris l'exemple de la régression de crête, car c'est beaucoup plus facile à traiter. Le lasso est beaucoup plus difficile et il y a toujours des recherches en cours sur ce sujet.
Ces diapositives fournissent plus d'informations et ce blog contient également des informations pertinentes.
EDIT: Qu'est-ce que je veux dire qu'en ajoutant la crête, le déterminant est " retiré " de zéro?
Voici un code R pour illustrer cela:
Ce qui donne les résultats:
Ainsi, toutes les valeurs propres sont décalées de 3 exactement.
Vous pouvez également le prouver en général en utilisant le théorème du cercle de Gershgorin . Là, les centres des cercles contenant les valeurs propres sont les éléments diagonaux. Vous pouvez toujours ajouter "assez" à l'élément diagonal pour faire tous les cercles dans le demi-plan réel positif. Ce résultat est plus général et n'est pas nécessaire pour cela.
la source
Régression de crête
L2 = (y-xβ) ^ 2 + λ∑βi ^ 2
Résoudra cette équation uniquement pour un β pour l'instant et ce dernier, vous pouvez généraliser ceci:
Donc, (y-xβ) ^ 2 + λβ ^ 2 c'est notre équation pour un β.
Notre objectif est de minimiser l'équation ci-dessus, pour être en mesure de le faire, égaliser cela à zéro et prendre les dérivées wrt β
Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- En utilisant l'expansion (ab) ^ 2
Dérivés partiels wrt
-2xy + 2x ^ 2β + 2βλ = 0
2β (x ^ 2 + λ) = 2xy
β = 2xy / 2 (x ^ 2 + λ)
finalement
β = xy / (x ^ 2 + λ)
Si vous observez le dénominateur, il ne deviendra jamais nul, car nous ajoutons une valeur de λ (c'est-à-dire un hyper paramètre). Et donc la valeur de β sera aussi faible que possible mais ne deviendra pas nulle.
Régression LASSO:
L1 = (y-xβ) ^ 2 + λ∑ | β |
Résoudra cette équation uniquement pour un β pour le moment et ce dernier, vous pouvez généraliser cela à plusieurs β:
Donc, (y-xβ) ^ 2 + λβ c'est notre équation pour un β, ici j'ai considéré la valeur + ve de β.
Notre objectif est de minimiser l'équation ci-dessus, pour être en mesure de le faire, égaliser cela à zéro et prendre les dérivées wrt β
Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Utilisation de l'expansion (ab) ^ 2
Dérivés partiels wrt
-2xy + 2x ^ 2β + λ = 0
2x ^ 2β + λ = 2xy
2x ^ 2β = 2xy-λ
finalement
β = (2xy-λ) / (2X ^ 2)
Si vous observez le numérateur, il deviendra nul, car nous soustrayons une valeur de λ (c'est-à-dire un hyper paramètre). Et donc la valeur de β sera mise à zéro.
la source