Je sais que la régression linéaire peut être considérée comme "la ligne verticalement la plus proche de tous les points" :
Mais il y a une autre façon de le voir, en visualisant l'espace des colonnes, comme "la projection sur l'espace enjambé par les colonnes de la matrice des coefficients" :
Ma question est: dans ces deux interprétations, que se passe-t-il lorsque nous utilisons la régression linéaire pénalisée, comme la régression de crête et LASSO ? Que se passe-t-il avec la ligne dans la première interprétation? Et que se passe-t-il avec la projection dans la deuxième interprétation?
MISE À JOUR: @JohnSmith dans les commentaires a évoqué le fait que la pénalité se produit dans l'espace des coefficients. Y a-t-il aussi une interprétation dans cet espace?
la source
Réponses:
Désolé pour mes compétences en peinture, je vais essayer de vous donner l'intuition suivante.
Soit la fonction objectif (par exemple, MSE en cas de régression). Imaginons le tracé de contour de cette fonction en rouge (bien sûr, nous le dans l'espace de , ici pour simplifier et ).F( β) β β1 β2
Il y a un minimum de cette fonction, au milieu des cercles rouges. Et ce minimum nous donne la solution non pénalisée.
Maintenant, nous ajoutons différents objectifs dont le tracé de contour est donné en bleu. Soit un régularisateur LASSO ou un régularisateur de régression de crête. Pour LASSO , pour la régression de crête ( est une pénalisation paramètre). Les courbes de contour indiquent la zone dans laquelle la fonction a les valeurs fixes. Donc, plus le - plus la croissance rapide et plus le tracé du contour est "étroit".g( β) g( β) = λ ( | β1| + | β2| ) g( β) = λ ( β21+ β22) λ λ g( x )
Il faut maintenant trouver le minimum de la somme de ces deux objectifs: . Et ceci est réalisé lorsque deux tracés de contour se rencontrent.F( β) + g( β)
La pénalité plus importante, les contours bleus "plus étroits" que nous obtenons, puis les parcelles se rencontrent en un point plus proche de zéro. Et vice-versa: plus la pénalité est petite, plus les contours s'élargissent et l'intersection des tracés bleus et rouges se rapproche du centre du cercle rouge (solution non pénalisée).
Et suit maintenant une chose intéressante qui m'explique grandement la différence entre la régression de crête et LASSO: dans le cas de LASSO, deux tracés de contour se rencontreront probablement là où se trouve le coin du régularisateur ( ou ). En cas de régression de crête, ce n'est presque jamais le cas.β1= 0 β2= 0
C'est pourquoi LASSO nous donne une solution clairsemée, rendant certains paramètres exactement égaux à .0
J'espère que cela expliquera une certaine intuition sur le fonctionnement de la régression pénalisée dans l'espace des paramètres.
la source
L'intuition que j'ai est la suivante: dans le cas des moindres carrés, la matrice chapeau est une projection orthogonale donc idempotente. Dans le cas pénalisé, la matrice du chapeau n'est plus idempotente. En fait, en l'appliquant infiniment de fois, les coefficients seront réduits à l'origine. En revanche, les coefficients doivent encore se situer dans la plage des prédicteurs, il s'agit donc toujours d'une projection, bien qu'elle ne soit pas orthogonale. L'ampleur du facteur pénalisant et le type de norme contrôlent la distance et la direction du retrait vers l'origine.
la source