Quelqu'un peut-il fournir une vue intuitive sur pourquoi il est préférable d'avoir une version bêta plus petite?
Pour LASSO, je peux comprendre cela, il y a un composant de sélection de fonctionnalités ici. Moins de fonctionnalités rendent le modèle plus simple et donc moins susceptible d'être sur-ajusté.
Cependant, pour l'arête, toutes les caractéristiques (facteurs) sont conservées. Seules les valeurs sont plus petites (au sens de la norme L2). Comment cela simplifie-t-il le modèle?
Quelqu'un peut-il fournir une vue intuitive à ce sujet?
regression
lasso
ridge-regression
shrinkage
user152503
la source
la source
Réponses:
TL; DR - Le même principe s'applique à la fois à LASSO et à Ridge
C'est la même intuition avec la régression de crête - nous empêchons le modèle de sur-ajuster les données, mais au lieu de cibler de petites variables potentiellement parasites (qui sont réduites à zéro dans LASSO), nous ciblons plutôt les plus gros coefficients qui pourraient surestimer la cas pour leurs variables respectives.
La pénalité L2 empêche généralement le modèle d'accorder «trop» d'importance à une seule variable, car les grands coefficients sont plus pénalisés que les petits.
Cela peut ne pas sembler "simplifier" le modèle, mais cela fait une tâche similaire d'empêcher le modèle de sur-ajuster aux données disponibles.
Un exemple pour construire l'intuition
Prenons un exemple concret - vous essayez peut-être de prévoir les réadmissions à l'hôpital en fonction des caractéristiques des patients.
Dans ce cas, vous pourriez avoir une variable relativement rare (telle qu'une maladie rare) qui se trouve être très fortement corrélée dans votre ensemble de formation avec la réadmission. Dans un ensemble de données de 10 000 patients, vous pourriez ne voir cette maladie que 10 fois, avec 9 réadmissions (un exemple extrême pour être sûr)
Par conséquent, le coefficient pourrait être massif par rapport au coefficient d'autres variables. En minimisant à la fois le MSE et la pénalité L2, ce serait un bon candidat pour que la régression de crête se "rétrécisse" vers une valeur plus petite, car elle est rare (donc n'a pas autant d'impact sur le MSE), et une valeur de coefficient extrême.
la source
Il n'y a aucune garantie qu'avoir des poids plus petits est en fait mieux. Le travail de régression du lasso et des crêtes en imposant des connaissances / hypothèses / contraintes préalables à la solution. Cette approche fonctionnera bien si les contraintes / hypothèses / contraintes antérieures sont bien adaptées à la distribution réelle qui a généré les données, et peuvent ne pas fonctionner correctement dans le cas contraire. En ce qui concerne la simplicité / complexité, ce ne sont pas les modèles individuels qui sont plus simples ou plus complexes. C'est plutôt la famille de modèles à l'étude.
D'un point de vue géométrique, le lasso et la régression des crêtes imposent des contraintes sur les poids. Par exemple, la pénalité commune / forme lagrangienne de régression de crête:
peut être réécrit sous la forme d'une contrainte équivalente:
Cela montre clairement que la régression des crêtes contraint les poids à se situer dans une hypersphère dont le rayon est régi par le paramètre de régularisation. De même, le lasso contraint les poids à se trouver dans un polytope dont la taille est régie par le paramètre de régularisation. Ces contraintes signifient que la plupart de l'espace des paramètres d'origine est hors limites et nous recherchons les poids optimaux dans un sous-espace beaucoup plus petit. Ce sous-espace plus petit peut être considéré comme moins «complexe» que l'espace complet.
D'un point de vue bayésien, on peut penser à la distribution postérieure sur tous les choix possibles de poids. Le lasso et la régression de crête sont équivalents à l'estimation MAP après avoir placé un a priori sur les poids (le lasso utilise un a priori laplacien et la régression de crête utilise un a priori gaussien). Un postérieur plus étroit correspond à une plus grande restriction et moins de complexité, car une densité postérieure élevée est donnée à un plus petit ensemble de paramètres. Par exemple, multiplier la fonction de vraisemblance par un a priori gaussien étroit (ce qui correspond à une pénalité de crête importante) produit un postérieur plus étroit.
L'une des principales raisons d'imposer des contraintes / priorités est que le choix du modèle optimal dans une famille plus restreinte est moins susceptible de s'adapter que de le choisir dans une famille moins restreinte. En effet, la famille moins restreinte offre «plus» de façons d'ajuster les données, et il est de plus en plus probable que l'une d'entre elles puisse s'adapter aux fluctuations aléatoires de l'ensemble de formation. Pour un traitement plus formel, voir le compromis biais-variance . Cela ne signifie pas nécessairement que le choix d'un modèle dans une famille plus restreinte fonctionnera bien. Pour obtenir de bonnes performances, la famille restreinte contient en fait de bons modèles. Cela signifie que nous devons choisir une priorité / contrainte qui correspond bien au problème spécifique en question.
la source
Bien que la question demande une explication intuitive, il existe en fait une dérivation rigoureuse de l'erreur quadratique moyenne (MSE) pour la régression de crête qui montre qu'il existe des valeurs de atteignant un meilleur MSE que la régression linéaire.λ
Rappel: Appeler l'estimateur de pour une régression de crête dont le paramètre de rétrécissement est et définit: .MSE(β^)=E[(β^−β)(β^−β)T] βλ^ β λ M(λ)=MSE(βλ^)
Par conséquent, est le MSE d'une régression linéaire.M(0)
En suivant ces notes de cours, on peut montrer que:
Les termes sont définis positifs, mais, pour , le terme au milieu est positif aussi. Pour ces valeurs, nous avons , montrant que la régression de crête réduit l'erreur quadratique moyenne.(XTX+λI)−1 λ<2σ2(βTβ)−1 M(0)>M(λ)
la source