Dans la régression Ridge et LASSO, pourquoi plus petit

8

Quelqu'un peut-il fournir une vue intuitive sur pourquoi il est préférable d'avoir une version bêta plus petite?

Pour LASSO, je peux comprendre cela, il y a un composant de sélection de fonctionnalités ici. Moins de fonctionnalités rendent le modèle plus simple et donc moins susceptible d'être sur-ajusté.

Cependant, pour l'arête, toutes les caractéristiques (facteurs) sont conservées. Seules les valeurs sont plus petites (au sens de la norme L2). Comment cela simplifie-t-il le modèle?

Quelqu'un peut-il fournir une vue intuitive à ce sujet?

user152503
la source
plus petit n'est pas nécessairement meilleur: rétrécir vers n'importe quel espace réduit le risque, en particulier dans le voisinage de cet espace. Ces estimateurs que vous mentionnez se trouvent justement prendre cet espace pour être à l'origine.
user795305

Réponses:

9

TL; DR - Le même principe s'applique à la fois à LASSO et à Ridge

Moins de fonctionnalités rendent le modèle plus simple et donc moins susceptible d'être sur-ajusté

C'est la même intuition avec la régression de crête - nous empêchons le modèle de sur-ajuster les données, mais au lieu de cibler de petites variables potentiellement parasites (qui sont réduites à zéro dans LASSO), nous ciblons plutôt les plus gros coefficients qui pourraient surestimer la cas pour leurs variables respectives.

La pénalité L2 empêche généralement le modèle d'accorder «trop» d'importance à une seule variable, car les grands coefficients sont plus pénalisés que les petits.

Cela peut ne pas sembler "simplifier" le modèle, mais cela fait une tâche similaire d'empêcher le modèle de sur-ajuster aux données disponibles.

Un exemple pour construire l'intuition

Prenons un exemple concret - vous essayez peut-être de prévoir les réadmissions à l'hôpital en fonction des caractéristiques des patients.

Dans ce cas, vous pourriez avoir une variable relativement rare (telle qu'une maladie rare) qui se trouve être très fortement corrélée dans votre ensemble de formation avec la réadmission. Dans un ensemble de données de 10 000 patients, vous pourriez ne voir cette maladie que 10 fois, avec 9 réadmissions (un exemple extrême pour être sûr)

Par conséquent, le coefficient pourrait être massif par rapport au coefficient d'autres variables. En minimisant à la fois le MSE et la pénalité L2, ce serait un bon candidat pour que la régression de crête se "rétrécisse" vers une valeur plus petite, car elle est rare (donc n'a pas autant d'impact sur le MSE), et une valeur de coefficient extrême.

Michael Oberst
la source
4

Il n'y a aucune garantie qu'avoir des poids plus petits est en fait mieux. Le travail de régression du lasso et des crêtes en imposant des connaissances / hypothèses / contraintes préalables à la solution. Cette approche fonctionnera bien si les contraintes / hypothèses / contraintes antérieures sont bien adaptées à la distribution réelle qui a généré les données, et peuvent ne pas fonctionner correctement dans le cas contraire. En ce qui concerne la simplicité / complexité, ce ne sont pas les modèles individuels qui sont plus simples ou plus complexes. C'est plutôt la famille de modèles à l'étude.

D'un point de vue géométrique, le lasso et la régression des crêtes imposent des contraintes sur les poids. Par exemple, la pénalité commune / forme lagrangienne de régression de crête:

minβyXβ22+λβ22

peut être réécrit sous la forme d'une contrainte équivalente:

minβyXβ22s.t. β22c

Cela montre clairement que la régression des crêtes contraint les poids à se situer dans une hypersphère dont le rayon est régi par le paramètre de régularisation. De même, le lasso contraint les poids à se trouver dans un polytope dont la taille est régie par le paramètre de régularisation. Ces contraintes signifient que la plupart de l'espace des paramètres d'origine est hors limites et nous recherchons les poids optimaux dans un sous-espace beaucoup plus petit. Ce sous-espace plus petit peut être considéré comme moins «complexe» que l'espace complet.

D'un point de vue bayésien, on peut penser à la distribution postérieure sur tous les choix possibles de poids. Le lasso et la régression de crête sont équivalents à l'estimation MAP après avoir placé un a priori sur les poids (le lasso utilise un a priori laplacien et la régression de crête utilise un a priori gaussien). Un postérieur plus étroit correspond à une plus grande restriction et moins de complexité, car une densité postérieure élevée est donnée à un plus petit ensemble de paramètres. Par exemple, multiplier la fonction de vraisemblance par un a priori gaussien étroit (ce qui correspond à une pénalité de crête importante) produit un postérieur plus étroit.

L'une des principales raisons d'imposer des contraintes / priorités est que le choix du modèle optimal dans une famille plus restreinte est moins susceptible de s'adapter que de le choisir dans une famille moins restreinte. En effet, la famille moins restreinte offre «plus» de façons d'ajuster les données, et il est de plus en plus probable que l'une d'entre elles puisse s'adapter aux fluctuations aléatoires de l'ensemble de formation. Pour un traitement plus formel, voir le compromis biais-variance . Cela ne signifie pas nécessairement que le choix d'un modèle dans une famille plus restreinte fonctionnera bien. Pour obtenir de bonnes performances, la famille restreinte contient en fait de bons modèles. Cela signifie que nous devons choisir une priorité / contrainte qui correspond bien au problème spécifique en question.

user20160
la source
(+1) L'idée clé dans ses réponses aux questions des PO semble être le compromis de la variance du biais
user795305
1

Bien que la question demande une explication intuitive, il existe en fait une dérivation rigoureuse de l'erreur quadratique moyenne (MSE) pour la régression de crête qui montre qu'il existe des valeurs de atteignant un meilleur MSE que la régression linéaire.λ

Rappel: Appeler l'estimateur de pour une régression de crête dont le paramètre de rétrécissement est et définit: .MSE(β^)=E[(β^β)(β^β)T]βλ^βλM(λ)=MSE(βλ^)

Par conséquent, est le MSE d'une régression linéaire.M(0)

En suivant ces notes de cours, on peut montrer que:

M(0)M(λ)=λ(XTX+λI)1(2σ²I+λσ²(XTX)1λββT){(XTX+λI)1}T

Les termes sont définis positifs, mais, pour , le terme au milieu est positif aussi. Pour ces valeurs, nous avons , montrant que la régression de crête réduit l'erreur quadratique moyenne.(XTX+λI)1λ<2σ2(βTβ)1M(0)>M(λ)

RUser4512
la source
Bien que l'algèbre soit bonne, vous n'en avez pas besoin pour faire valoir votre point de vue. Étant donné qu'OLS impose la contrainte d'impartialité et que la régression de crête supprime cela, il ne peut jamais en résulter un MSE plus grand que OLS et n'atteindra le même MSE que lorsque sa solution et la solution OLS sont identiques: sinon, il doit avoir un MSE plus petit.
whuber
@whuber Je ne comprends pas l'argument de votre commentaire. Ne peut-on pas facilement trouver un estimateur stupide de qui est biaisé et a un MSE plus élevé que l'estimateur OLS? β
amoeba
@Amoeba Oui, je suppose qu'il y a une subtilité: je suppose implicitement que la perte de régression de crête pour l'infinitésimal est transversale à la perte OLS. Cela implique que pour des arbitrairement petits, il doit y avoir des solutions RR avec un MSE plus petit, à moins que OLS n'atteigne déjà le MSE le plus petit sans biais . λλ
whuber
@whuber En effet, il est évident qu'en assouplissant la contrainte, on ne pouvait que réduire le MSE. Ce théorème garantit que nous atteignons effectivement cette réduction.
RUser4512