Pourquoi la régression de crête est-elle appelée «crête», pourquoi est-elle nécessaire et que se passe-t-il lorsque
71
Ridge estimation du coefficient de régression β R sont les valeurs qui minimisent leβ^R
RSS+λ∑j=1pβ2j.
Mes questions sont:
Si λ=0 , on voit que l'expression ci-dessus se réduit au RSS habituel. Si λ→∞ ? Je ne comprends pas l'explication du manuel du comportement des coefficients.
Pour aider à comprendre le concept derrière un terme particulier, pourquoi ce terme s'appelle-t-il RIDGE Regression? (Pourquoi crête?) Et qu'est-ce qui aurait pu se passer avec la régression habituelle / commune selon laquelle il est nécessaire d'introduire un nouveau concept appelé régression de crête?
Je vais donner une idée intuitive de la raison pour laquelle nous parlons d'abord de crêtes (ce qui suggère également pourquoi c'est nécessaire), puis abordons un peu d'histoire. Le premier est adapté de ma réponse ici :
β−2logL
La régression de crête "corrige" la crête - elle ajoute une pénalité qui transforme la crête en une belle crête dans l'espace de vraisemblance, ce qui équivaut à une belle dépression dans le critère que nous minimisons:
L'histoire derrière le nom est un peu plus compliquée. En 1959, AE Hoerl [1] a introduit l' analyse des crêtes pour la méthodologie de la surface de réponse et très rapidement [2] s'est adapté au traitement de la multicollinéarité dans la régression («régression de crête»). Voir, par exemple, la discussion de RW Hoerl dans [3], où elle décrit l’utilisation par Hoerl (AE non RW) de tracés de contour de la surface de réponse * pour identifier l’endroit où se diriger pour trouver les optima locaux (où l’on dirige crête'). Dans les problèmes mal conditionnés, la question d'une très longue crête se pose, et les connaissances et la méthodologie issues de l'analyse de la crête sont adaptées au problème lié à la vraisemblance / RSS dans la régression, produisant ainsi une régression de la crête.
* Vous pouvez voir ici des exemples de courbes de contour de surface de réponse (dans le cas d'une réponse quadratique) (Fig. 3.9-3.12).
XTX
Pour plus d'informations sur la nécessité de la régression de crête, voir le premier lien sous l'élément de liste 2 ci-dessus.
Références:
[1]: Hoerl, AE (1959). Solution optimale de nombreuses équations à variables. Chemical Engineering Progress ,
55 (11) 69-78.
[2]: Hoerl, AE (1962). Applications de l'analyse des crêtes aux problèmes de régression. Chemical Engineering Progress ,
58 (3) 54-59.
[3] Hoerl, RW (1985). Analyse de la crête 25 ans plus tard.
Statisticien américain , 39 (3), 186-192
Ceci est extrêmement utile. Oui, quand je demandais des idées, je cherchais de l’intuition. Bien sûr, les mathématiques sont importantes, mais je cherchais également des explications conceptuelles, car il y avait certaines parties lorsque les mathématiques étaient juste au-delà de moi. Merci encore.
cgo
Pourquoi avez-vous le mot "pondéré" au point 1?
amibe dit de réintégrer Monica
1
C'est une bonne question; il n’est pas nécessaire qu’elle soit pondérée à moins que la régression initiale l’ait été. J'ai enlevé l'adjectif. Il est également possible de l'écrire sous forme de régression pondérée (ce qui, si vous le faites déjà, pourrait être très légèrement plus facile à gérer).
Glen_b
36
λ→∞ββ=0
(Mise à jour: veuillez consulter la réponse de Glen_b. Ce n'est pas la raison historique correcte!)
Nous voyons donc que si nous mettons un prior normal avec la moyenne 0 et la variance sur notre vecteur , la valeur de qui maximise la postérieure est l'estimateur de crête. Notez que ceci considère davantage comme un paramètre fréquentiste car il n'y a pas de précédent, mais on ne le sait pas, donc ce n'est pas complètement bayésien.σ2λββσ2
Edit: vous avez demandé à propos du cas où . Nous savons qu'un hyperplan dans est défini par exactement points. Si nous exécutons une régression linéaire et nous interpolons exactement nos données et nous obtenons . C’est une solution, mais c’est une solution terrible: notre performance sur les données futures sera très probablement catastrophique. Supposons maintenant que : il n'y a plus d'hyperplan unique défini par ces points. Nous pouvons adapter une multitude d'hyperplans, chacun avec 0 somme de carrés résiduelle.R p p n = p | | y - X ß | | 2 = 0 n < pn<pRppn=p||y−Xβ^||2=0n<p
Un exemple très simple: supposons que . Ensuite, nous aurons juste une ligne entre ces deux points. Supposons maintenant que mais que . Imaginez un avion avec ces deux points. Nous pouvons faire pivoter cet avion sans changer le fait que ces deux points y sont, donc il y a un nombre incalculable de modèles, tous avec une valeur parfaite de notre fonction objectif, de sorte que même au-delà de la question de la suréquipement, il est difficile de choisir lequel choisir.n = 2 p = 3n=p=2n=2p=3
En guise de commentaire final (suggestion de @ gung), LASSO (avec une pénalité ) est couramment utilisé pour les problèmes de grande dimension, car il effectue automatiquement une sélection variable (définit certains ). Heureusement, il s’avère que LASSO équivaut à trouver le mode postérieur lorsqu’on utilise un double exponentiel (ou Laplace) antérieur sur le vecteur . Le LASSO présente également certaines limites, telles que saturer à prédicteurs et ne pas gérer de manière idéale des groupes de prédicteurs corrélés, de sorte que le réseau élastique (combinaison convexe de pénalités et ) puisse être utilisé.β j = 0 β n L 1 L 2L1βj=0βnL1L2
(+1) Votre réponse pourrait être améliorée en développant le lien entre la régression bayésienne et la crête.
Réintégrer Monica
1
Va faire - en le tapant maintenant.
Jld
4
OLS ne peut pas trouver une solution unique lorsque car la matrice de conception n'est pas au rang complet. C'est une question très commune; veuillez rechercher dans les archives une description des raisons pour lesquelles cela ne fonctionne pas. n<p
Rétablir Monica
2
@ cgo: l'explication de user777 et la suggestion de recherche sont bonnes, mais par souci d'exhaustivité, j'ai également ajouté une explication intuitive (espérons-le).
Jld
5
+1, bonne réponse. En ce qui concerne <p, vous pouvez mentionner que LASSO est généralement utilisé dans ce cas et qu’il est étroitement lié à RR.
(Mise à jour: veuillez consulter la réponse de Glen_b. Ce n'est pas la raison historique correcte!)
qui devrait avoir l'air assez familier.
Nous voyons donc que si nous mettons un prior normal avec la moyenne 0 et la variance sur notre vecteur , la valeur de qui maximise la postérieure est l'estimateur de crête. Notez que ceci considère davantage comme un paramètre fréquentiste car il n'y a pas de précédent, mais on ne le sait pas, donc ce n'est pas complètement bayésien.σ2λ β β σ2
Edit: vous avez demandé à propos du cas où . Nous savons qu'un hyperplan dans est défini par exactement points. Si nous exécutons une régression linéaire et nous interpolons exactement nos données et nous obtenons . C’est une solution, mais c’est une solution terrible: notre performance sur les données futures sera très probablement catastrophique. Supposons maintenant que : il n'y a plus d'hyperplan unique défini par ces points. Nous pouvons adapter une multitude d'hyperplans, chacun avec 0 somme de carrés résiduelle.R p p n = p | | y - X ß | | 2 = 0 n < pn<p Rp p n=p ||y−Xβ^||2=0 n<p
Un exemple très simple: supposons que . Ensuite, nous aurons juste une ligne entre ces deux points. Supposons maintenant que mais que . Imaginez un avion avec ces deux points. Nous pouvons faire pivoter cet avion sans changer le fait que ces deux points y sont, donc il y a un nombre incalculable de modèles, tous avec une valeur parfaite de notre fonction objectif, de sorte que même au-delà de la question de la suréquipement, il est difficile de choisir lequel choisir.n = 2 p = 3n=p=2 n=2 p=3
En guise de commentaire final (suggestion de @ gung), LASSO (avec une pénalité ) est couramment utilisé pour les problèmes de grande dimension, car il effectue automatiquement une sélection variable (définit certains ). Heureusement, il s’avère que LASSO équivaut à trouver le mode postérieur lorsqu’on utilise un double exponentiel (ou Laplace) antérieur sur le vecteur . Le LASSO présente également certaines limites, telles que saturer à prédicteurs et ne pas gérer de manière idéale des groupes de prédicteurs corrélés, de sorte que le réseau élastique (combinaison convexe de pénalités et ) puisse être utilisé.β j = 0 β n L 1 L 2L1 βj=0 β n L1 L2
la source