Ridge et LASSO ont une structure de covariance?

11

Après avoir lu le chapitre 3 des Éléments de l'apprentissage statistique (Hastie, Tibshrani & Friedman), je me suis demandé s'il était possible de mettre en œuvre les fameuses méthodes de rétrécissement citées sur le titre de cette question étant donné une structure de covariance, c'est-à-dire minimiser la (peut-être plus générale ) quantité

(y-Xβ)TV-1(y-Xβ)+λF(β),   (1)

au lieu de l'habituel Ceci était principalement motivé par le fait que dans mon application particulière, nous avons des variances différentes pour le y

(y-Xβ)(y-Xβ)+λF(β).            (2)
y(et parfois même une structure de covariance qui peut être estimée) et j'aimerais les inclure dans la régression. Je l'ai fait pour la régression de crête: au moins avec mon implémentation en Python / C, je vois qu'il y a des différences importantes dans les chemins que tracent les coefficients, ce qui est également notable lorsque l'on compare les courbes de validation croisée dans les deux cas.

Je me préparais maintenant à essayer d'implémenter le LASSO via la régression du moindre angle, mais pour ce faire, je dois d'abord prouver que toutes ses belles propriétés sont toujours valables lors de la réduction de au lieu de ( 2 ) . Jusqu'à présent, je n'ai vu aucun travail qui fait tout cela, mais il y a quelque temps, j'ai également lu une citation qui disait quelque chose comme " ceux qui ne connaissent pas les statistiques sont condamnés à la redécouvrir " (par Brad Efron, peut-être? ), c'est pourquoi je demande ici en premier (étant donné que je suis un nouveau venu dans la littérature statistique): est-ce déjà fait quelque part pour ces modèles? Est-il implémenté dans R d'une manière ou d'une autre? (y compris la solution et la mise en œuvre de la crête en minimisant ( 1 )(1)(2)(1)au lieu de , qui est ce qui est implémenté dans le code lm.ridge dans R)?(2)

Merci d'avance pour vos réponses!

Néstor
la source
La réponse précédente est également rapportée avec plus de détails dans en.wikipedia.org/wiki/Generalized_least_squares La solution peut être implémentée en utilisant une approche FGLS (Feasible Generalized Least Square)
Nicola Jean

Réponses:

13

V-1=LTL

(y-Xβ)TV-1(y-Xβ)=(Ly-LXβ)T(Ly-LXβ)
LyLX
NRH
la source