Étude empirique de la régularisation de la norme et de la norme

Il existe de nombreuses méthodes pour effectuer la régularisation - la régularisation basée sur la norme , et par exemple. Selon Friedman Hastie & Tibsharani , le meilleur régularisateur dépend du problème: à savoir la nature de la véritable fonction cible, la base particulière utilisée, le rapport signal / bruit et la taille de l'échantillon. $L_0$ $L_1$ $L_2$

Existe-t-il des recherches empiriques comparant les méthodes et les performances des différentes méthodes de régularisation?

r regression machine-learning regularization Ram Ahluwalia
la source

Les trois auteurs sont à Stanford. Pourquoi ne pas demander directement à l'un d'eux. Rob Tibshirani est très accessible, tout comme Jerry Friedman. Friedman a fait beaucoup de recherches originales sur la régression régularisée. Il peut donc être le meilleur choix.

Michael R. Chernick

Bien sûr, je ne peux pas dire que je lui ai donné la réponse. Mais le diriger vers la meilleure personne pour répondre à la question semble être plus qu'un simple commentaire ordinaire qui tente généralement de clarifier. Je me demande souvent pourquoi les gens posent toujours leurs questions ici alors qu'ils peuvent aller directement à la source. Je suis presque sûr que Friedman peut y répondre et il est tellement logique d'aller à la source, surtout quand il s'agit d'une question écrite dans leur livre. Je pourrais aller à la source pour obtenir la réponse, puis la présenter ici.

Michael R. Chernick

Les gens sont intimidés par le statut de la source en tant qu'autorité, supposent que la source est beaucoup trop occupée pour traiter leur (à leur avis) question mineure et sans importance, ont peur de se montrer grossière "pourquoi me dérangez-vous avec ça?" réponse ... Il est beaucoup plus facile d'aller à la source si vous aussi êtes une source, peut-être pour d'autres choses, sur le terrain.

jbowman

@jbowman Oui. Je comprends que. Mais vous remarquerez que je connais Tibshirani et Friedman à titre personnel et j'ai assuré à l'Op que leur crainte n'était pas fondée avec ces auteurs. Je n'ai pas mentionné Hastie parce que je ne le connais pas aussi bien que les autres.,

Michael R. Chernick

@chl Je ne pense pas que nous puissions réellement nous attendre à les voir rejoindre le site. Cela demande trop de temps aux professeurs occupés à quelques exceptions près comme Frank Harrell et peut-être d'autres qui utilisent des pseudonymes. Mais je pense qu'ils prendront le temps de répondre aux questions spécifiques qui leur seront directement adressées.

Michael R. Chernick

Réponses:

Considérons un modèle linéaire pénalisé.

La pénalité est peu utilisée et est souvent remplacée par la norme qui est mathématiquement plus flexible. $L_0$ $L_1$

La régularisation a la propriété de construire un modèle clairsemé. Cela signifie que seules quelques variables auront un coefficient de régression non nul. Il est particulièrement utilisé si vous supposez que seules quelques variables ont un impact réel sur les variables de sortie. S'il existe des variables très corrélées, une seule d'entre elles sera sélectionnée avec un coefficient différent de 0. $L_1$

La pénalité est comme si vous ajoutez une valeur sur la diagonale de la matrice d'entrée. Il peut être utilisé par exemple dans des situations où le nombre de variables est supérieur au nombre d'échantillons. Afin d'obtenir une matrice carrée. Avec la pénalité de norme , toutes les variables ont un coefficient de régression non nul. $L_2$ $\lambda$ $L_2$

Donbeo
la source

En tant que contribution supplémentaire, en particulier en ce qui concerne la norme , je ne sais pas si je dirais que c'est parce qu'elle n'est pas "mathématiquement flexible"; Je pense que c'est principalement parce que l'optimisation est d'un coût prohibitif (il existe des moyens d'essayer de le faire, mais je ne pense pas que quoi que ce soit fonctionne en général). Je connais une figure de "gros fromage" qui travaille dans la sélection variable qui a dit qu'il aimerait utiliser une pénalité et que le calcul est la seule raison pour laquelle il ne le fait pas.

L_{0}

$L_0$

L_{0}

$L_0$

mec

Quelques ajouts à la réponse de @Donbeo

1) La norme L0 n'est pas une norme au vrai sens. C'est le nombre d'entrées non nulles dans un vecteur. Cette norme n'est clairement pas une norme convexe et n'est pas une norme au vrai sens. Par conséquent, vous pourriez voir des termes comme «norme» L0. Il devient un problème combinatoire et est donc NP difficile.

2) La norme L1 donne une solution clairsemée (recherchez le LASSO). Candes, Donoho, etc., ont des résultats déterminants qui montrent que si la vraie solution est vraiment rare, les méthodes pénalisées L1 la récupéreront. Si la solution sous-jacente n'est pas rare, vous n'obtiendrez pas la solution sous-jacente dans les cas où p >> n. Il y a de bons résultats qui montrent que le Lasso est cohérent.

3) Il existe des méthodes comme le filet élastique de Zhou et Hastie qui combinent les solutions pénalisées L2 et L1.

Sid
la source