Normes

13

Une norme $L_1$ est unique (au moins en partie) car $p=1$ est à la frontière entre non convexe et convexe. Une norme $L_1$ est la norme convexe «la plus clairsemée» (non?).

Je comprends que la norme euclidienne a ses racines dans la géométrie et elle a une interprétation claire lorsque les dimensions ont les mêmes unités. Mais je ne comprends pas pourquoi il est utilisé préférentiellement par rapport aux autres nombres réels : ? ? Pourquoi ne pas utiliser toute la gamme continue comme hyperparamètre? $p=2$ $p>1$ $p=1.5$ $p=\pi$

Qu'est-ce que je rate?

regression regularization sparse Trenton
la source

1

"Utilisé de préférence" dans quelles applications, en particulier? Les normes sont omniprésentes en mathématiques, statistiques et physique; dans certains sous-domaines, certaines normes sont plus répandues que d'autres parce qu'elles sont plus significatives ou plus simples à utiliser. Pour cette raison, les réponses à cette question seront probablement nombreuses et variées (si variées, en effet, que personnellement je trouve cela sans réponse). J'ai donc fait de cet article un "Community Wiki" (CW); mais si vous avez une application spécifique ou un champ étroit en tête, alors en rendant votre question plus précise, il devrait être possible de supprimer le statut CW.

whuber

12

Une explication plus mathématique est que l'espace , composé de toutes les séries qui convergent en p-norme, n'est que Hilbert avec et aucune autre valeur. Cela signifie que cet espace est complet et que la norme sur cet espace peut être induite par un produit intérieur (pensez au produit scalaire familier dans $l^p$ $p=2$ ), donc c'est un peu plus agréable de travailler avec. $R^n$

JohnK
la source

4

Voici quelques raisons:

Il est lié d'une manière très spéciale au produit intérieur: c'est sa propre norme double (c'est-à-dire qu'il est "auto-dual").
Cela signifie que, si vous considérez tous les vecteurs à l'intérieur de la boule d'unité , leur produit intérieur maximal avec tout vecteur est la norme de lui-même. De façon moins imaginaire, il satisfait la propriété que . Aucune autre norme se comporte de cette façon. $\ell_2$ $z$ $\ell_2$ $z$ $\lVert x\rVert_2^2 = x \cdot x$ $\ell_p$
Il a un gradient lisse très pratique:
$\nabla_{x} ‖ f (x) ‖_{2}^{2} = 2 \nabla f (x) \cdot f (x)$ $\nabla_x\ \lVert f(x)\rVert_2^2 = 2 \ \nabla f(x) \cdot f(x)$ Vous ne pouvez vraiment pas battre ça!

user541686
la source

2

Bien qu'il puisse y avoir beaucoup plus de raisons, AFAIK p = 2 est préféré pour les raisons suivantes:

Mesure de similitude / dissimilarité: Pour p = 2, la norme euclidienne donne une mesure de similitude ou de dissimilarité entre deux vecteurs qui peut ensuite être utilisée pour obtenir un meilleur aperçu des données. Des réponses plus détaillées à ce sujet peuvent être trouvées ici .
Régularisation: La norme L2 est utilisée pour la régularisation dans l'apprentissage automatique et est préférée pour deux raisons: 1) Elle est facilement différenciable 2) Avec la régularisation L2, les poids ont tendance à diminuer proportionnellement aux poids. La régularisation L2 pénalise donc davantage les poids les plus importants par rapport aux poids plus petits.

enterML
la source

1

Les erreurs quadratiques sous les modèles linéaires sont souvent préférées en raison de:

la relation à l'orthogonalité, qui se comporte bien par rapport à certains phénomènes aléatoires considérés comme du bruit (non corrélés)
$L_1$
il fournit des algorithmes d'optimisation exploitables lorsque la dérivée se transforme en systèmes linéaires

$L_1$ $\ell_1$ $\ell_p$ $0<p<1$ pour imposer plus de clarté, au prix de "perdre" la convexité.

$\ell_0$ $\ell_0$ $0$ $\ell_p$ $1$ $\ell_p \to \ell_0$ $p\to 0$

$\ell_1 / \ell_2$ $\ell_1 / \ell_2$

Laurent Duval
la source

Normes

Réponses: