ℓp normes sont des fonctions qui prennent des vecteurs et renvoient des nombres non négatifs. Ils sont définis comme Dans le cas où p = 2 , c'est appelé la norme euclidienne . Vous pouvez définir la distance euclidienne comme \ | \ vec x - \ vec y \ | _2 . Lorsque p = \ infty , cela signifie simplement \ | \ vec x \ | _ \ infty = \ sup_i x_i (ou \ max_i x_i ). Strictement parlant, p doit être au moins un pour que \ | \ vec x \ | _p soit une norme . Si 0 <p <1 , alors \ | \ vec x \ | _p p = 2
∥x⃗ ∥p=(∑i=1d|xi|p)1/p
p=2∥x⃗ −y⃗ ∥2p=∞∥x⃗ ∥∞=supiximaxixip∥x⃗ ∥p0<p<1∥x⃗ ∥p n'est pas vraiment une norme, car les normes doivent satisfaire l'inégalité du triangle.
(Il existe également des normes , qui sont définies de manière analogue, à l'exception des fonctions plutôt que des vecteurs ou des séquences - en réalité, c'est la même chose, car les vecteurs sont des fonctions à domaines finis.)Lp
Je ne connais aucune utilisation d'une norme dans une application d'apprentissage automatique où , sauf où . Habituellement, vous voyez ou , ou parfois où vous voulez détendre le cas ; n'est pas strictement convexe dans , mais est, pour . Cela peut faciliter la recherche de la solution "plus facilement" dans certains cas.p>2p=∞p=2p=11<p<2p=1∥x⃗ ∥1x⃗ ∥x⃗ ∥p1<p<∞
Dans le contexte de la régularisation, si vous ajoutez à votre fonction objectif, ce que vous dites, c'est que vous vous attendez à ce que soit clairsemé , c'est-à-dire principalement composé de zéros. C'est un peu technique, mais fondamentalement, s'il existe une solution dense , il y a probablement une solution plus clairsemée avec la même norme. Si vous vous attendez à ce que votre solution soit dense, vous pouvez ajouter à votre objectif, car il est alors beaucoup plus facile de travailler avec sa dérivée. Les deux servent à empêcher la solution d'avoir trop de poids.∥x⃗ ∥1x⃗ ∥x⃗ ∥22
La norme mixte intervient lorsque vous essayez d'intégrer plusieurs sources. Fondamentalement, vous voulez que le vecteur de solution soit composé de plusieurs pièces , où est l'indice d'une source. La n'est que la normale de toutes les normales recueillies dans un vecteur. C'est-à-dire,x⃗ jjℓp,qqp
∥x⃗ ∥p,q=⎛⎝∑j=1m(∑i=1d|xji|p)q/p⎞⎠1/q
Le but de ceci n'est pas de "surséparer" un ensemble de solutions, par exemple en utilisant . Les pièces individuelles sont rares, mais vous ne risquez pas de nuancer un vecteur de solution entier en prenant la norme de toutes les solutions. Vous utilisez donc plutôt la norme à l'extérieur.∥x⃗ ∥1,212
J'espère que cela pourra aider.
Consultez cet article pour plus de détails.