Il est bien connu (par exemple dans le domaine de la détection compressive) que la norme "induit la rareté", en ce sens que si nous minimisons la fonction (pour la matrice fixe et le vecteur ) pour assez grand \ lambda> 0 , il est probable que de nombreux choix de A , \ vec {b} et \ lambda aient de nombreuses entrées exactement nulles dans le \ vec {x} résultant .
Mais si nous minimisons à la condition que les entrées de soient positives et totalisent , alors le terme n'a aucun effet (car par fiat). Existe-t-il un régularisateur de type L_1 analogue qui fonctionne dans ce cas pour encourager que le \ vec {x} résultant soit rare?
regression
matrix
normalization
regularization
sparse
Justin Solomon
la source
la source
Réponses:
Une méthode générale pour créer des solutions clairsemées est par estimation MAP avec un a priori normal nul avec une variance inconnue.
Si vous attribuez ensuite un avant à qui a un mode à zéro, le mode postérieur est généralement clairsemé. Le découle de cette approche en prenant une distribution de mélange exponentielle. L 1σ2i L1
Ensuite, vous obtenez
Certaines alternatives sont la double pareto généralisée, la moitié cauchy, la bêta inversée. Dans un certain sens, ils sont meilleurs que le lasso car ils ne réduisent pas les grandes valeurs. En fait, je suis presque sûr que la double pareto généralisée peut être écrite comme un mélange d'exponentielles. C'est-à-dire que nous écrivons puis un gamma avant . On a: p ( λ i | α β )λ=λi p(λi|αβ)
Notez que j'ai inclus des constantes de normalisation, car elles aident à choisir de bons paramètres globaux. Maintenant, si nous appliquons la restriction de plage, nous avons un problème plus compliqué, car nous devons renormaliser sur le simplexe.
Une autre caractéristique générique des pénalités induisant une faible densité est qu'elles ne sont pas différenciables à zéro. Habituellement, c'est parce que les limites gauche et droite sont de signe opposé.
Ceci est basé sur le brillant travail de Nicolas Polson et James Scott sur les représentations des mélanges de moyennes de variance qu'ils utilisent pour développer TIRLS - une extension massive des moindres carrés à une très grande classe de combinaisons perte-pénalité.
Comme alternative, vous pouvez utiliser un a priori qui est défini sur le simplexe, mais qui a des modes dans les distributions marginales à zéro. Un exemple est la distribution dirichlet avec tous les paramètres entre 0 et 1. La pénalité implicite ressemblerait à:
Où . Cependant, vous devrez être prudent dans l'optimisation numérique car la pénalité a des singularités. Un processus d'estimation plus robuste consiste à utiliser la moyenne postérieure. Bien que vous perdiez la rareté exacte, vous obtiendrez de nombreux moyens postérieurs proches de zéro.0<ai<1
la source
Deux options:
la source
La prémisse de la question n'est que partiellement correcte. S'il est vrai que la norme n'est qu'une constante sous la contrainte, le problème d'optimisation des contraintes pourrait très bien avoir une solution clairsemée.L1
Cependant, la solution n'est pas affectée par le choix de , il existe donc une solution clairsemée ou non. Une autre question est de savoir comment trouver la solution. Un optimiseur quadratique standard sous contraintes linéaires peut, bien sûr, être utilisé, mais les algorithmes de descente de coordonnées populaires ne peuvent pas être utilisés dès le départ.λ
Une suggestion pourrait être d'optimiser sous une contrainte de positivité uniquement, pour différents , puis de renormaliser la solution pour avoir -norm 1. Un algorithme de descente de coordonnées devrait, je crois, être facilement modifiable pour calculer la solution sous une positivité contrainte.L 1λ L1
la source
Je peux imaginer trois méthodes.
Méthode bayésienne: introduction d'une distribution a priori à moyenne nulle et utilisation de la probabilité de type II pour estimer les paramètres et les hyper-paramètres.
Utilisez plutôt comme régularisation. Ce n'est cependant pas différenciable. Vous pouvez utiliser une norme d'ordre élevé pour l'approcher.∥⋅∥∞
Utilisez .−∑i=1logxi
En fait, les première et troisième méthodes sont les mêmes.
la source