Régularisation induisant la rareté pour les matrices stochastiques

10

Il est bien connu (par exemple dans le domaine de la détection compressive) que la norme "induit la rareté", en ce sens que si nous minimisons la fonction (pour la matrice fixe et le vecteur ) pour assez grand \ lambda> 0 , il est probable que de nombreux choix de A , \ vec {b} et \ lambda aient de nombreuses entrées exactement nulles dans le \ vec {x} résultant .L1Ab

fA,b(x)=Axb22+λx1
λ>0Abλx

Mais si nous minimisons fA,b à la condition que les entrées de x soient positives et totalisent 1 , alors le terme L1 n'a aucun effet (car x1=1 par fiat). Existe-t-il un régularisateur de type L_1 analogue L1qui fonctionne dans ce cas pour encourager que le \ vec {x} résultant xsoit rare?

Justin Solomon
la source
Pourriez-vous développer "alors le terme L1 n'a aucun effet (parce que ||x||1=1 par fiat)"?
Cam.Davidson.Pilon
2
@ Cam.Davidson.Pilon: xi0 et ixi=1 implique x1=1 . :)
cardinal
1
Justin: Quelques détails supplémentaires pourraient donner une meilleure chance à une réponse utile. Voici quelques questions qui se posent immédiatement à la lecture de votre description: ( 1 ) Où est la "matrice stochastique" dans tout cela? Vous semblez seulement décrire une situation impliquant un vecteur stochastique . Il peut s'agir simplement de lignes individuelles de votre matrice stochastique, ou une autre structure peut devenir évidente une fois que plus de détails sont présents. ( 2 ) Vous voulez que les probabilités elles-mêmes soient rares, ou peut-être rares dans une base appropriée? Si le premier, pourquoi? (Est-ce une marche aléatoire sur un graphique pondéré (clairsemé)?)
Cardinal
Pourquoi demandez-vous que les entrées de soient positives ? Devriez-vous plutôt exiger qu'ils soient non négatifs ? De plus, avez-vous envisagé de re-paramétrer pour éliminer la contrainte (en supposant que vous voulez dire non négatif)? En d'autres termes, essayez xi=exp(wi)xxi=exp(wi)jexp(wj)
jrennie
1
@jrennie: Compte tenu du contexte, par positif, Justin voulait sûrement dire non négatif .
Cardinal

Réponses:

2

Une méthode générale pour créer des solutions clairsemées est par estimation MAP avec un a priori normal nul avec une variance inconnue.

p(xi|σi2)N(0,σi2)

Si vous attribuez ensuite un avant à qui a un mode à zéro, le mode postérieur est généralement clairsemé. Le découle de cette approche en prenant une distribution de mélange exponentielle. L 1σi2L1

p(σi2|λ)Expo(λ22)

Ensuite, vous obtenez

log[p(xi|λ)]=λ|xi|+log[λ2]

Certaines alternatives sont la double pareto généralisée, la moitié cauchy, la bêta inversée. Dans un certain sens, ils sont meilleurs que le lasso car ils ne réduisent pas les grandes valeurs. En fait, je suis presque sûr que la double pareto généralisée peut être écrite comme un mélange d'exponentielles. C'est-à-dire que nous écrivons puis un gamma avant . On a: p ( λ i | α β )λ=λip(λi|αβ)

p(xi|αβ)=α2β(1+|xi|β)(α+1)

Notez que j'ai inclus des constantes de normalisation, car elles aident à choisir de bons paramètres globaux. Maintenant, si nous appliquons la restriction de plage, nous avons un problème plus compliqué, car nous devons renormaliser sur le simplexe.

Une autre caractéristique générique des pénalités induisant une faible densité est qu'elles ne sont pas différenciables à zéro. Habituellement, c'est parce que les limites gauche et droite sont de signe opposé.

Ceci est basé sur le brillant travail de Nicolas Polson et James Scott sur les représentations des mélanges de moyennes de variance qu'ils utilisent pour développer TIRLS - une extension massive des moindres carrés à une très grande classe de combinaisons perte-pénalité.

Comme alternative, vous pouvez utiliser un a priori qui est défini sur le simplexe, mais qui a des modes dans les distributions marginales à zéro. Un exemple est la distribution dirichlet avec tous les paramètres entre 0 et 1. La pénalité implicite ressemblerait à:

i=1n1(ai1)log(xi)(an1)log(1i=1n1xi)

Où . Cependant, vous devrez être prudent dans l'optimisation numérique car la pénalité a des singularités. Un processus d'estimation plus robuste consiste à utiliser la moyenne postérieure. Bien que vous perdiez la rareté exacte, vous obtiendrez de nombreux moyens postérieurs proches de zéro.0<ai<1

probabilitéislogique
la source
Cela semble être une idée très intéressante, même si nous ne sommes pas tout à fait équipés pour comprendre les détails! Si je comprends bien, l'idée est que le priori vient d'une hypothèse selon laquelle les variables suivent une distribution exponentielle autour de 0. Donc, nous avons besoin d'une distribution centrée sur 0 qui fonctionne mieux pour nos variables. Mais, il n'y a pas de gagnant clair, non? Y a-t-il des distributions sur les «variables positives qui totalisent 1»? Merci de votre aide! L1
Justin Solomon
Pour obtenir une rareté, vous avez besoin d'une distribution avec un mode à zéro. Et la distribution dirichlet est sur le simplexe, qui est précisément ces distributions qui totalisent 1. Une autre classe générale est logistic-normal ou logistic t où vous avez une distribution normale / t pourlog[xixn]
probabilislogic
Ah, le Dirichlet semble assez intéressant dans la mesure où c'est sur le simplex que nous nous intéressons, comme vous le mentionnez! Il semble que les deux autres que vous mentionnez pourraient introduire une certaine asymétrie sur , non? Mon collaborateur et moi travaillerons à travers la fonction énergétique impliquée par Dirichlet demain et nous rendrons compte! Un grand merci pour votre aide patiente jusqu'à présent - c'est loin de notre domaine habituel mais si nous pouvons le déterminer, les résultats pourraient constituer une avancée considérable dans le traitement de la géométrie! [Et bien sûr, nous vous accorderons tout le crédit nécessaire!]xn
Justin Solomon
1

Deux options:

  1. Utilisez une pénalité sur . L'inconvénient évident est qu'il n'est pas convexe et donc difficile à optimiser.xL0x
  2. Reparameterize, et utiliser une pénalité sur le nouveau vecteur de paramètres (naturel),. Cela encouragera les événements à être également probables à moins qu'il y ait une bonne raison pour qu'ils ne le soient pas.wxi=exp(wi)jexp(wj)w
jrennie
la source
Pouvez-vous expliquer comment votre reparamétrisation encourage la rareté? Il semble plutôt garantir le contraire.
cardinal
Il encourage la rareté dans ce qui correspond à encourager différentes entrées de à avoir la même valeur. xwx
jrennie
Oui, je comprends ça. Mais, ces valeurs ne seront pas nulles. Si nous prenons l'OP littéralement, cela n'aidera pas et sera en fait "blessé" (dans un sens). Mais, il est possible que le PO s'intéresse à la rareté par rapport à une autre base, auquel cas, ce serait l'une d'entre elles. :)
cardinal
C'est pourquoi j'ai fourni deux options dans ma réponse --- Je pense qu'une pénalité non convexe serait nécessaire pour encourager les zéros dans . Comme vous l'avez noté, Justin ne signifie probablement pas littéralement ce qu'il a dit. x
jrennie
Oui, malheureusement, nous avons besoin de clarté dans la base de l'identité. Donc, dans ce cas, nous voudrions autant de que possible pour égaler . - wi
Justin Solomon
1

La prémisse de la question n'est que partiellement correcte. S'il est vrai que la norme n'est qu'une constante sous la contrainte, le problème d'optimisation des contraintes pourrait très bien avoir une solution clairsemée.L1

Cependant, la solution n'est pas affectée par le choix de , il existe donc une solution clairsemée ou non. Une autre question est de savoir comment trouver la solution. Un optimiseur quadratique standard sous contraintes linéaires peut, bien sûr, être utilisé, mais les algorithmes de descente de coordonnées populaires ne peuvent pas être utilisés dès le départ.λ

Une suggestion pourrait être d'optimiser sous une contrainte de positivité uniquement, pour différents , puis de renormaliser la solution pour avoir -norm 1. Un algorithme de descente de coordonnées devrait, je crois, être facilement modifiable pour calculer la solution sous une positivité contrainte.L 1λL1

NRH
la source
0

Je peux imaginer trois méthodes.

  • Méthode bayésienne: introduction d'une distribution a priori à moyenne nulle et utilisation de la probabilité de type II pour estimer les paramètres et les hyper-paramètres.

  • Utilisez plutôt comme régularisation. Ce n'est cependant pas différenciable. Vous pouvez utiliser une norme d'ordre élevé pour l'approcher.

  • Utilisez .i=1logxi

En fait, les première et troisième méthodes sont les mêmes.

Han Zhang
la source