Régularisation induisant la rareté pour les matrices stochastiques

10

Il est bien connu (par exemple dans le domaine de la détection compressive) que la norme "induit la rareté", en ce sens que si nous minimisons la fonction (pour la matrice fixe et le vecteur ) pour assez grand , il est probable que de nombreux choix de , et aient de nombreuses entrées exactement nulles dans le résultant . $L_1$ $A$ $\vec{b}$

f_{A, \vec{b}} (\vec{x}) = ‖ A \vec{x} - \vec{b} ‖_{2}^{2} + λ ‖ \vec{x} ‖_{1}

$f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1$

λ > 0

$\lambda>0$

A

$A$

\vec{b}

$\vec{b}$

λ

$\lambda$

\vec{x}

$\vec{x}$

Mais si nous minimisons $f_{A,\vec{b}}$ à la condition que les entrées de $\vec{x}$ soient positives et totalisent $1$ , alors le terme $L_1$ n'a aucun effet (car $\|\vec{x}\|_1=1$ par fiat). Existe-t-il un régularisateur de type analogue $L_1$ qui fonctionne dans ce cas pour encourager que le résultant $\vec{x}$ soit rare?

regression matrix normalization regularization sparse Justin Solomon
la source

Pourriez-vous développer "alors le terme

L_{1}

$L_1$ n'a aucun effet (parce que

| | x | |_{1} = 1

$||x||_1 = 1$ par fiat)"?

Cam.Davidson.Pilon

2

@ Cam.Davidson.Pilon:

x_{i} \geq 0

$x_i \geq 0$ et

\sum_{i} x_{i} = 1

$\sum_i x_i = 1$ implique

‖ x ‖_{1} = 1

$\|x\|_1 = 1$ . :)

cardinal

1

Justin: Quelques détails supplémentaires pourraient donner une meilleure chance à une réponse utile. Voici quelques questions qui se posent immédiatement à la lecture de votre description: ( 1 ) Où est la "matrice stochastique" dans tout cela? Vous semblez seulement décrire une situation impliquant un vecteur stochastique . Il peut s'agir simplement de lignes individuelles de votre matrice stochastique, ou une autre structure peut devenir évidente une fois que plus de détails sont présents. ( 2 ) Vous voulez que les probabilités elles-mêmes soient rares, ou peut-être rares dans une base appropriée? Si le premier, pourquoi? (Est-ce une marche aléatoire sur un graphique pondéré (clairsemé)?)

Cardinal

Pourquoi demandez-vous que les entrées de soient positives ? Devriez-vous plutôt exiger qu'ils soient non négatifs ? De plus, avez-vous envisagé de re-paramétrer pour éliminer la contrainte (en supposant que vous voulez dire non négatif)? En d'autres termes, essayez

\vec{x}

$\vec x$

x_{i} = \frac{\exp (w_{i})}{\sum_{j} \exp (w_{j})}

$x_i = \frac{\exp(w_i)}{\sum_j \exp(w_j)}$

jrennie

1

@jrennie: Compte tenu du contexte, par positif, Justin voulait sûrement dire non négatif .

Cardinal

2

Une méthode générale pour créer des solutions clairsemées est par estimation MAP avec un a priori normal nul avec une variance inconnue.

p (x_{i} | σ_{i}^{2}) \sim N (0, σ_{i}^{2})

$p(x_i|\sigma_i^2)\sim N(0,\sigma_i^2)$

Si vous attribuez ensuite un avant à qui a un mode à zéro, le mode postérieur est généralement clairsemé. Le découle de cette approche en prenant une distribution de mélange exponentielle. $\sigma_i^2$ $L_1$

p (σ_{i}^{2} | λ) \sim E x p o (\frac{λ^{2}}{2})

$p(\sigma_i^2|\lambda)\sim Expo\left(\frac{\lambda^2}{2}\right)$

Ensuite, vous obtenez

\log [p (x_{i} | λ)] = - λ | x_{i} | + \log [\frac{λ}{2}]

$\log[p(x_i|\lambda)]=-\lambda | x_i|+\log\left[\frac{\lambda}{2}\right]$

Certaines alternatives sont la double pareto généralisée, la moitié cauchy, la bêta inversée. Dans un certain sens, ils sont meilleurs que le lasso car ils ne réduisent pas les grandes valeurs. En fait, je suis presque sûr que la double pareto généralisée peut être écrite comme un mélange d'exponentielles. C'est-à-dire que nous écrivons puis un gamma avant . On a: $\lambda=\lambda_i$ $p(\lambda_i|\alpha\beta)$

p (x_{i} | α β) = \frac{α}{2 β} {(1 + \frac{| x_{i} |}{β})}^{- (α + 1)}

$p(x_i|\alpha\beta)=\frac{\alpha}{2\beta}\left(1+\frac{|x_i|}{\beta}\right)^{-(\alpha+1)}$

Notez que j'ai inclus des constantes de normalisation, car elles aident à choisir de bons paramètres globaux. Maintenant, si nous appliquons la restriction de plage, nous avons un problème plus compliqué, car nous devons renormaliser sur le simplexe.

Une autre caractéristique générique des pénalités induisant une faible densité est qu'elles ne sont pas différenciables à zéro. Habituellement, c'est parce que les limites gauche et droite sont de signe opposé.

Ceci est basé sur le brillant travail de Nicolas Polson et James Scott sur les représentations des mélanges de moyennes de variance qu'ils utilisent pour développer TIRLS - une extension massive des moindres carrés à une très grande classe de combinaisons perte-pénalité.

Comme alternative, vous pouvez utiliser un a priori qui est défini sur le simplexe, mais qui a des modes dans les distributions marginales à zéro. Un exemple est la distribution dirichlet avec tous les paramètres entre 0 et 1. La pénalité implicite ressemblerait à:

- \sum_{i = 1}^{n - 1} (a_{i} - 1) \log (x_{i}) - (a_{n} - 1) \log (1 - \sum_{i = 1}^{n - 1} x_{i})

$-\sum_{i=1}^{n-1}(a_i-1)\log(x_i) - (a_n-1)\log(1-\sum_{i=1}^{n-1}x_i)$

Où . Cependant, vous devrez être prudent dans l'optimisation numérique car la pénalité a des singularités. Un processus d'estimation plus robuste consiste à utiliser la moyenne postérieure. Bien que vous perdiez la rareté exacte, vous obtiendrez de nombreux moyens postérieurs proches de zéro. $0<a_i<1$

probabilitéislogique
la source

Cela semble être une idée très intéressante, même si nous ne sommes pas tout à fait équipés pour comprendre les détails! Si je comprends bien, l'idée est que le priori vient d'une hypothèse selon laquelle les variables suivent une distribution exponentielle autour de 0. Donc, nous avons besoin d'une distribution centrée sur 0 qui fonctionne mieux pour nos variables. Mais, il n'y a pas de gagnant clair, non? Y a-t-il des distributions sur les «variables positives qui totalisent 1»? Merci de votre aide!

L_{1}

$L_1$

Justin Solomon

Pour obtenir une rareté, vous avez besoin d'une distribution avec un mode à zéro. Et la distribution dirichlet est sur le simplexe, qui est précisément ces distributions qui totalisent 1. Une autre classe générale est logistic-normal ou logistic t où vous avez une distribution normale / t pour

\log [\frac{x_{i}}{x_{n}}]

$\log\left[\frac{x_i}{x_n}\right]$

probabilislogic

Ah, le Dirichlet semble assez intéressant dans la mesure où c'est sur le simplex que nous nous intéressons, comme vous le mentionnez! Il semble que les deux autres que vous mentionnez pourraient introduire une certaine asymétrie sur , non? Mon collaborateur et moi travaillerons à travers la fonction énergétique impliquée par Dirichlet demain et nous rendrons compte! Un grand merci pour votre aide patiente jusqu'à présent - c'est loin de notre domaine habituel mais si nous pouvons le déterminer, les résultats pourraient constituer une avancée considérable dans le traitement de la géométrie! [Et bien sûr, nous vous accorderons tout le crédit nécessaire!]

x_{n}

$x_n$

Justin Solomon

1

Deux options:

Utilisez une pénalité sur . L'inconvénient évident est qu'il n'est pas convexe et donc difficile à optimiser. $L_0$ $\vec x$
Reparameterize, et utiliser une pénalité sur le nouveau vecteur de paramètres (naturel),. Cela encouragera les événements à être également probables à moins qu'il y ait une bonne raison pour qu'ils ne le soient pas. $x_i = \frac{\exp(w_i)}{\sum_j \exp(w_j)}$ $\|\vec w\|$

jrennie
la source

Pouvez-vous expliquer comment votre reparamétrisation encourage la rareté? Il semble plutôt garantir le contraire.

cardinal

Il encourage la rareté dans ce qui correspond à encourager différentes entrées de à avoir la même valeur.

\vec{w}

$\vec w$

\vec{x}

$\vec x$

jrennie

Oui, je comprends ça. Mais, ces valeurs ne seront pas nulles. Si nous prenons l'OP littéralement, cela n'aidera pas et sera en fait "blessé" (dans un sens). Mais, il est possible que le PO s'intéresse à la rareté par rapport à une autre base, auquel cas, ce serait l'une d'entre elles. :)

cardinal

C'est pourquoi j'ai fourni deux options dans ma réponse --- Je pense qu'une pénalité non convexe serait nécessaire pour encourager les zéros dans . Comme vous l'avez noté, Justin ne signifie probablement pas littéralement ce qu'il a dit.

\vec{x}

$\vec x$

jrennie

Oui, malheureusement, nous avons besoin de clarté dans la base de l'identité. Donc, dans ce cas, nous voudrions autant de que possible pour égaler .

w_{i}

$w_i$

- \infty

$-\infty$

Justin Solomon

1

La prémisse de la question n'est que partiellement correcte. S'il est vrai que la norme n'est qu'une constante sous la contrainte, le problème d'optimisation des contraintes pourrait très bien avoir une solution clairsemée. $L_1$

Cependant, la solution n'est pas affectée par le choix de , il existe donc une solution clairsemée ou non. Une autre question est de savoir comment trouver la solution. Un optimiseur quadratique standard sous contraintes linéaires peut, bien sûr, être utilisé, mais les algorithmes de descente de coordonnées populaires ne peuvent pas être utilisés dès le départ. $\lambda$

Une suggestion pourrait être d'optimiser sous une contrainte de positivité uniquement, pour différents , puis de renormaliser la solution pour avoir -norm 1. Un algorithme de descente de coordonnées devrait, je crois, être facilement modifiable pour calculer la solution sous une positivité contrainte. $\lambda$ $L_1$

NRH
la source

0

Je peux imaginer trois méthodes.

Méthode bayésienne: introduction d'une distribution a priori à moyenne nulle et utilisation de la probabilité de type II pour estimer les paramètres et les hyper-paramètres.
Utilisez plutôt comme régularisation. Ce n'est cependant pas différenciable. Vous pouvez utiliser une norme d'ordre élevé pour l'approcher. $\Vert\cdot\Vert_{\infty}$
Utilisez . $-\sum_{i=1}\log x_i$

En fait, les première et troisième méthodes sont les mêmes.

Han Zhang
la source

Régularisation induisant la rareté pour les matrices stochastiques

Réponses: