J'essaie de trouver l'estimation MAP d'un modèle par descente de gradient. Mon a priori est gaussien multivarié avec une matrice de covariance connue.
Sur le plan conceptuel, je pense que je sais comment faire, mais j'espérais de l'aide pour les détails. En particulier, s'il existe un moyen plus facile d'aborder le problème, ce serait particulièrement utile.
Voici ce que je pense que je dois faire:
- Pour chaque dimension, trouvez la distribution conditionnelle, compte tenu de ma position actuelle dans les autres dimensions.
- Cela me donne une gaussienne univariée locale dans chaque dimension, avec la moyenne correcte et l'écart type.
- Je pense que le gradient ne devrait être qu'un vecteur de dérivées pour chacune de ces distributions univariées.
Ma question comporte deux parties:
- Est-ce la meilleure approche à adopter ou existe-t-il un moyen plus simple?
- En supposant que je doive suivre cette voie, quelle est la meilleure façon de trouver ces distributions conditionnelles?
normal-distribution
covariance-matrix
regularization
gradient-descent
ridge-regression
David J. Harris
la source
la source
Réponses:
Et l'optimisation?
Voyons si je vous comprends bien. Vous avez un modèlep ( y| x,θ) conditionné par une observation X et un ensemble de paramètres θ et un préalable p ( θ ) conduisant à une probabilité conjointe de L=p(y|x,θ)p(θ) . Les paramètres sont répartis selon une normale multivariée connue, c'est-à-direθ∼N(μ,Σ) . Vous souhaitez trouver la solution MAP à ce problème, c'est-à-dire
Comme vous l'avez déjà noté, l'astuce est queargmaxθL=argmaxθlogL . Lorsque vous prenez le log de la densité gaussienne, de nombreux termes laids (l'exponentielle) disparaissent et vous vous retrouverez avec qqch commelogp(θ)=12(θ−μ)TΣ−1(θ−μ)+const . Si vous différenciez cela, les identités matricielles de Sam Roweis vous seront utiles et vous permettront d'arriver à
(Veuillez vérifier, cela a été fait rapidement et dans ma tête.) Avec les dérivés de votre modèle, vous pouvez utiliser des optimiseurs standard pour arriver à une solution MAP.
Mise à jour : Commentaire incorporé par David J. Harris. Les formules devraient être correctes maintenant.
la source
Si la probabilité n'est pas gaussienne, il n'est pas possible de dire s'il existe des résultats analytiques. En outre, la deuxième puce est alors incorrecte en général. Puisque la vraisemblance gaussienne a priori et générale ne fait pas de distributions gaussiennes conditionnelles sur les composantes vectorielles.
Une façon d'obtenir le MAP serait de faire une analyse bayésienne complète, par exemple en utilisant MCMC et d'utiliser les échantillons de la partie postérieure pour l'estimer. [Dans ce cas, vous auriez de meilleures informations disponibles que d'utiliser uniquement la carte.] Intérêt - pourquoi ne pas emprunter cette voie de toute façon?
Une autre approche pourrait être de le faire (je n'ai pas vu cela se faire généralement, alors quelqu'un me corrige s'il vous plaît):
Ensuite, résolvez pourθ (probablement numériquement).
la source