Pourquoi l'ACP probabiliste utilise-t-elle les variables gaussiennes a priori sur latentes?

8

Je lis actuellement des articles sur l'ACP probabiliste et je me demande pourquoi un a priori gaussien (et pas un autre a priori) est choisi pour les variables latentes? Est-ce juste parce que c'est simple ou y a-t-il une autre raison?

Références:

Irminsul
la source

Réponses:

4

ACP probabiliste

L'ACP probabiliste est un modèle à variable latente gaussienne de la forme suivante. Les observations sont constituées de variables, les variables latentes sont supposées être constituées de variables; les variables antérieures sur latentes sont une Gaussienne à covariance unitaire moyenne nulle: et la distribution conditionnelle des variables observées étant donné les variables latentes est Il s’avère que la solution du maximum de vraisemblance à ce modèle est donnée par les premiers composants PCA des données: colonnes dexRDDzRMM<D

zN(0,I),
x|zN(Wz+μ,σ2I).
MWML sont proportionnels aux vecteurs propres supérieurs de la matrice de covariance (axes principaux). Voir Tipping & Bishop pour plus de détails.

Pourquoi utiliser Gaussian avant?

  1. Pour tout autre a priori (ou du moins pour la plupart des autres a priori), la solution du maximum de vraisemblance ne correspondra pas à la solution standard de l'ACP, il n'y aurait donc aucune raison d'appeler ce modèle de variable latente «ACP probabiliste». Gaussian prior est celui qui donne naissance à l'ACP.N(0,I)

  2. La plupart des autres antérieurs rendraient le problème beaucoup plus compliqué ou même insoluble analytiquement. La distribution conditionnelle gaussienne a priori et gaussienne conduit à la distribution marginale gaussienne , et il est facile de voir que sa matrice de covariance sera donnée par . Les distributions non gaussiennes sont beaucoup plus difficiles à utiliser.p(x)WW+σ2I

  3. La distribution marginale gaussienne est également intéressante car la tâche de l'ACP standard est de modéliser la matrice de covariance (c'est-à-dire le deuxième moment); PCA ne s'intéresse pas aux moments supérieurs de la distribution des données. La distribution gaussienne est entièrement décrite par les deux premiers moments: moyenne et covariance. Nous ne voulons pas utiliser des distributions plus compliquées / flexibles, car PCA ne traite pas de ces aspects des données.p(x)

  4. La matrice gaussienne a de covariance unité avant parce que l'idée est d'avoir des variables latentes non corrélées qui donnent lieu à des covariances observées que par les charges .W

amibe
la source
Merci ! C'est vraiment clair! Pour le premier point, je suis d'accord, mais cela semble être une réponse à la question «Pourquoi ce modèle est appelé PPCA? Les points 2 à 4 sont exactement ce à quoi je m'attendais, j'aurais dû transformer la question en «Quels sont les avantages de prendre un gaussien avant?
Irminsul