Qu'est-ce que le sous-espace principal dans l'ACP probabiliste?

si est observé matrice de données et est variable latente alors $X$ $Y$

X = W Y + μ + ϵ

$X=WY+\mu+\epsilon$

Où est la moyenne des données observées, et est l'erreur / bruit gaussien dans les données, et est appelé sous-espace principal. $\mu$ $\epsilon$ $W$

Ma question est quand une PCA normale est utilisée, nous obtiendrions un ensemble de vecteurs propres orthonormés pour lesquels ce qui suit est vrai $E$

Y = E X

$Y=EX$

Mais dans PPCA, n'est ni orthonormé ni vecteur propre. Alors, comment puis-je obtenir les principaux composants de ? $W$ $W$

Suite à mon instinct, j'ai cherché ppca dans MATLAB, où je suis tombé sur cette ligne:

À la convergence, les colonnes de W s'étendent sur le sous-espace, mais elles ne sont pas orthonormées. ppca obtient les coefficients orthonormaux, coeff, pour les composantes par orthogonalisation de W.

J'ai modifié le code PPCA un peu pour obtenir le W , il a couru et après orthogonalisation j'ai obtenu P de W .

Pourquoi cette orthogonalisation a donné des vecteurs propres, le long desquels la plupart des variances seront observées?

Je suppose que l'orthogonalisation me donne un ensemble de vecteurs orthogonaux / orthonormaux qui s'étendent sur le sous-espace principal, mais pourquoi cette matrice résultante orthogonalisée est égale à la matrice propre (je sais que la matrice propre en pca est également orthonormée)? Puis-je supposer que le sous-espace principal n'est couvert que par un ensemble unique de vecteurs orthonormaux? Dans ce cas, les deux résultats coïncideront toujours.

machine-learning pca latent-variable eigenvalues user3086871
la source

Juste pour effacer ma confusion, j'ai vérifié exactement où le W est calculé et je l'ai affecté à un nouveau paramètre de sortie appelé prin_sub. Je sais que ppca renvoie W en SW, mais juste pour être absolument clair, je l'ai fait de manière redondante. et dans le document un exemple a été donné en utilisant les données 'hald', j'ai utilisé leur code: P = orth (SW) aussi @amoeba J'ai supprimé mes autres questions.

user3086871

Réponses:

Ceci est une excellente question.

L'ACP probabiliste (PPCA) est le modèle de variable latente suivant où est une observation et est un latent vecteur variable; généralement . Notez que cela diffère de l'analyse factorielle dans un seul petit détail: la structure de la covariance des erreurs dans PPCA est et dans FA c'est une matrice diagonale arbitraire .

\begin{aligned} z & \sim N (0, I) \\ x & \sim N (W z + μ, σ^{2} I), \end{aligned}

$\begin{align} \mathbf z &\sim \mathcal N(\mathbf 0, \mathbf I) \\ \mathbf x &\sim \mathcal N(\mathbf W \mathbf z + \boldsymbol \mu, \sigma^2 \mathbf I), \end{align}$

x \in R^{p}

$\mathbf x\in\mathbb R^p$

z \in R^{q}

$\mathbf z\in\mathbb R^q$

q ≪ p

$q\ll p$

σ^{2} I

$\sigma^2 \mathbf I$

Ψ

$\boldsymbol \Psi$

Tipping & Bishop, 1999, Probabilistic Principal Component Analysis prouvent le théorème suivant: la solution de maximum de vraisemblance pour PPCA peut être obtenue analytiquement et est donnée par (Eq. 7): où est une matrice de directions principales principales (vecteurs propres de la matrice de covariance), est la matrice diagonale des valeurs propres correspondantes, est également donnée par une formule explicite, et est une matrice de rotation arbitraire (correspondant aux rotations dans l'espace latent).

W_{M L} = U_{q} (Λ_{q} - σ_{M L}^{2} I)^{1 / 2} R,

$\mathbf W_\mathrm{ML} = \mathbf U_q (\boldsymbol \Lambda_q - \sigma_\mathrm{ML}^2 \mathbf I)^{1/2} \mathbf R,$

U_{q}

$\mathbf U_q$

q

$q$

Λ_{q}

$\boldsymbol \Lambda_q$

σ_{M L}^{2}

$\sigma_\mathrm{ML}^2$

R

$\mathbf R$

q \times q

$q\times q$

La ppca()fonction implémente l'algorithme de maximisation des attentes pour s'adapter au modèle, mais nous savons qu'il doit converger vers le comme indiqué ci-dessus. $\mathbf W_\mathrm{ML}$

Votre question est: comment obtenir si vous connaissez . $\mathbf U_q$ $\mathbf W_\mathrm{ML}$

La réponse est que vous pouvez simplement utiliser la décomposition en valeurs singulières de . La formule ci-dessus est déjà de la forme matrice orthogonale fois matrice diagonale fois matrice orthogonale, donc elle donne la SVD, et comme elle est unique, vous obtiendrez comme vecteurs singuliers gauches de . $\mathbf W_\mathrm{ML}$ $\mathbf U_q$ $\mathbf W_\mathrm{ML}$

C'est exactement ce que fait la ppca()fonction de Matlab à la ligne 305:

% Orthogonalize W to the standard PCA subspace
[coeff,~] = svd(W,'econ');

Puis-je supposer que le sous-espace principal n'est couvert que par un ensemble unique de vecteurs orthonormaux?

Non! Il existe un nombre infini de bases orthogonales couvrant le même sous-espace principal. Si vous appliquez un processus d'orthogonalisation arbitraire à vous n'êtes pas assuré d'obtenir . Mais si vous utilisez SVD ou quelque chose d'équivalent, cela fonctionnera. $\mathbf W_\mathrm{ML}$ $\mathbf U_q$

amibe
la source

Quelle excellente réponse! Tu es assez génial! Grande aide! Merci beaucoup. @amoeba

user3086871