L'analyse en composantes principales peut utiliser la décomposition matricielle, mais il ne s'agit que d'un outil pour y parvenir.
Comment trouverais-tu les composantes principales sans utiliser l'algèbre matricielle?
Quelle est la fonction objectif (but) et quelles sont les contraintes?
Réponses:
Sans essayer de donner un aperçu complet de la PCA, du point de vue de l'optimisation, l' objectif principal est le quotient de Rayleigh . La matrice qui figure dans le quotient est (un multiple de) l'exemple de matrice de covariance , où chaque est un vecteur de fonctions et est la matrice de telle sorte que la ième ligne est .xipxix T i
PCA cherche à résoudre une série de problèmes d'optimisation. Le premier de la séquence est le problème sans contrainte
Depuis, le problème ci-dessus non contraint est équivalent au problème contraintuTu=∥u∥22=∥u∥∥u∥
C’est ici que l’algèbre matricielle entre en jeu. Puisque est une matrice semi-définie positive symétrique (par construction!), Il possède une décomposition en valeurs propres de la forme où est un matrice orthogonale (donc ) et est une matrice diagonale avec des entrées non négatives telles que .S
Par conséquent, . Puisque est contraint dans le problème à avoir une norme de un, alors il en est de même de puisque , en vertu de étant orthogonal.uTSu=uTQΛQTu=wTΛw=∑pi=1λiw2i u w ∥w∥2=∥QTu∥2=∥u∥2=1 Q
Mais, si nous voulons maximiser la quantité sous les contraintes que , le mieux que nous puissions faire est de définissez , c’est-à-dire et pour .∑pi=1λiw2i ∑pi=1w2i=1 w=e1 w1=1 wi=0 i>1
Maintenant, en annulant le correspondant , ce que nous recherchions en premier lieu, nous obtenons que où désigne la première colonne de , soit le vecteur propre correspondant à la plus grande valeur propre de . La valeur de la fonction objectif apparaît alors facilement comme étant .u
Les vecteurs de composantes principales restants sont ensuite trouvés en résolvant la séquence (indexée par ) des problèmes d'optimisation Le problème est donc le même, sauf que nous ajoutons la contrainte supplémentaire selon laquelle la solution doit être orthogonale à toutes les solutions précédentes de la séquence. Il est difficile de ne pas étendre l'argument ci - dessus pour montrer que inductivement la solution du e problème est, en effet, , le ème vecteur propre de .i
La solution PCA est également souvent exprimée en termes de décomposition en valeurs singulières de . Pour voir pourquoi, laissez . Alors et ainsi de suite (à proprement parler, jusqu’à signer se retourne) et .X X=UDVT nS=XTX=VD2VT V=Q Λ=D2/n
Les composants principaux sont trouvés en projetant sur les vecteurs des composants principaux. Dans la formulation SVD que nous venons de donner, il est facile de voir queX
La simplicité de la représentation des vecteurs de la composante principale et des composantes principales elles-mêmes en termes de SVD de la matrice de caractéristiques est l'une des raisons pour lesquelles la SVD est si bien en évidence dans certains traitements de PCA.
la source
La solution présentée par cardinal se concentre sur la matrice de covariance de l’échantillon. Un autre point de départ est l’ erreur de reconstruction des données par un hyperplan à q dimensions. Si les points de données à dimensions p sont l’objectif est de résoudrex1,…,xn
pour une matrice avec des colonnes orthonormales et . Ceci donne le meilleur classement q -reconstruction tel que mesuré par la norme euclidienne, et les colonnes de la solution sont les q premiers vecteurs de composantes principales.p×q Vq λi∈Rq Vq
Pour la solution pour et (il s’agit d’une régression) estVq μ λi
Pour faciliter la notation, supposons que ait été centré dans les calculs suivants. Nous devons ensuite minimiserxi
sur avec des colonnes orthonormées. Notez que est la projection sur l' espace de colonne de dimension q . Le problème est donc équivalent à minimiser sur le rang q projections . C’est-à-dire que nous devons maximiser sur le rang q des projections , où est l'exemple de matrice de covariance. À présentVq P=VqVTq
L'erreur de reconstruction suggère un certain nombre de généralisations utiles, par exemple des composantes principales éparses ou des reconstructions par des variétés de faible dimension plutôt que des hyperplans. Pour plus de détails, voir la section 14.5 dans Les éléments de l’apprentissage statistique .
la source
Voir NIPALS ( wiki ) pour un algorithme qui n'utilise pas explicitement une décomposition matricielle. Je suppose que c'est ce que vous voulez dire quand vous dites que vous voulez éviter l'algèbre matricielle puisque vous ne pouvez vraiment pas éviter l'algèbre matricielle ici :)
la source