Réponse en un seul mot: les deux.
X2‖X‖F=√
∥ X∥2= s u p ∥ Xv ∥2∥ v ∥2= m a x ( sje)
siXSX=USV⊤∥ X∥F= ∑je jX2je j------√= t r ( X⊤X) = ∑ s2je-----√,
sjeXSX= USV⊤
L'ACP est donnée par la même décomposition en valeurs singulières lorsque les données sont centrées. US sont les composantes principales, V sont les axes principaux, c'est-à-dire les vecteurs propres de la matrice de covariance, et la reconstruction de X avec seulement les k composantes principales correspondant aux k plus grandes valeurs singulières est donnée par Xk= UkSkV⊤k .
Le théorème d'Eckart-Young dit que est la matrice minimisant la norme de l'erreur de reconstructionparmi toutes les matrices de rang . Cela est vrai à la fois pour la norme Frobenius et pour l'opérateur -norm. Comme souligné par @cardinal dans les commentaires, cela a été prouvé pour la première fois par Schmidt (de la renommée Gram-Schmidt) en 1907 pour l'affaire Frobenius. Il a ensuite été redécouvert par Eckart et Young en 1936 et est maintenant principalement associé à leurs noms. Mirsky a généralisé le théorème en 1958 à toutes les normes qui sont invariantes sous les transformations unitaires, et cela inclut l'opérateur 2-norme. ‖ X - A ‖ A k 2Xk∥ X- A ∥UNEk2
Ce théorème est parfois appelé théorème d'Eckart-Young-Mirsky. Stewart (1993) l'appelle le théorème d'approximation de Schmidt. Je l'ai même vu appelé théorème de Schmidt-Eckart-Young-Mirsky.
Preuve pour l'opérateur -norm2
Soit de rang complet . Comme est de rang , son espace nul a dimensions. L'espace couvert par les vecteurs singuliers droits de correspondant aux plus grandes valeurs singulières a dimensions. Ces deux espaces doivent donc se croiser. Soit un vecteur unitaire de l'intersection. On obtient alors:
QED.n A k n - k k + 1 X k + 1 w ‖ X - A ‖ 2XnUNEkn - kk + 1Xk + 1w
∥ X- A ∥22≥ ∥ ( X- A ) w ∥22= ∥ Xw ∥22= ∑i = 1k + 1s2je( v⊤jew )2≥ s2k + 1= ∥ X- Xk∥22,
Preuve de la norme Frobenius
Nous voulons trouver la matrice de rang qui minimise . Nous pouvons factoriser , où a colonnes orthonormées. Minimiser pour fixe est un problème de régression avec la solution . En le branchant, nous voyons que nous devons maintenant minimiser où est la matrice de covariance de , c'est-à-direk ‖ X - A ‖ 2 FUNEk∥ X- A ∥2F W k ‖ X - B W ⊤ ‖ 2 W B = X W ‖ X - X W W ⊤ ‖ 2 = ‖ X ‖ 2 - ‖ X W W ⊤ ‖ 2 = c o n s t - t r (A = B W⊤Wk∥ X- B W⊤∥2WB = XWΣ X Σ = X ⊤ X / ( n - 1 ) W k
∥ X- XWW⊤∥2= ∥ X∥2- ∥ XWW⊤∥2= c o n s t - t r ( WW⊤X⊤XWW⊤)= c o n s t - c o n s t ⋅ t r ( W⊤Σ W) ,
ΣXΣ = X⊤X/ (n-1). Cela signifie que l'erreur de reconstruction est minimisée en prenant comme colonnes de quelques vecteurs orthonormés maximisant la variance totale de la projection.
Wk
Il est bien connu que ce sont les premiers vecteurs propres de la matrice de covariance. En effet, si , alors . En écrivant qui a aussi des colonnes orthonormées, on obtient avec un maximum atteint lorsque . Le théorème suit alors immédiatement.X = U S V ⊤ Σ = V S 2 V ⊤ / (kX= USV⊤ R = V ⊤ W t r ( W ⊤ Σ W ) = t r ( R ⊤ Λ R ) = ∑ i λ i ∑ j R 2 i j ≤ k ∑Σ = VS2V⊤/ (n-1)=VΛ V⊤R = V⊤W
t r ( W⊤Σ W) = t r ( R⊤Λ R ) = ∑jeλje∑jR2je j≤ ∑i = 1kλk,
W= Vk
Voir les trois fils associés suivants:
Tentative antérieure de démonstration de la norme Frobenius
Cette preuve que j'ai trouvée quelque part en ligne mais elle est fausse (contient un écart), comme expliqué par @cardinal dans les commentaires.
La norme de Frobenius est invariante sous les transformations unitaires, car elles ne modifient pas les valeurs singulières. On obtient donc: où . Continue:Ceci est minimisé lorsque tous les éléments hors diagonale de sont nuls et que tous les termes diagonaux annulent les plus grandes valeurs singulières [écart ici: ce n'est pas évident] , c'est-à-dire et donc .s i - B i i ) 2 + ∑ i ≠ j B 2 i j . B k k s i B o p t i m a l = S k A o p t i m a l = U k S k V ⊤ k
∥ X- A ∥F= ∥ USV⊤- A ∥ = ∥ S- U⊤A V∥ = ∥ S- B ∥ ,
B = U⊤A V∥ X- A ∥F= ∑je j( Sje j- Bje j)2= ∑je( sje- Bje je)2+ ∑i ≠ jB2je j.
Bkksje Bo p t i m a l= SkUNEo p t i m a l= UkSkV⊤k