Il existe de nombreux articles sur cette SE qui discutent des approches robustes de l'analyse en composantes principales (ACP), mais je ne trouve pas une seule bonne explication de la raison pour laquelle l' ACP est sensible aux valeurs aberrantes en premier lieu.
26
Réponses:
L'une des raisons est que l'ACP peut être considérée comme une décomposition de bas rang des données qui minimise la somme des normes des résidus de la décomposition. C'est-à-dire si est vos données ( vecteurs de dimensions), et est la base PCA ( vecteurs de dimensions), alors la décomposition minimisera strictement Ici A est la matrice des coefficients de décomposition PCA et \ lVert \ cdot \ rVert_F est une norme Frobenius de la matriceL2 Y m n X k n ∥Y−XA∥2F=∑j=1m∥Yj−XAj.∥2 A ∥⋅∥F
Parce que l'ACP minimise les normesL2 (c'est-à-dire les normes quadratiques), elle a les mêmes problèmes de moindres carrés ou d'ajustement d'un gaussien en étant sensible aux valeurs aberrantes. En raison de la quadrature des écarts par rapport aux valeurs aberrantes, ils domineront la norme totale et entraîneront donc les composants de l'ACP.
la source