Pourquoi l'ACP maximise-t-elle la variance totale de la projection?

10

Christopher Bishop écrit dans son livre Pattern Recognition and Machine Learning une preuve, que chaque composant principal consécutif maximise la variance de la projection à une dimension, après que les données ont été projetées dans l'espace orthogonal aux composants précédemment sélectionnés. D'autres montrent des preuves similaires.

Cependant, cela prouve seulement que chaque composante consécutive est la meilleure projection sur une dimension, en termes de maximisation de la variance. Pourquoi cela implique-t-il que la variance d'une projection pour dire 5 dimensions est maximisée en choisissant d'abord ces composants?

michal
la source
Pourriez-vous s'il vous plaît nous dire exactement ce que signifierait la "variance" de l'ensemble de données à cinq dimensions qui résulte d'une projection d'un ensemble de données à cinq dimensions? (Pour qu'une telle quantité soit soumise à la maximisation, il faudrait qu'elle soit un seul nombre.)
whuber
3
Très bon point. Chris Bishop dans son livre fait référence à la minimisation de la variance d'une projection et il n'est pas très clair ce que cela signifierait pour plus d'une dimension. Je voudrais savoir dans quel sens la variance est minimisée et pourquoi une telle procédure la minimise conjointement.
michal
1
@ user123675: Dans votre dernier commentaire, vous voulez probablement dire "maximiser", pas "minimiser".
amoeba
Oui, tu as raison. Désolé!
michal

Réponses:

10

Ce que l'on entend par variance dans plusieurs dimensions («variance totale») est simplement une somme de variances dans chaque dimension. Mathématiquement, c'est une trace de la matrice de covariance: la trace est simplement une somme de tous les éléments diagonaux. Cette définition a diverses propriétés intéressantes, par exemple la trace est invariante sous les transformations linéaires orthogonales, ce qui signifie que si vous tournez vos axes de coordonnées, la variance totale reste la même.

Ce qui est prouvé dans le livre de Bishop (section 12.1.1), c'est que le vecteur propre principal de la matrice de covariance donne la direction de la variance maximale. Le deuxième vecteur propre donne la direction de la variance maximale sous une contrainte supplémentaire qu'il doit être orthogonal au premier vecteur propre, etc. (je crois que cela constitue l'exercice 12.1). Si l'objectif est de maximiser la variance totale dans le sous-espace 2D, alors cette procédure est une maximisation gourmande: choisissez d'abord un axe qui maximise la variance, puis un autre.

Votre question est: pourquoi cette procédure gourmande obtient-elle un maximum global?

Voici un bel argument que @whuber a suggéré dans les commentaires. Alignons d'abord le système de coordonnées avec les axes PCA. La matrice de covariance devient diagonale: . Pour simplifier, nous considérerons le même cas 2D, c'est-à-dire quel est le plan avec la variance totale maximale? Nous voulons prouver que c'est le plan donné par les deux premiers vecteurs de base (avec variance totale ).Σ=diag(λi)λ1+λ2

Considérons un plan couvert par deux vecteurs orthogonaux et . La variance totale dans ce plan estIl s'agit donc d'une combinaison linéaire de valeurs propres avec des coefficients tous positifs, ne dépassant pas (voir ci-dessous) et totalisant . Si c'est le cas, alors il est presque évident que le maximum est atteint à .uv

uΣu+vΣv=λiui2+λivi2=λi(ui2+vi2).
λi12λ1+λ2

Il ne reste plus qu'à montrer que les coefficients ne peuvent pas dépasser . Notez que , où est le vecteur de base . Cette quantité est une longueur au carré d'une projection de sur le plan couvert par et . Par conséquent, elle doit être inférieure à la longueur au carré de qui est égale à , QED.1uk2+vk2=(uk)2+(vk)2kkkuvk|k|2=1

Voir aussi la réponse de @ cardinal à Quelle est la fonction objective de l'ACP? (il suit la même logique).

amibe
la source
1
(+1) Mais n'est-il pas intuitivement évident qu'étant donné une collection de portefeuilles de différentes quantités d'argent (modélisant les valeurs propres non négatives), et un nombre fixe que vous pouvez choisir, que la sélection des portefeuilles les plus riches maximisera votre total en espèces? La preuve que cette intuition est correcte est presque triviale: si vous n'avez pas pris le plus grand, alors vous pouvez améliorer votre somme en échangeant la plus petite que vous avez prise contre une plus grande quantité. kkk
whuber
@amoeba: si l'objectif est de maximiser la somme des variances et non la variance de la somme, il n'y a aucune raison pour que la seconde projection soit orthogonale à la première.
Innuo
1
Je m'excuse - j'avais pensé que vous aviez déjà développé l'analyse au point de reconnaître que la variance totale dans un sous-espace à dimensions est une combinaison linéaire non négative des valeurs propres, dans laquelle aucun des coefficients ne peut dépasser et le le total des coefficients est égal à . (Il s'agit d'une simple multiplication matricielle - les multiplicateurs de Lagrange ne sont pas nécessaires.) Cela nous amène alors à la métaphore des portefeuilles. Je conviens qu'une telle analyse doit être effectuée. k1k
whuber
1
@amoeba: Je veux dire que nous considérons le problème dans la base composée de vecteurs propres (c'est la base de u et v si nous calculons leur variance en multipliant par la matrice de covariance diagonale). u et v se révéleront finalement être eux, mais au stade de cette preuve nous ne devrions pas supposer cela je pense. L'argument ne devrait-il pas plutôt être que, si à un moment donné la somme était supérieure à 1, alors les 2 vecteurs ne seraient plus orthogonaux, car la base est orthogonale et chacun des vecteurs apporte au plus 1? Mais là encore, pourquoi nous limitons-nous aux vecteurs orthogonaux u et v?
michal
1
@Heisenberg: Ah, je vois! Non, bien sûr, je ne voulais pas dire ça! Mais je vois maintenant pourquoi c'était déroutant. J'ai réécrit cette dernière partie de la preuve pour me débarrasser de cette étape "choix d'une base". Veuillez voir ma modification. Je vous remercie.
amoeba
2

Si vous avez variables aléatoires non corrélées triées par ordre décroissant de leur variance et qu'on vous a demandé de choisir d'entre elles de sorte que la variance de leur somme soit maximisée, seriez-vous d'accord que l'approche gourmande de choisir les premiers accomplirait cela?Nkk

Les données projetées sur les vecteurs propres de sa matrice de covariance sont essentiellement colonnes de données non corrélées et dont la variance est égale aux valeurs propres respectives.N

Pour que l'intuition soit plus claire, nous devons relier la maximisation de la variance au calcul du vecteur propre de la matrice de covariance avec la plus grande valeur propre, et relier la projection orthogonale à la suppression des corrélations.

La deuxième relation est claire pour moi car le coefficient de corrélation entre deux vecteurs (moyenne nulle) est proportionnel à leur produit intérieur.

La relation entre la maximisation de la variance et la décomposition propre de la matrice de covariance est la suivante.

Supposons que est la matrice de données après avoir centré les colonnes. Nous devons trouver la direction de la variance maximale. Pour tout vecteur unitaire , la variance après projection le long de estDvv

E[(Dv)tDv]=vtE[DtD]v=vtCov(D)v

qui est maximisée si est le vecteur propre de correspondant à la plus grande valeur propre.vCov(D)

Innuo
la source
La question initiale est plutôt: choisissez combinaisons linéaires orthogonales d'entre elles (par opposition à d'entre elles) de sorte que la somme de leurs variances soit maximisée. Est-il toujours évident que l'approche gourmande de choisir le premier accomplit cela? kkk
amoeba
Trouver combinaisons orthogonales linéaires puis choisir la première variante la plus d'entre elles est ce que le processus décrit (vaguement). Ma réponse prétend simplement que l'orthogonalité est ce qui est suffisant pour que le processus gourmand atteigne l'objectif de maximiser la variance totale. Nk
Innuo
Je ne suis pas sûr de suivre l'argument. Quelle est l'orthogonalité? Si vous avez variables et devez choisir avec la variance totale la plus élevée, vous devez choisir avec la variance la plus élevée (qu'elles soient corrélées ou non). Nkk
amibe
Ah, je comprends la confusion. Il y avait une faute de frappe dans ma réponse. Fixé maintenant.
Innuo
Je pense que vous pourriez être sur quelque chose ici, mais l'apparence magique de la somme doit être expliquée. Quelle pertinence cela a-t-il pour l'ACP ou même pour les décompositions spectrales?
whuber