Pourquoi n'y a-t-il que

22

En PCA, lorsque le nombre de dimensions est supérieur (voire égal) au nombre d'échantillons , pourquoi avez-vous au plus vecteurs propres non nuls? En d'autres termes, le rang de la matrice de covariance parmi les dimensions est .dNN1dNN1

Exemple: Vos échantillons sont des images vectorisées, qui sont de dimension , mais vous n'avez que images.d=640×480=307200N=10

GrokingPCA
la source
5
Imaginez points en 2D ou en 3D. Quelle est la dimensionnalité de la variété que ces points occupent? La réponse est : deux points se trouvent toujours sur une ligne (et une ligne est à 1 dimension). La dimensionnalité exacte de l'espace n'a pas d'importance (tant qu'il est plus grand que ), vos points n'occupent qu'un sous-espace à 1 dimension. La variance n'est donc "étalée" que dans ce sous-espace, c'est-à-dire le long d'une dimension. Cela reste vrai pour tout . N=2N1=1NN
amibe dit Réintégrer Monica
1
J'ajouterais juste une précision supplémentaire au commentaire de @ amoeba. Le point d'origine est également important. Donc, si vous avez N = 2 + origine, le nombre de dimensions est au maximum de 2 (pas 1). Cependant, dans PCA, nous centrons généralement les données, ce qui signifie que nous plaçons l'origine à l' intérieur de l'espace du nuage de données - puis une dimension est consommée et la réponse sera "N-1", comme le montre l'amibe.
ttnphns
C'est ça qui me déroute. Ce n'est pas le centrage en soi qui détruit la dimension, non? Si vous avez exactement N échantillons et N dimensions, alors même après le centrage, vous avez toujours N vecteurs propres ..?
GrokingPCA
2
Pourquoi? C'est le centrage qui détruit une dimension. Le centrage (par moyenne arithmétique) "déplace" l'origine de "l'extérieur" dans l'espace "recouvert" par les données. Avec l'exemple de N = 2. 2 points + une origine couvrent généralement un plan. Lorsque vous centrez ces données, vous placez l'origine sur une ligne droite à mi-chemin entre les 2 points. Ainsi, les données ne couvrent désormais que la ligne.
ttnphns
3
Euclide le savait déjà il y a 2300 ans: deux points déterminent une ligne, trois points déterminent un plan. En généralisant, points déterminent un espace euclidien de dimension N - 1 . NN-1
whuber

Réponses:

20

Considérez ce que fait PCA. En termes simples, PCA (tel qu'il est généralement exécuté) crée un nouveau système de coordonnées en:

  1. déplacer l'origine au centre de gravité de vos données,
  2. serre et / ou étire les axes pour les rendre de longueur égale, et
  3. fait pivoter vos axes dans une nouvelle orientation.

(Pour plus de détails, consultez cet excellent fil de CV: Comprendre l'analyse des composants principaux, les vecteurs propres et les valeurs propres .) Cependant, il ne fait pas simplement pivoter vos axes à l'ancienne. Votre nouveau (le premier composant principal) est orienté dans le sens de variation maximale de vos données. Le deuxième composant principal est orienté dans le sens de la prochaine plus grande variation qui est orthogonale au premier composant principal . Les autres composants principaux sont également formés. X1


X=[111222]

entrez la description de l'image ici

(1,5,1,5,1,5)(0,0,0)(3,3,3)(0,0,3)(3,3,0)(0,3,0)(3,0,3)

N=2N-1=1

gung - Réintégrer Monica
la source