Que signifie «PCA (analyse en composantes principales) pour les données»?

Je lisais quelques notes et il est dit que PCA peut "sphérer les données". Ce qu'ils définissent pour moi comme "sphère des données" divise chaque dimension par la racine carrée de la valeur propre correspondante.

Je suppose que par "dimension", ils signifient chaque vecteur de base dans lequel nous projetons (c'est-à-dire les vecteurs propres vers lesquels nous projetons). Je suppose donc qu'ils font:

u_{i}^{^{'}} = \frac{u_{i}}{\sqrt{e i g e n V a l u e (u_{i})}}

$u^{'}_i= \frac{u_i}{\sqrt{eigenValue(u_i)}}$

où est l'un des vecteurs propres (c'est-à-dire l'un des principaux composants). Puis avec ce nouveau vecteur, je suppose qu'ils projettent les données brutes que nous avons, disons à . Ainsi, les points projetés seraient désormais: $u_i$ $x^{(i)}$ $z^{(i)}$

z^{' (i)} = u_{i}^{^{'}} \cdot x^{(i)}

$z'^{(i)} = u^{'}_i \cdot x^{(i)}$

Ils affirment que cela garantit que toutes les fonctionnalités ont la même variance.

Cependant, je ne suis même pas sûr que mon interprétation de ce qu'ils entendent par sphère soit correcte et je voulais vérifier si c'était le cas. De plus, même si c'était correct, quel est l'intérêt de faire quelque chose comme ça? Je sais qu'ils affirment que cela garantit que tout le monde a le même écart, mais pourquoi voudrions-nous faire cela et comment y parvient-il?

pca Pinocchio
la source

Ce que vous dites est juste. uest la valeur des vecteurs propres et est liée aux valeurs brutes du PC. u'est appelé un chargement et est lié aux valeurs PC normalisées (variances égales). Vous voudrez peut-être lire ma réponse à ce sujet: stats.stackexchange.com/a/35653/3277 .

ttnphns

En d'autres termes, vous pouvez calculer des valeurs PC brutes, puis les normaliser pour une variance (unité) égale. Ou, pour obtenir le même résultat, vous pouvez d'abord calculer les chargements, puis calculer les valeurs PC avec leur aide.

ttnphns

Fil associé: Analyse en composantes principales et normalisation de la variance .

amoeba

Pour ce que ça vaut, la plupart des gens ne considéreraient pas cette utilisation de «sphère» comme un verbe comme un très bon style anglais, même s'il est compréhensible.

nekomatic

Réponses:

Votre compréhension est juste. Jetez un œil à cette figure qui représente diverses possibilités de vos points de données: http://shapeofdata.files.wordpress.com/2013/02/pca22.png

Ils ont l'air ellipsoïdal. Si vous faites ce que vous avez décrit ci-dessus, c'est-à-dire que vous compressez les points dans la direction dans laquelle ils sont le plus répandus (environ la ligne de 45 degrés dans l'image), les points seront situés dans un cercle (sphère de dimensions supérieures).

L'une des raisons pour lesquelles vous sphérifiez les données est la prévision et la compréhension des coordonnées importantes. Supposons que vous souhaitiez prédire utilisant et , et vous obtenez les valeurs de coefficient et c'est-à-dire . Maintenant, si et ont la même variance, c'est-à-dire qu'ils sont grossièrement distribués de manière sphérique, et que vous trouvez que tandis que , vous pouvez interpréter cela en disant que influence plus que . Si leurs échelles n'étaient pas les mêmes cependant, et $y$ $x_1$ $x_2$ $\beta_1$ $\beta_2$ $y\sim \beta_1 x_1+\beta_2x_2$ $x_1$ $x_2$ $\beta_1=1$ $\beta_2=10$ $x_2$ $y$ $x_1$ $x_1$ a été distribué 10 fois plus que , alors vous obtiendrez les valeurs ci - dessus de et même s'ils ont tous deux influencés à peu près la même. Pour résumer, vous "sphérifiez" ou "normalisez" pour faire des déductions sur l'importance de la variable à partir de son coefficient. $x_2$ $\beta_1$ $\beta_2$ $y$

elexhobby
la source