J'ai appris le PCA il y a quelques conférences en classe et en approfondissant ce concept fascinant, j'ai appris à connaître le PCA clairsemé.
Je voulais demander, si je ne me trompe pas, c'est ce que l'APC est clairsemée: Dans l'APC, si vous avez points de données avec variables, vous pouvez représenter chaque point de données dans espace dimensionnel avant d'appliquer l'APC. Après avoir appliqué l'ACP, vous pouvez à nouveau le représenter dans le même espace dimensionnel, mais, cette fois, le premier composant principal contiendra le plus de variance, le second contiendra la deuxième direction de variance et ainsi de suite. Vous pouvez donc éliminer les derniers composants principaux, car ils ne causeront pas beaucoup de pertes de données et vous pouvez compresser les données. Droite?
L'ACP éparse sélectionne les composants principaux de telle sorte que ces composants contiennent moins de valeurs non nulles dans leurs coefficients vectoriels.
Comment cela est-il censé vous aider à mieux interpréter les données? Quelqu'un peut-il donner un exemple?
la source
Réponses:
Que l'APC éparse soit plus facile à interpréter que l'APC standard ou non, cela dépend de l'ensemble de données que vous étudiez. Voici ce que j'en pense: tantôt on s'intéresse davantage aux projections PCA (représentation dimensionnelle basse des données), tantôt - aux axes principaux; ce n'est que dans ce dernier cas que l'APC éparse peut avoir des avantages pour l'interprétation. Permettez-moi de donner quelques exemples.
Je travaille par exemple avec des données neuronales (enregistrements simultanés de nombreux neurones) et j'applique l'ACP et / ou des techniques de réduction de dimensionnalité connexes pour obtenir une représentation à faible dimension de l'activité de la population neuronale. Je pourrais avoir 1000 neurones (c'est-à-dire mes données vivent dans un espace à 1000 dimensions) et je veux les projeter sur les trois principaux axes principaux. Ce que ces axes sont, est totalement hors de propos pour moi, et je n'ai aucune intention de "interpréter" ces axes en aucune façon. Ce qui m'intéresse, c'est la projection 3D (comme l'activité dépend du temps, j'obtiens une trajectoire dans cet espace 3D). Je vais donc bien si chaque axe a tous les 1000 coefficients non nuls.
D'un autre côté, quelqu'un pourrait travailler avec des données plus "tangibles", où les dimensions individuelles ont une signification évidente (contrairement aux neurones individuels ci-dessus). Par exemple, un ensemble de données de différentes voitures, où les dimensions vont du poids au prix. Dans ce cas, on pourrait en fait s'intéresser aux principaux axes principaux eux-mêmes, car on pourrait vouloir dire quelque chose: regardez, le 1er axe principal correspond à la "fantaisie" de la voiture (j'invente tout cela maintenant). Si la projection est clairsemée, de telles interprétations seraient généralement plus faciles à donner, car de nombreuses variables auront coefficients et ne sont donc évidemment pas pertinentes pour cet axe particulier. Dans le cas de l'ACP standard, on obtient généralement des coefficients non nuls pour toutes les variables.0
Vous pouvez trouver plus d'exemples et quelques discussions sur ce dernier cas dans l'article Sparse PCA de 2006 de Zou et al. La différence entre le premier et le dernier cas, cependant, je n'ai vu aucune discussion explicite nulle part (même si c'était probablement le cas).
la source
Oui tu as raison. Et s'il y a variables , vous avez alors Composant principal , et chaque variable a une information (une contribution) dans chaque PC .N V1, V2, ⋯ , VN N PC1, PC2, ⋯ , PCN Vje PCje
Dans la PCA clairsemée, il y a sans information de certaines variables , les variables de coefficient zéro.PCje Vj, Vl, ⋯
Ensuite, si dans un plan , il y a moins de variables que prévu ( ), il est plus facile d'effacer les relations linéaires entre elles dans ce plan.( PCje, PCj) N
la source
Pour comprendre les avantages de la rareté de l'ACP, vous devez vous assurer de connaître la différence entre les "chargements" et les "variables" (pour moi, ces noms sont quelque peu arbitraires, mais ce n'est pas important).
Supposons que vous ayez une matrice de données nxp X , où n est le nombre d'échantillons. La SVD de X = USV ' , vous donne trois matrices. La combinaison des deux premiers Z = US vous donne la matrice des composants principaux. Disons que votre rang réduit est k , alors Z est nxk . Z est essentiellement votre matrice de données après réduction de dimension. Historiquement,
D'autre part, V (qui est pxk ) contient les vecteurs de chargement principaux et ses entrées sont appelées les chargements principaux. Compte tenu des propriétés de l'ACP, il est facile de montrer que Z = XV . Cela signifie que:
Maintenant que ces définitions sont à l'écart, nous allons examiner la rareté. La plupart des papiers (ou du moins la plupart que j'ai rencontrés), imposent la rareté sur les chargements principaux (aka V ). L'avantage de la rareté est que
Il existe également des interprétations pour imposer la rareté sur les entrées de Z , que j'ai vu des gens appeler "variable clairsemée PCA" ", mais c'est beaucoup moins populaire et pour être honnête, je n'y ai pas beaucoup pensé.
la source