Supposons que j'ai un ensemble de données à dimensions où les N dimensions sont à peu près orthogonales (ont une corrélation nulle).
Existe-t-il une utilité en termes de:
- Visualisation
- Représentation (pour l'efficacité du classificateur)
- Ou d'autres critères
effectuer une réduction de dimensionnalité sur les données?
pca
dimensionality-reduction
user1172468
la source
la source
Réponses:
Je voulais clarifier un commentaire que j'ai laissé sous la réponse de @ Peter-Flom, mais cela vaut probablement la peine d'écrire une réponse. Dans quelle mesure pouvez-vous réduire les dimensions en exécutant PCA sur des données presque orthogonales? La réponse est "cela dépend" si vous effectuez l'ACP sur la matrice de corrélation ou de covariance .
Si vous utilisez PCA sur la matrice de corrélation, alors comme cela ne diffère que légèrement de la matrice d'identité, il y a une symétrie sphérique qui rend toutes les directions "également informatives". Redimensionner les variances de vos variables à une avant l'ACP est une approche mathématiquement équivalente qui produira le même résultat. Bien que la sortie de l'ACP identifie certaines composantes avec une variance légèrement plus faible que d'autres, cela peut être attribué (si nous supposons une corrélation nulle dans la population) à rien de plus qu'une variation aléatoire de l'échantillon, donc ce ne serait pas une bonne raison de les abandonner. Composants. En fait, une telle disparité entre les écarts-types des composants devrait diminuer en ampleur à mesure que nous augmentons la taille de l'échantillon. Nous pouvons le confirmer dans une simulation.
Production:
Cependant, si vous effectuez l'ACP en utilisant la matrice de covariance au lieu de la matrice de corrélation (de manière équivalente: si nous ne mettons pas les écarts-types à 1 avant d'appliquer l'ACP), la réponse dépend de la répartition de vos variables. Si vos variables ont la même variance, nous avons toujours une symétrie sphérique, donc il n'y a pas de "direction privilégiée" et la réduction dimensionnelle ne peut pas être obtenue.
Cependant, avec un mélange de variables de variance élevée et faible, la symétrie ressemble plus à un ellipsoïde avec des axes larges et d'autres fins. Dans cette situation, des composants à variance élevée se chargeront sur les variables à variance élevée (où l'ellipsoïde est large) et des composants à faible variance se chargeront sur les variables à faible variance (dans quelles directions l'ellipsoïde est étroit).
Si les variables ont des variances très différentes (géométriquement un ellipsoïde à nouveau mais avec tous les axes différents), alors l'orthogonalité permet au premier PC de se charger très fortement sur la variable de variance la plus élevée et ainsi de suite.
Dans les deux derniers cas, il y avait des composants à faible variance que vous pourriez envisager de jeter pour obtenir une réduction dimensionnelle, mais cela équivaut exactement à jeter les variables de variance les plus faibles en premier lieu . Essentiellement, l'orthogonalité vous permet d'identifier les composants à faible variance avec des variables à faible variance.Par conséquent, si vous avez l'intention de réduire la dimensionnalité de cette manière, il n'est pas clair que vous bénéficieriez de l'utilisation de PCA pour ce faire.
Nota bene: le temps passé à discuter du cas où les variables ne sont pas redimensionnées en variance unitaire - c'est-à-dire en utilisant la covariance plutôt que la matrice de corrélation - ne doit pas être considéré comme une indication que cette approche est en quelque sorte plus importante, et certainement pas qu'elle est mieux". La symétrie de la situation est tout simplement plus subtile et nécessite donc une discussion plus longue.
la source
Vous pouvez essayer une méthode d'apprentissage de réduction de dimensionnalité non linéaire plus générale comme l'intégration localement linéaire, les cartes propres laplaciennes ou t-SNE.
Il est parfaitement possible qu'il y ait un sous-espace de dimension inférieure (collecteur) dans vos données d'une manière qui ne laisse aucune corrélation entre les dimensions à base N. Par exemple, un cercle de points sur l'origine ou la forme d'onde comme on le voit ici . L'ACP ne reprendra pas cela, mais d'autres méthodes le feront.
L'étude de ces méthodes est particulièrement intéressante et courante pour la visualisation et l'analyse exploratoire des données. Pour une utilisation dans un classificateur ou un autre modèle, vous devrez vous limiter aux méthodes qui peuvent être adaptées à la formation et appliquées au test, ce qui exclut un grand nombre de ces méthodes. Si tel est votre principal intérêt, vous devez également étudier les méthodes de pré-formation non supervisée et d'ingénierie des fonctionnalités (supervisée).
la source
Si toutes les N variables sont à peu près orthogonales, la réduction de dimension fera relativement peu de réduction. Par exemple dans
R
En substance, "orthogonal" implique "déjà à sa plus petite taille".
la source
x1<-rnorm(100, sd=0.1)
etpcsol <- princomp(df1, cor=FALSE)
il y a une différence, surtout si nous regardonssummary(pcsol)
. (Je ne suggère pas que cov soit une meilleure approche que cor, juste que c'est possible.)