Questions marquées «dimensionality-reduction»

Fait référence aux techniques permettant de réduire un grand nombre de variables ou de dimensions réparties par les données à un plus petit nombre de dimensions tout en préservant autant d'informations sur les données que possible. Les principales méthodes comprennent PCA, MDS, Isomap, etc. Les deux principales sous-classes de techniques: l'extraction et la sélection d'entités.

37
Quand le t-SNE est-il trompeur?

Citant l'un des auteurs: L'intégration de voisins stochastiques t-distribués (t-SNE) est une technique ( primée ) de réduction de dimensionnalité particulièrement bien adaptée à la visualisation de jeux de données de grande dimension. Cela semble donc très bien, mais c'est l'auteur qui parle. Une...

34
Pourquoi le t-SNE n'est-il pas utilisé comme technique de réduction de la dimensionnalité pour la classification ou le regroupement?

Lors d'une récente mission, il nous a été dit d'utiliser PCA sur les chiffres du MNIST pour réduire les dimensions de 64 (8 x 8 images) à 2. Nous avons ensuite dû regrouper les chiffres à l'aide d'un modèle de mélange gaussien. La PCA n'utilisant que 2 composantes principales ne produit pas de...

33
Quelle est la raison intuitive derrière les rotations dans l'analyse factorielle / ACP et comment sélectionner la rotation appropriée?

Mes questions Quelle est la raison intuitive derrière la rotation des facteurs dans l'analyse factorielle (ou des composants de la PCA)? D'après ce que je comprends, si les variables sont presque également chargées dans les principaux composants (ou facteurs), il est évidemment difficile de...

29
Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...

28
Comment réduire la dimensionnalité dans R

J'ai une matrice où a (i, j) me dit combien de fois j'ai consulté individuellement la page j. Il y a 27 000 personnes et 95 000 pages. J'aimerais avoir une poignée de "dimensions" ou "aspects" dans l'espace des pages qui correspondraient à des ensembles de pages qui sont souvent vues ensemble. Mon...

25
Comment les principaux composants principaux peuvent-ils conserver le pouvoir prédictif sur une variable dépendante (ou même conduire à de meilleures prédictions)?

Supposons que je courais une régression . Pourquoi en sélectionnant les premiers composants de , le modèle conserve-t-il son pouvoir prédictif sur ?k X YOui∼ XOui∼XY \sim XkkkXXXOuiOuiY Je comprends que du point de vue de la réduction de dimensionnalité / sélection des caractéristiques, si sont les...

23
La réduction de dimensionnalité pour la visualisation doit-elle être considérée comme un problème «fermé», résolu par t-SNE?

J'ai beaucoup lu sur l' algorithme -snettt pour la réduction de dimensionnalité. Je suis très impressionné par les performances sur les ensembles de données "classiques", comme MNIST, où il réalise une séparation claire des chiffres ( voir l'article original ): Je l'ai également utilisé pour...

22
Pourquoi n'y a-t-il que

En PCA, lorsque le nombre de dimensions est supérieur (voire égal) au nombre d'échantillons , pourquoi avez-vous au plus vecteurs propres non nuls? En d'autres termes, le rang de la matrice de covariance parmi les dimensions est .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Exemple: Vos échantillons sont...