Questions marquées «clustering»

25
LSA contre PCA (regroupement de documents)

J'étudie différentes techniques utilisées dans le clustering de documents et je voudrais dissiper certains doutes concernant PCA (analyse en composantes principales) et LSA (analyse sémantique latente). Première chose - quelles sont les différences entre eux? Je sais qu'en PCA, la décomposition SVD...

23
La réduction de dimensionnalité pour la visualisation doit-elle être considérée comme un problème «fermé», résolu par t-SNE?

J'ai beaucoup lu sur l' algorithme -snettt pour la réduction de dimensionnalité. Je suis très impressionné par les performances sur les ensembles de données "classiques", comme MNIST, où il réalise une séparation claire des chiffres ( voir l'article original ): Je l'ai également utilisé pour...

22
Effectuer un regroupement K-means (ou ses proches parents) avec uniquement une matrice de distance, pas des données de points par entités

Je veux effectuer un regroupement K-means sur les objets que j'ai, mais les objets ne sont pas décrits comme des points dans l'espace, c'est-à-dire par objects x featuresensemble de données. Cependant, je suis capable de calculer la distance entre deux objets quelconques (il est basé sur une...

22
Comment regrouper des séries chronologiques?

J'ai une question sur l'analyse de cluster. Il y a 3000 entreprises, qui doivent être regroupées en fonction de leur consommation d'énergie sur 5 ans. Chaque entreprise a des valeurs pour chaque heure pendant 5 ans. J'aimerais savoir si certaines entreprises ont le même modèle de puissance...

22
Regroupement d'une matrice binaire

J'ai une matrice semi-petite de caractéristiques binaires de dimension 250k x 100. Chaque ligne est un utilisateur et les colonnes sont des "balises" binaires d'un certain comportement d'utilisateur, par exemple "likes_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1...

21
Comment projeter un nouveau vecteur sur l'espace PCA?

Après avoir effectué l'analyse des composants principaux (PCA), je souhaite projeter un nouveau vecteur sur l'espace PCA (c'est-à-dire trouver ses coordonnées dans le système de coordonnées PCA). J'ai calculé PCA en langage R en utilisant prcomp. Maintenant, je devrais pouvoir multiplier mon...

21
Pourquoi les données mixtes posent-elles un problème pour les algorithmes de clustering basés sur les euclidiens?

La plupart des algorithmes de clustering et de réduction de dimensionnalité classiques (clustering hiérarchique, analyse des composants principaux, k-means, cartes auto-organisées ...) sont conçus spécifiquement pour les données numériques, et leurs données d'entrée sont considérées comme des...