Questions marquées «clustering»

12
Regroupement des données spatiales dans R

J'ai un ensemble de données mensuelles sur la température de surface de la mer (SST) et je souhaite appliquer une méthodologie de cluster pour détecter les régions avec des modèles SST similaires. J'ai un ensemble de fichiers de données mensuels de 1985 à 2009 et je souhaite appliquer le clustering...

12
Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?

J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1,...

12
Pouvez-vous comparer différentes méthodes de clustering sur un ensemble de données sans vérité de fond par validation croisée?

Actuellement, j'essaie d'analyser un ensemble de données de document texte qui n'a aucune vérité fondamentale. On m'a dit que vous pouvez utiliser la validation croisée k-fold pour comparer différentes méthodes de clustering. Cependant, les exemples que j'ai vus dans le passé utilisent une vérité...

12
Test exact de Fisher et distribution hypergéométrique

Je voulais mieux comprendre le test exact du pêcheur, j'ai donc imaginé l'exemple de jouet suivant, où f et m correspond à l'homme et à la femme, et n et y correspond à la "consommation de soda" comme ceci: > soda_gender f m n 0 5 y 5 0 Évidemment, c'est une simplification drastique, mais je ne...

12
k-means || alias K-Means évolutif ++

Bahman Bahmani et al. a introduit k-means ||, qui est une version plus rapide de k-means ++. Cet algorithme est tiré de la page 4 de leur article , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., et Vassilvitskii, S. (2012). K-means évolutif ++. Actes de la dotation VLDB , 5 (7), 622-633....