Questions marquées «clustering»

13

Des techniques de clustering appropriées pour les données temporelles?

J'ai des données temporelles de fréquences d'activité. Je veux identifier des grappes dans les données qui indiquent des périodes de temps distinctes avec des niveaux d'activité similaires. Idéalement, je veux identifier les clusters sans spécifier le nombre de clusters a priori. Quelles sont les...

machine-learning clustering

13

Cluster les Big Data dans R et l'échantillonnage est-il pertinent?

Je suis nouveau dans la science des données et j'ai du mal à trouver des clusters dans un ensemble de données avec 200 000 lignes et 50 colonnes en R. Étant donné que les données ont des variables numériques et nominales, des méthodes comme K-means qui utilise la mesure de distance euclidienne ne...

r clustering sampling large-data

13

Dois-je supprimer des variables qui sont corrélées / colinéaires avant d'exécuter kmeans?

Je lance kmeans pour identifier les clusters de clients. J'ai environ 100 variables pour identifier les grappes. Chacune de ces variables représente le% des dépenses d'un client sur une catégorie. Donc, si j'ai 100 catégories, j'ai ces 100 variables telles que la somme de ces variables est de 100%...

clustering data-mining k-means multicollinearity compositional-data

12

Comment puis-je tester si mon clustering de données binaires est significatif

Je fais des analyses de panier mon ensemble de données est un ensemble de vecteurs de transaction, avec les articles que les produits sont achetés. Lors de l'application de k-means sur les transactions, j'obtiendrai toujours un résultat. Une matrice aléatoire montrerait probablement aussi quelques...

clustering statistical-significance binary-data

12

Livres ou articles recommandés comme introduction à l'analyse de cluster?

Je travaille sur un petit corpus de texte (200M), que je veux explorer avec une analyse de cluster. Quels livres ou articles sur ce sujet recommanderiez-vous?

machine-learning references clustering

12

Regroupement des données spatiales dans R

J'ai un ensemble de données mensuelles sur la température de surface de la mer (SST) et je souhaite appliquer une méthodologie de cluster pour détecter les régions avec des modèles SST similaires. J'ai un ensemble de fichiers de données mensuels de 1985 à 2009 et je souhaite appliquer le clustering...

r clustering spatial

12

Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?

J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1,...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

12

Méthode de cluster robuste pour les données mixtes dans R

Je cherche à regrouper un petit ensemble de données (64 observations de 4 variables d'intervalle et une seule variable catégorielle à trois facteurs). Maintenant, je suis assez nouveau dans l'analyse de cluster, mais je suis conscient qu'il y a eu des progrès considérables depuis l'époque où le...

clustering model-based-clustering mixed-type-data

12

Puis-je utiliser PCA pour effectuer une sélection de variables pour l'analyse de cluster?

Je dois réduire le nombre de variables pour effectuer une analyse de cluster. Mes variables sont fortement corrélées, j'ai donc pensé faire une analyse factorielle PCA (analyse en composantes principales). Cependant, si j'utilise les scores obtenus, mes grappes ne sont pas tout à fait correctes...

clustering pca feature-selection factor-analysis

12

Pouvez-vous comparer différentes méthodes de clustering sur un ensemble de données sans vérité de fond par validation croisée?

Actuellement, j'essaie d'analyser un ensemble de données de document texte qui n'a aucune vérité fondamentale. On m'a dit que vous pouvez utiliser la validation croisée k-fold pour comparer différentes méthodes de clustering. Cependant, les exemples que j'ai vus dans le passé utilisent une vérité...

machine-learning clustering cross-validation unsupervised-learning

12

Comment puis-je savoir que mon algorithme de clustering k-means souffre de la malédiction de la dimensionnalité?

Je pense que le titre de cette question dit tout.

clustering k-means high-dimensional

12

Test exact de Fisher et distribution hypergéométrique

Je voulais mieux comprendre le test exact du pêcheur, j'ai donc imaginé l'exemple de jouet suivant, où f et m correspond à l'homme et à la femme, et n et y correspond à la "consommation de soda" comme ceci: > soda_gender f m n 0 5 y 5 0 Évidemment, c'est une simplification drastique, mais je ne...

fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

12

Interprétation du résultat du clustering k-means dans R

J'utilisais l' kmeansinstruction de R pour effectuer l'algorithme k-means sur l'ensemble de données iris d'Anderson. J'ai une question sur certains paramètres que j'ai obtenus. Les résultats sont: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000...

r machine-learning clustering interpretation k-means

12

Que faire lorsque la matrice de covariance de l'échantillon n'est pas inversible?

Je travaille sur certaines techniques de regroupement, où pour un groupe donné de vecteurs de dimension d, je suppose une distribution normale multivariée et je calcule le vecteur moyen d'échantillon d et la matrice de covariance de l'échantillon. Ensuite , lorsque vous essayez de décider si un...

clustering multivariate-analysis covariance covariance-matrix matrix-inverse

12

k-means || alias K-Means évolutif ++

Bahman Bahmani et al. a introduit k-means ||, qui est une version plus rapide de k-means ++. Cet algorithme est tiré de la page 4 de leur article , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., et Vassilvitskii, S. (2012). K-means évolutif ++. Actes de la dotation VLDB , 5 (7), 622-633....

clustering k-means

11

Regroupement SOM pour les variables nominales / circulaires

Je me demande simplement si quelqu'un est familier avec le regroupement des entrées nominales. J'ai regardé SOM comme une solution mais apparemment, cela ne fonctionne qu'avec des fonctionnalités numériques. Existe-t-il des extensions pour les fonctionnalités catégorielles? Plus précisément, je me...

clustering unsupervised-learning self-organizing-maps

11

Comment trouver des regroupements (trajectoires) parmi les données longitudinales?

Le contexte Je veux planter le décor avant d'étendre quelque peu la question. J'ai des données longitudinales, des mesures sont prises sur des sujets environ tous les 3 mois, le résultat principal est numérique (comme en continu à 1dp) dans la plage de 5 à 14, la masse (de tous les points de...

clustering panel-data

11

Quel algorithme dois-je utiliser pour regrouper un énorme ensemble de données binaires en quelques catégories?

J'ai une grande matrice (650K lignes * 62 colonnes) de données binaires (0-1 entrées uniquement). La matrice est généralement clairsemée: environ 8% est remplie. Je voudrais le regrouper en 5 groupes - disons nommés de 1 à 5. J'ai essayé le regroupement hiérarchique et il n'a pas pu gérer la...

clustering dataset k-means binary-data

11

Comprendre et implémenter un modèle de processus Dirichlet

J'essaie de mettre en œuvre et d'apprendre un processus Dirichlet pour regrouper mes données (ou pendant que les gens apprennent automatiquement, estimer la densité). J'ai lu beaucoup d'articles sur le sujet et j'ai en quelque sorte eu l'idée. Mais je suis toujours confus; voici une série de...

machine-learning clustering dirichlet-process

11

Quelles sont les distances entre les variables constituant une matrice de covariance?

J'ai une matrice de covariance et je souhaite partitionner les variables en clusters en utilisant un clustering hiérarchique (par exemple, pour trier une matrice de covariance).n×nn×nn \times nkkk Existe-t-il une fonction de distance typique entre les variables (c'est-à-dire entre les colonnes /...

clustering covariance distance-functions distance