Questions marquées «clustering»

44

Une normalisation moyenne et une mise à l'échelle des fonctionnalités sont-elles nécessaires pour la classification en k-means?

Quelles sont les meilleures étapes (recommandées) de prétraitement avant d’utiliser

clustering normalization k-means

42

Comment faire la détection de la communauté dans un réseau social / graphique pondéré?

Je me demande si quelqu'un pourrait suggérer quels sont les bons points de départ pour effectuer une détection de communauté / partitionnement / regroupement de graphes sur un graphique comportant des arêtes pondérées et non dirigées . Le graphique en question a environ 3 millions d'arêtes et...

clustering data-visualization networks partitioning modularity

40

Regroupement temporel dynamique

Quelle serait l'approche d'utiliser Dynamic Time Warping (DTW) pour regrouper des séries chronologiques? J'ai lu que DTW était un moyen de trouver des similitudes entre deux séries chronologiques, alors qu'elles pouvaient être décalées dans le temps. Puis-je utiliser cette méthode comme mesure de...

time-series clustering

38

Séries chronologiques 'clustering' in R

J'ai un ensemble de données chronologiques. Chaque série couvre la même période, bien que les dates réelles dans chaque série chronologique ne soient pas toutes "alignées" exactement. Autrement dit, si la série chronologique devait être lue dans une matrice 2D, elle ressemblerait à ceci: date T1 T2...

r time-series clustering cointegration

35

Comment choisir une méthode de clustering? Comment valider une solution de cluster (pour justifier le choix de la méthode)?

L’un des problèmes les plus importants de l’analyse par grappes est qu’il peut arriver que nous devions tirer des conclusions différentes lorsque nous nous basons sur différentes méthodes de classification utilisées (y compris différentes méthodes de couplage dans une classification hiérarchique)....

clustering validation model-evaluation hierarchical-clustering

34

Pourquoi y a-t-il une différence entre le calcul manuel d'un intervalle de confiance de 95% selon la régression logistique et l'utilisation de la fonction confint () dans R?

Cher tout le monde - J'ai remarqué quelque chose d'étrange que je ne peux pas expliquer, pouvez-vous? En résumé: l'approche manuelle pour calculer un intervalle de confiance dans un modèle de régression logistique et la fonction R confint()donnent des résultats différents. Je suis passé par la...

r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

34

Comment interpréter la moyenne du complot Silhouette?

J'essaie d'utiliser le tracé de la silhouette pour déterminer le nombre de clusters dans mon jeu de données. Étant donné le jeu de données Train , j'ai utilisé le code matlab suivant Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid =

data-visualization clustering matlab

34

Pourquoi le t-SNE n'est-il pas utilisé comme technique de réduction de la dimensionnalité pour la classification ou le regroupement?

Lors d'une récente mission, il nous a été dit d'utiliser PCA sur les chiffres du MNIST pour réduire les dimensions de 64 (8 x 8 images) à 2. Nous avons ensuite dû regrouper les chiffres à l'aide d'un modèle de mélange gaussien. La PCA n'utilisant que 2 composantes principales ne produit pas de...

classification clustering pca dimensionality-reduction tsne

34

Clustering hiérarchique avec données de type mixte - quelle distance / similarité à utiliser?

Dans mon jeu de données, nous avons à la fois des variables continues et des variables naturellement discrètes. Je veux savoir si nous pouvons faire une classification hiérarchique en utilisant les deux types de variables. Et si oui, quelle mesure de distance est

clustering similarities distance-functions mixed-type-data

33

Choisir la bonne méthode de liaison pour le clustering hiérarchique

Je joue la classification hiérarchique des données que j'ai recueillies et traitées de la décharge de données reddit sur Google BigQuery. Mon processus est le suivant: Recevez les 1000 derniers articles dans / r / politique Rassemblez tous les commentaires Traiter les données et calculer une n x...

clustering distance unsupervised-learning hierarchical-clustering

33

(Pourquoi) La SOM à la Kohonen est-elle tombée en disgrâce?

Autant que je sache, les MOS de style Kohonen ont connu un pic vers 2005 et n’ont pas suscité autant de faveur récemment. Je n'ai trouvé aucun article indiquant que les MOS ont été assimilés par une autre méthode ou prouvés équivalents à autre chose (de toute façon à des dimensions plus élevées)....

clustering self-organizing-maps

33

Mise en cluster d'un jeu de données avec des variables à la fois discrètes et continues

J'ai un jeu de données X qui a 10 dimensions, dont 4 sont des valeurs discrètes. En fait, ces 4 variables discrètes sont ordinales, c'est-à-dire qu'une valeur plus élevée implique une sémantique plus élevée / meilleure. 2 de ces variables discrètes sont catégoriques en ce sens que pour chacune de...

clustering k-means discrete-data continuous-data gaussian-mixture

32

Comment PCA pourrait-il aider avec une analyse de classification k-means?

Contexte : Je souhaite classer les zones résidentielles d'une ville en groupes en fonction de leurs caractéristiques socio-économiques, y compris la densité d'unités de logement, la densité de population, les espaces verts, le prix du logement, le nombre d'écoles / centres de santé / garderies,...

clustering pca k-means dimensionality-reduction

32

Quels critères d'arrêt pour le clustering hiérarchique aggloméré sont utilisés dans la pratique?

J'ai trouvé une littérature abondante proposant toutes sortes de critères (par exemple Glenn et al. 1985 (pdf) et Jung et al. 2002 (pdf)). Cependant, la plupart d'entre eux ne sont pas si faciles à mettre en œuvre (du moins de mon point de vue). J'utilise scipy.cluster.hierarchy pour obtenir une...

clustering

31

Regroupement d'une longue liste de chaînes (mots) en groupes de similarité

J'ai le problème suivant à portée de main: j'ai une très longue liste de mots, éventuellement des noms, des noms de famille, etc. J'ai besoin de regrouper cette liste de mots, de sorte que des mots similaires, par exemple des mots avec une distance d'édition similaire (Levenshtein) apparaissent...

clustering k-means pattern-recognition

30

Analyse de classe latente vs analyse de cluster - différences dans les inférences?

Quelles sont les différences dans les inférences qui peuvent être faites à partir d'une analyse de classe latente (ACV) par rapport à une analyse en grappes? Est-il exact qu'une ACV suppose une variable latente sous-jacente qui donne naissance aux classes, alors que l'analyse de cluster est une...

clustering latent-variable latent-class

29

Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...

regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

28

Calcul de la répétabilité des effets d'un modèle lmer

Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit)...

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

28

Comment réduire la dimensionnalité dans R

J'ai une matrice où a (i, j) me dit combien de fois j'ai consulté individuellement la page j. Il y a 27 000 personnes et 95 000 pages. J'aimerais avoir une poignée de "dimensions" ou "aspects" dans l'espace des pages qui correspondraient à des ensembles de pages qui sont souvent vues ensemble. Mon...

r clustering dimensionality-reduction

28

Comparaison des dendrogrammes de regroupement hiérarchique obtenus par différentes distances et méthodes

[Le titre initial "Mesure de la similitude pour les arbres de clustering hiérarchiques" a été modifié par la suite par @ttnphns pour mieux refléter le sujet] J'effectue un certain nombre d' analyses de grappes hiérarchiques sur une trame de données des dossiers des patients (par exemple similaire à...

r clustering distance-functions similarities dendrogram