Questions marquées «clustering»

10

Avons-nous besoin de définir un ensemble de formation et un ensemble de tests pour le clustering?

Lorsque nous procédons à la classification et à la régression, nous définissons généralement des ensembles de tests et de formation pour nous aider à créer et à améliorer des modèles. Cependant, lorsque nous faisons du clustering, devons-nous également définir des ensembles de tests et de...

machine-learning clustering unsupervised-learning

10

Méthodes d'initialisation du clustering K-means

Je m'intéresse à l'état actuel de la technique pour sélectionner les semences initiales (centres de grappe) pour K-means. La recherche sur Google mène à deux choix populaires: sélection aléatoire des graines initiales, et, en utilisant la technique de sélection KMeans ++: Arthur & Vassilvitskii...

clustering k-means

10

Comment regrouper les variables longitudinales?

J'ai un tas de variables qui contiennent des données longitudinales du jour 0 au jour 7. Je cherche une approche de regroupement appropriée qui peut regrouper ces variables longitudinales (pas des cas) en différents groupes. J'ai essayé d'analyser cet ensemble de données séparément par le temps,...

clustering

10

Comprendre l'utilisation des logarithmes dans le logarithme TF-IDF

Je lisais: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Mais je n'arrive pas à comprendre exactement pourquoi la formule a été construite telle qu'elle est. Ce que je comprends: iDF devrait à un certain niveau mesurer la fréquence à laquelle un terme S apparaît dans chacun des documents,...

machine-learning clustering mathematical-statistics text-mining natural-language

10

Répartir les distributions

J'ai plusieurs distributions (10 distributions dans la figure ci-dessous). En fait ce sont des histogrammes: il y a 70 valeurs sur l'axe des x qui sont les tailles de certaines particules dans une solution et pour chaque valeur de x la valeur correspondante de y est la proportion de particules dont...

clustering

10

R régression linéaire variable catégorielle valeur «cachée»

Ceci est juste un exemple que j'ai rencontré plusieurs fois, donc je n'ai pas d'échantillons de données. Exécution d'un modèle de régression linéaire dans R: a.lm = lm(Y ~ x1 + x2) x1est une variable continue. x2est catégorique et a trois valeurs, par exemple "Low", "Medium" et "High". Cependant,...

r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

10

Détection de clusters de codes sources «similaires»

Supposons que j'ai 400 étudiants (c'est dans une grande université) qui doivent faire un projet d'informatique et qu'ils doivent travailler seuls (pas de groupe d'étudiants). Un exemple de projet pourrait être laissé "implémenter un algorithme de transformée de Fourier rapide dans fortran" (je...

hypothesis-testing clustering

10

Sur la corrélation cophénétique pour le regroupement des dendrogrammes

Considérez le contexte d'un regroupement de dendrogrammes. Appelons dissemblances originales les distances entre les individus. Après avoir construit le dendrogramme, nous définissons la dissimilarité cophénétique entre deux individus comme la distance entre les grappes auxquelles ces individus...

clustering classification

10

Évaluation des grappes de chaînes de Markov de premier ordre

J'ai regroupé mon ensemble de données de plusieurs milliers de chaînes de Markov de premier ordre en une dizaine de clusters. Existe-t-il une méthode recommandée pour évaluer ces clusters et découvrir ce que les éléments des clusters partagent et comment ils diffèrent des autres clusters? Je peux...

data-visualization clustering markov-process

10

Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?

J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou...

r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

10

Les faibles largeurs de silhouette signifient-elles que les données ont peu de structure sous-jacente?

Je suis nouveau dans l'analyse de séquence et je me demandais comment vous réagiriez si les largeurs de silhouette moyennes (ASW) des analyses de grappes de matrices de dissimilarité basées sur la correspondance optimale sont faibles (environ 25). Serait-il approprié de conclure qu'il existe peu de...

clustering traminer

10

Comment regrouper automatiquement une U-Matrix?

Après la formation d' une carte d'auto-organisation, on peut calculer le U-Matrix . Il existe des outils pour le visualiser manuellement et identifier les clusters, mais je me demande s'il existe un algorithme pour effectuer ce processus de manière automatique (c'est-à-dire ne pas avoir un humain...

clustering image-processing self-organizing-maps

10

Qu'est-il arrivé à Fuzzy Logic?

La logique floue semblait être un domaine de recherche actif dans l'apprentissage automatique et l'exploration de données lorsque j'étais à l'école (début des années 2000). Les systèmes d'inférence floue, les moyens c flous, les versions floues des divers réseaux de neurones et les architectures de...

fuzzy fuzzy-c-means-clustering

10

Trouver un nombre connu de centres de cercle qui maximisent le nombre de points à une distance fixe

J'ai un ensemble de données 2D où je veux trouver les centres d'un nombre spécifié de centres de cercles ( ) qui maximisent le nombre total de points dans une distance spécifiée ( ).NNNRRR Par exemple, j'ai 10 000 points de données et je veux trouver les centres de cercles qui capturent autant de...

r clustering distance

10

Comment obtenir l'intervalle de confiance sur le changement du carré de la population

Pour un exemple simple, supposons qu'il existe deux modèles de régression linéaire Modèle 1 a trois prédicteurs, x1a, x2betx2c Le modèle 2 a trois prédicteurs du modèle 1 et deux prédicteurs supplémentaires x2aetx2b Il existe une équation de régression de la population où la variance de la...

regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

10

PyMC pour le regroupement non paramétrique: le processus de Dirichlet pour estimer les paramètres du mélange gaussien ne parvient pas à se regrouper

Configuration du problème L'un des premiers problèmes de jouets auquel j'ai voulu appliquer PyMC est le clustering non paramétrique: étant donné certaines données, modélisez-le comme un mélange gaussien et apprenez le nombre de clusters et la moyenne et la covariance de chaque cluster. La plupart...

bayesian clustering python pymc nonparametric-bayes

10

Que signifie ss total et entre ss dans le clustering k-means?

Je suis très nouveau dans l'analyse de cluster. J'utilise R pour le clustering k-means et je me demande quelles sont ces choses. Et quoi de mieux si leur ratio est plus petit ou plus

clustering

10

Comment dois-je interpréter les statistiques GAP?

J'ai utilisé la statistique GAP pour estimer k grappes dans R. Cependant, je ne suis pas sûr de bien l'interpréter. D'après l'intrigue ci-dessus, je suppose que je devrais utiliser 3 clusters. Dans la deuxième parcelle, je devrais choisir 6 grappes. Est-ce une interprétation correcte des...

clustering

10

Approche et exemple de regroupement de graphes en «R»

Je cherche à regrouper / fusionner des nœuds dans un graphique en utilisant le regroupement de graphiques dans «r». Voici une variation étonnamment jouet de mon problème. Il existe deux "clusters" Il existe un "pont" reliant les clusters Voici un réseau de candidats: Quand je regarde la distance de...

r clustering data-visualization numerics

10

Index Rand ajusté vs informations mutuelles ajustées

J'essaie d'évaluer les performances de clustering. Je lisais la documentation skiscit-learn sur les métriques . Je ne comprends pas la différence entre ARI et AMI. Il me semble qu'ils font la même chose de deux manières différentes. Citant de la documentation: Compte tenu de la connaissance des...

clustering python scikit-learn