Questions marquées «clustering»

17

Tracé visuel de données de grappe multidimensionnelles

J'ai un ensemble de données avec 16 variables, et après regroupement par kmeans, je souhaite tracer les deux groupes. Quelles parcelles proposez-vous pour représenter visuellement les deux

data-visualization clustering k-means

16

Hypothèses de l'analyse en grappes

Toutes mes excuses pour la question rudimentaire, je suis nouveau dans cette forme d'analyse et j'ai une compréhension très limitée des principes jusqu'à présent. Je me demandais simplement si bon nombre des hypothèses paramétriques pour les tests multivariés / univariés s'appliquent à l'analyse de...

clustering assumptions

16

Quel algorithme ward.D dans hclust () implémente-t-il si ce n'est pas le critère de Ward?

Celui utilisé par l'option "ward.D" (équivalent à la seule option Ward "ward" dans les versions R <= 3.0.3) n'implémente pas le critère de regroupement de Ward (1963), tandis que l'option "ward.D2" implémente ce critère ( Murtagh et Legendre 2014). (

r clustering ward

16

Quand combinons-nous la réduction de dimensionnalité avec le clustering?

J'essaie d'effectuer un clustering au niveau du document. J'ai construit la matrice de fréquence terme-document et j'essaie de regrouper ces vecteurs de haute dimension en utilisant k-means. Au lieu de regrouper directement, ce que j'ai fait, j'ai d'abord appliqué la décomposition vectorielle...

clustering pca dimensionality-reduction text-mining svd

16

Regroupement de données 1D

J'ai un ensemble de données, je veux créer des clusters sur ces données en fonction d'une seule variable (il n'y a pas de valeurs manquantes). Je veux créer 3 clusters basés sur cette variable. Quel algorithme de clustering utiliser, k-means, EM, DBSCAN etc.? Ma question principale est, dans...

clustering

15

Quelle est la bonne méthode pour le regroupement de texte court?

Je travaille sur un problème de clustering de texte. Les données contiennent plusieurs phrases. Existe-t-il un bon algorithme qui atteint une grande précision sur un texte court? Pouvez-vous fournir de bonnes références? Des algorithmes tels que KMeans, le clustering spectral ne fonctionnent pas...

machine-learning clustering text-mining

15

Text Mining: comment regrouper des textes (par exemple des articles de presse) avec l'intelligence artificielle?

J'ai construit des réseaux de neurones (MLP (entièrement connecté), Elman (récurrent)) pour différentes tâches, comme jouer au Pong, classer les chiffres manuscrits et tout ça ... De plus, j'ai essayé de construire certains premiers réseaux de neurones convolutifs, par exemple pour classer des...

clustering neural-networks feature-selection text-mining self-organizing-maps

15

Quelle est l'intuition derrière les échantillons échangeables sous l'hypothèse nulle?

Les tests de permutation (également appelés test de randomisation, test de re-randomisation ou test exact) sont très utiles et s'avèrent utiles lorsque l'hypothèse de distribution normale requise par exemple t-testn'est pas remplie et lorsque la transformation des valeurs par classement des un test...

hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

15

Clustering: Dois-je utiliser la divergence Jensen-Shannon ou son carré?

Je regroupe les distributions de probabilité en utilisant l' algorithme de propagation d'affinité et je prévois d'utiliser la divergence de Jensen-Shannon comme métrique de distance. Est-il correct d'utiliser JSD lui-même comme distance ou JSD au carré? Pourquoi? Quelles différences résulteraient...

machine-learning clustering entropy distance-functions

15

Est-il acceptable d'utiliser la distance de Manhattan avec la liaison inter-cluster de Ward dans le clustering hiérarchique?

J'utilise le clustering hiérarchique pour analyser les données de séries chronologiques. Mon code est implémenté à l'aide de la fonction MathematicaDirectAgglomerate[...] , qui génère des clusters hiérarchiques compte tenu des entrées suivantes: une matrice de distance D le nom de la méthode...

clustering distance-functions ward

15

Comment tracer la sortie des données du clustering?

J'ai essayé de regrouper un ensemble de données (un ensemble de marques) et j'ai obtenu 2 clusters. Je voudrais le représenter graphiquement. Un peu confus au sujet de la représentation, car je n'ai pas les coordonnées (x, y). Recherche également la fonction MATLAB / Python pour le faire. ÉDITER Je...

clustering data-visualization python

15

Quelle méthode de comparaison multiple utiliser pour un modèle lmer: lsmeans ou glht?

J'analyse un ensemble de données à l'aide d'un modèle à effets mixtes avec un effet fixe (condition) et deux effets aléatoires (participant en raison de la conception et de la paire du sujet). Le modèle a été généré avec le lme4package:

r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

15

Comment adapter le modèle de mélange pour le clustering

J'ai deux variables - X et Y et je dois faire un cluster maximum (et optimal) = 5. Disons que le tracé idéal des variables est comme suit: Je voudrais en faire 5 clusters. Quelque chose comme ça: Je pense donc que c'est un modèle de mélange avec 5 grappes. Chaque grappe a un point central et un...

r clustering gaussian-mixture

15

La précision de la machine augmentant le gradient diminue à mesure que le nombre d'itérations augmente

J'expérimente l'algorithme de la machine de renforcement de gradient via le caretpackage en R. À l'aide d'un petit ensemble de données d'admission à l'université, j'ai exécuté le code suivant: library(caret) ### Load admissions dataset. ### mydata <-

machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

15

Séries temporelles et détection d'anomalies

Je voudrais configurer un algorithme pour détecter une anomalie dans les séries temporelles, et je prévois d'utiliser le clustering pour cela. Pourquoi devrais-je utiliser une matrice de distance pour le clustering et non les données brutes des séries temporelles ?, Pour la détection de l'anomalie,...

time-series clustering trend

15

Comment calculer la pureté?

Dans l'analyse en grappes, comment calculer la pureté? Quelle est l'équation? Je ne cherche pas de code pour le faire pour moi. Soit ωkωk\omega_k le cluster k et cjcjc_j la classe j. La pureté est-elle pratiquement exacte? il semble que l'on additionne la quantité de classes véritablement classées...

clustering

14

Implémentation de k-means avec matrice de distance personnalisée en entrée

Quelqu'un peut-il me signaler une implémentation de k-means (ce serait mieux si dans matlab) qui peut prendre la matrice de distance en entrée? L'implémentation matlab standard nécessite la matrice d'observation en entrée et il n'est pas possible de modifier la mesure de similitude de façon...

clustering matlab k-means

14

k-signifie vs k-médiane?

Je sais qu'il y a un algorithme de clustering k-means et une k-médiane. L'un qui utilise la moyenne comme centre de la grappe et l'autre utilise la médiane. Ma question est: quand / où utiliser

clustering k-means

14

Existe-t-il une fonction dans R qui prend les centres des clusters trouvés et affecte des clusters à un nouvel ensemble de données

J'ai deux parties d'un ensemble de données multidimensionnelles, appelons-les trainet test. Et je veux construire un modèle basé sur l'ensemble de données du train, puis le valider sur l'ensemble de données de test. Le nombre de clusters est connu. J'ai essayé d'appliquer le clustering k-means dans...

r clustering k-means

14

Dirichlet Processus de clustering: comment gérer les étiquettes?

Q: Quelle est la méthode standard pour regrouper des données à l'aide d'un processus Dirichlet? Lors de l'utilisation de Gibbs, des grappes d'échantillonnage apparaissent et disparaissent pendant l'échantillonnage. Par ailleurs, nous avons un problème d'identifiabilité car la distribution...

bayesian clustering mcmc dirichlet-process identifiability