Il semble que pour les moyennes K et d'autres algorithmes associés, le regroupement est basé sur le calcul de la distance entre les points. Y en a-t-il un qui fonctionne sans
Il semble que pour les moyennes K et d'autres algorithmes associés, le regroupement est basé sur le calcul de la distance entre les points. Y en a-t-il un qui fonctionne sans
Quelqu'un utilise-t-il les métriques L1L1L_1 ou L.5L.5L_.5 pour le clustering, plutôt que L2L2L_2 ? Aggarwal et al., A propos du comportement surprenant des mesures de distance dans un espace de grande dimension, a déclaré (en 2001) que L1L1L_1 est toujours plus préférable que la métrique de...
Quelqu'un peut-il me signaler une implémentation de k-means (ce serait mieux si dans matlab) qui peut prendre la matrice de distance en entrée? L'implémentation matlab standard nécessite la matrice d'observation en entrée et il n'est pas possible de modifier la mesure de similitude de façon...
DBSCAN est l'algorithme de clustering le plus cité selon certaines publications et il peut trouver des clusters de formes arbitraires en fonction de la densité. Il a deux paramètres eps (comme rayon de voisinage) et minPts (comme voisins minimum pour considérer un point comme point central) dont je...
C'est une question naïve de quelqu'un qui commence à apprendre le machine learning. Je lis ces jours-ci le livre "Machine Learning: An algorithmic perspective" de Marsland. Je le trouve utile comme livre d'introduction, mais maintenant je voudrais entrer dans les algorithmes avancés, ceux qui...
J'essaie de saisir la mesure de déformation temporelle dynamique pour comparer les séries temporelles ensemble. J'ai trois séries de données chronologiques comme celle-ci: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783,...
Ce qui suit décrit ce que j'essaie d'accomplir, mais il est possible qu'une autre déclaration de problème puisse décrire mon objectif: je veux divisez les nombres suivants en groupes où les variances des nombres au sein de chaque groupe ne sont pas trop importantes et où les différences entre les...
Je sais qu'il y a un algorithme de clustering k-means et une k-médiane. L'un qui utilise la moyenne comme centre de la grappe et l'autre utilise la médiane. Ma question est: quand / où utiliser
Je sais que cette question n'est pas bien définie, mais certains clusters ont tendance à être elliptiques ou se situent dans un espace dimensionnel inférieur tandis que les autres ont des formes non linéaires (dans les exemples 2D ou 3D). Existe-t-il une mesure de non-linéarité (ou "forme") des...
J'ai fait des recherches sur k-means et voici ce que j'ai obtenu: k-means est l'un des algorithmes les plus simples qui utilise une méthode d'apprentissage non supervisée pour résoudre les problèmes de clustering connus. Cela fonctionne très bien avec de grands ensembles de données. Cependant, il...
J'expérimente avec la classification des données en groupes. Je suis assez nouveau sur ce sujet et j'essaie de comprendre le résultat de certaines analyses. En utilisant des exemples de Quick-R , plusieurs Rpackages sont suggérés. J'ai essayé d'utiliser deux de ces packages (en fpcutilisant la...
J'ai quelques points de données, contenant chacun 5 vecteurs de résultats discrets agglomérés, les résultats de chaque vecteur générés par une distribution différente, (le type spécifique dont je ne suis pas sûr, ma meilleure supposition est Weibull, avec un paramètre de forme variant quelque part...
J'ai appris que lors du choix d'un certain nombre de clusters, vous devez rechercher un point de coude pour différentes valeurs de K. J'ai tracé les valeurs de withinss pour des valeurs de k de 1 à 10, mais je ne vois pas de claire coude. Que faites-vous dans un cas comme celui-ci?...
J'utilise means clustering pour regrouper les voix des locuteurs. Lorsque je compare un énoncé avec des données de haut-parleur groupées, j'obtiens une distorsion moyenne (basée sur la distance euclidienne). Cette distance peut être comprise entre . Je veux convertir cette distance en un score de...
Pour le clustering hiérarchique, je vois souvent les deux "métriques" suivantes (elles ne parlent pas exactement) pour mesurer la distance entre deux variables aléatoires et Y : XXXOuiYY\newcommand{\Cor}{\mathrm{Cor}} L'un ou l'autre remplit-il l'inégalité du triangle? Si oui, comment dois-je le...
Si j'ai un certain ensemble de données, comment serait-il intelligent d'initialiser des centres de cluster à l'aide d'échantillons aléatoires de cet ensemble de données? Par exemple, supposons que je veuille 5 clusters. Je prends la 5 random samplesparole size=20%de l'ensemble de données d'origine....
J'ai des données temporelles de fréquences d'activité. Je veux identifier des grappes dans les données qui indiquent des périodes de temps distinctes avec des niveaux d'activité similaires. Idéalement, je veux identifier les clusters sans spécifier le nombre de clusters a priori. Quelles sont les...
J'ai 17 variables numériques et 5 variables binaires (0-1), avec 73 échantillons dans mon jeu de données. J'ai besoin d'exécuter une analyse de cluster. Je sais que la distance de Gower est une bonne métrique pour les ensembles de données avec des variables mixtes. Cependant, je ne pouvais pas...
Quelles sont les méthodes de pointe en matière de déduplication des enregistrements? La déduplication est aussi parfois appelée: couplage d'enregistrements, résolution d'entité, résolution d'identité, fusion / purge. Je connais par exemple CBLOCK [1]. J'apprécierais que les réponses incluent...
Je suis nouveau dans la science des données et j'ai du mal à trouver des clusters dans un ensemble de données avec 200 000 lignes et 50 colonnes en R. Étant donné que les données ont des variables numériques et nominales, des méthodes comme K-means qui utilise la mesure de distance euclidienne ne...