J'ai un ensemble de données avec 16 variables, et après regroupement par kmeans, je souhaite tracer les deux groupes. Quelles parcelles proposez-vous pour représenter visuellement les deux
J'ai un ensemble de données avec 16 variables, et après regroupement par kmeans, je souhaite tracer les deux groupes. Quelles parcelles proposez-vous pour représenter visuellement les deux
Toutes mes excuses pour la question rudimentaire, je suis nouveau dans cette forme d'analyse et j'ai une compréhension très limitée des principes jusqu'à présent. Je me demandais simplement si bon nombre des hypothèses paramétriques pour les tests multivariés / univariés s'appliquent à l'analyse de...
Celui utilisé par l'option "ward.D" (équivalent à la seule option Ward "ward" dans les versions R <= 3.0.3) n'implémente pas le critère de regroupement de Ward (1963), tandis que l'option "ward.D2" implémente ce critère ( Murtagh et Legendre 2014). (
J'essaie d'effectuer un clustering au niveau du document. J'ai construit la matrice de fréquence terme-document et j'essaie de regrouper ces vecteurs de haute dimension en utilisant k-means. Au lieu de regrouper directement, ce que j'ai fait, j'ai d'abord appliqué la décomposition vectorielle...
J'ai un ensemble de données, je veux créer des clusters sur ces données en fonction d'une seule variable (il n'y a pas de valeurs manquantes). Je veux créer 3 clusters basés sur cette variable. Quel algorithme de clustering utiliser, k-means, EM, DBSCAN etc.? Ma question principale est, dans...
Je travaille sur un problème de clustering de texte. Les données contiennent plusieurs phrases. Existe-t-il un bon algorithme qui atteint une grande précision sur un texte court? Pouvez-vous fournir de bonnes références? Des algorithmes tels que KMeans, le clustering spectral ne fonctionnent pas...
J'ai construit des réseaux de neurones (MLP (entièrement connecté), Elman (récurrent)) pour différentes tâches, comme jouer au Pong, classer les chiffres manuscrits et tout ça ... De plus, j'ai essayé de construire certains premiers réseaux de neurones convolutifs, par exemple pour classer des...
Les tests de permutation (également appelés test de randomisation, test de re-randomisation ou test exact) sont très utiles et s'avèrent utiles lorsque l'hypothèse de distribution normale requise par exemple t-testn'est pas remplie et lorsque la transformation des valeurs par classement des un test...
Je regroupe les distributions de probabilité en utilisant l' algorithme de propagation d'affinité et je prévois d'utiliser la divergence de Jensen-Shannon comme métrique de distance. Est-il correct d'utiliser JSD lui-même comme distance ou JSD au carré? Pourquoi? Quelles différences résulteraient...
J'utilise le clustering hiérarchique pour analyser les données de séries chronologiques. Mon code est implémenté à l'aide de la fonction MathematicaDirectAgglomerate[...] , qui génère des clusters hiérarchiques compte tenu des entrées suivantes: une matrice de distance D le nom de la méthode...
J'ai essayé de regrouper un ensemble de données (un ensemble de marques) et j'ai obtenu 2 clusters. Je voudrais le représenter graphiquement. Un peu confus au sujet de la représentation, car je n'ai pas les coordonnées (x, y). Recherche également la fonction MATLAB / Python pour le faire. ÉDITER Je...
J'analyse un ensemble de données à l'aide d'un modèle à effets mixtes avec un effet fixe (condition) et deux effets aléatoires (participant en raison de la conception et de la paire du sujet). Le modèle a été généré avec le lme4package:
J'ai deux variables - X et Y et je dois faire un cluster maximum (et optimal) = 5. Disons que le tracé idéal des variables est comme suit: Je voudrais en faire 5 clusters. Quelque chose comme ça: Je pense donc que c'est un modèle de mélange avec 5 grappes. Chaque grappe a un point central et un...
J'expérimente l'algorithme de la machine de renforcement de gradient via le caretpackage en R. À l'aide d'un petit ensemble de données d'admission à l'université, j'ai exécuté le code suivant: library(caret) ### Load admissions dataset. ### mydata <-
Je voudrais configurer un algorithme pour détecter une anomalie dans les séries temporelles, et je prévois d'utiliser le clustering pour cela. Pourquoi devrais-je utiliser une matrice de distance pour le clustering et non les données brutes des séries temporelles ?, Pour la détection de l'anomalie,...
Dans l'analyse en grappes, comment calculer la pureté? Quelle est l'équation? Je ne cherche pas de code pour le faire pour moi. Soit ωkωk\omega_k le cluster k et cjcjc_j la classe j. La pureté est-elle pratiquement exacte? il semble que l'on additionne la quantité de classes véritablement classées...
Quelqu'un peut-il me signaler une implémentation de k-means (ce serait mieux si dans matlab) qui peut prendre la matrice de distance en entrée? L'implémentation matlab standard nécessite la matrice d'observation en entrée et il n'est pas possible de modifier la mesure de similitude de façon...
Je sais qu'il y a un algorithme de clustering k-means et une k-médiane. L'un qui utilise la moyenne comme centre de la grappe et l'autre utilise la médiane. Ma question est: quand / où utiliser
J'ai deux parties d'un ensemble de données multidimensionnelles, appelons-les trainet test. Et je veux construire un modèle basé sur l'ensemble de données du train, puis le valider sur l'ensemble de données de test. Le nombre de clusters est connu. J'ai essayé d'appliquer le clustering k-means dans...
Q: Quelle est la méthode standard pour regrouper des données à l'aide d'un processus Dirichlet? Lors de l'utilisation de Gibbs, des grappes d'échantillonnage apparaissent et disparaissent pendant l'échantillonnage. Par ailleurs, nous avons un problème d'identifiabilité car la distribution...