Questions marquées «clustering»

L'analyse de cluster consiste à partitionner les données en sous-ensembles d'objets en fonction de leur «similitude» mutuelle, sans utiliser de connaissances préexistantes telles que les étiquettes de classe. [Les erreurs standard groupées et / ou les échantillons de cluster doivent être étiquetés comme tels; N'utilisez PAS la balise "clustering" pour eux.]

78
Un exemple: régression LASSO utilisant glmnet pour les résultats binaires

Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99,...

78
Clustering sur la sortie de t-SNE

J'ai une application où il serait pratique de regrouper un ensemble de données bruyant avant de rechercher des effets de sous-groupe dans les clusters. J'ai d'abord examiné PCA, mais il faut environ 30 composants pour obtenir 90% de la variabilité. Par conséquent, le regroupement sur seulement...

73
Choisir une méthode de clustering

Lorsque vous utilisez l'analyse par grappes sur un ensemble de données pour regrouper des cas similaires, vous devez choisir parmi un grand nombre de méthodes de regroupement et de mesures de distance. Parfois, un choix peut influencer l’autre, mais il existe de nombreuses combinaisons de méthodes...

61
Quelle est la relation entre le clustering k-means et PCA?

Il est courant d'appliquer PCA (analyse en composantes principales) avant un algorithme de classification (tel que k-means). On pense que cela améliore les résultats de regroupement dans la pratique (réduction du bruit). Cependant, je suis intéressé par une étude comparative et approfondie de la...

61
Où couper un dendrogramme?

La classification hiérarchique peut être représentée par un dendrogramme. Couper un dendrogramme à un certain niveau donne un ensemble de grappes. La coupe à un autre niveau donne un autre ensemble de grappes. Comment choisiriez-vous où couper le dendrogramme? Y at-il quelque chose que nous...

54
Comment décider du nombre correct de clusters?

Nous trouvons les centres de cluster et attribuons des points à k différents groupes de cluster dans le clustering k-means, qui est un algorithme très bien connu et qui se retrouve presque dans tous les packages d'apprentissage automatique du réseau. Mais la partie manquante et la plus importante à...

52
Clustering avec une matrice de distance

J'ai une matrice (symétrique) Mqui représente la distance entre chaque paire de nœuds. Par exemple, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 140 D 20 20 20 0 60 80 80 80 120 140 140 140 140 E 40 60 60...

46
Interprétation du prédicteur et / ou de la réponse transformé par log

Je me demande si cela fait une différence d'interprétation si seules les variables dépendantes, indépendantes et dépendantes, ou uniquement les variables indépendantes sont transformées par un journal. Considérons le cas de log(DV) = Intercept + B1*IV + Error Je peux interpréter l'IV comme...