Quelles sont les meilleures étapes (recommandées) de prétraitement avant d’utiliser
Quelles sont les meilleures étapes (recommandées) de prétraitement avant d’utiliser
Je me demande si quelqu'un pourrait suggérer quels sont les bons points de départ pour effectuer une détection de communauté / partitionnement / regroupement de graphes sur un graphique comportant des arêtes pondérées et non dirigées . Le graphique en question a environ 3 millions d'arêtes et...
Quelle serait l'approche d'utiliser Dynamic Time Warping (DTW) pour regrouper des séries chronologiques? J'ai lu que DTW était un moyen de trouver des similitudes entre deux séries chronologiques, alors qu'elles pouvaient être décalées dans le temps. Puis-je utiliser cette méthode comme mesure de...
J'ai un ensemble de données chronologiques. Chaque série couvre la même période, bien que les dates réelles dans chaque série chronologique ne soient pas toutes "alignées" exactement. Autrement dit, si la série chronologique devait être lue dans une matrice 2D, elle ressemblerait à ceci: date T1 T2...
L’un des problèmes les plus importants de l’analyse par grappes est qu’il peut arriver que nous devions tirer des conclusions différentes lorsque nous nous basons sur différentes méthodes de classification utilisées (y compris différentes méthodes de couplage dans une classification hiérarchique)....
Cher tout le monde - J'ai remarqué quelque chose d'étrange que je ne peux pas expliquer, pouvez-vous? En résumé: l'approche manuelle pour calculer un intervalle de confiance dans un modèle de régression logistique et la fonction R confint()donnent des résultats différents. Je suis passé par la...
J'essaie d'utiliser le tracé de la silhouette pour déterminer le nombre de clusters dans mon jeu de données. Étant donné le jeu de données Train , j'ai utilisé le code matlab suivant Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid =
Lors d'une récente mission, il nous a été dit d'utiliser PCA sur les chiffres du MNIST pour réduire les dimensions de 64 (8 x 8 images) à 2. Nous avons ensuite dû regrouper les chiffres à l'aide d'un modèle de mélange gaussien. La PCA n'utilisant que 2 composantes principales ne produit pas de...
Dans mon jeu de données, nous avons à la fois des variables continues et des variables naturellement discrètes. Je veux savoir si nous pouvons faire une classification hiérarchique en utilisant les deux types de variables. Et si oui, quelle mesure de distance est
Je joue la classification hiérarchique des données que j'ai recueillies et traitées de la décharge de données reddit sur Google BigQuery. Mon processus est le suivant: Recevez les 1000 derniers articles dans / r / politique Rassemblez tous les commentaires Traiter les données et calculer une n x...
Autant que je sache, les MOS de style Kohonen ont connu un pic vers 2005 et n’ont pas suscité autant de faveur récemment. Je n'ai trouvé aucun article indiquant que les MOS ont été assimilés par une autre méthode ou prouvés équivalents à autre chose (de toute façon à des dimensions plus élevées)....
J'ai un jeu de données X qui a 10 dimensions, dont 4 sont des valeurs discrètes. En fait, ces 4 variables discrètes sont ordinales, c'est-à-dire qu'une valeur plus élevée implique une sémantique plus élevée / meilleure. 2 de ces variables discrètes sont catégoriques en ce sens que pour chacune de...
Contexte : Je souhaite classer les zones résidentielles d'une ville en groupes en fonction de leurs caractéristiques socio-économiques, y compris la densité d'unités de logement, la densité de population, les espaces verts, le prix du logement, le nombre d'écoles / centres de santé / garderies,...
J'ai trouvé une littérature abondante proposant toutes sortes de critères (par exemple Glenn et al. 1985 (pdf) et Jung et al. 2002 (pdf)). Cependant, la plupart d'entre eux ne sont pas si faciles à mettre en œuvre (du moins de mon point de vue). J'utilise scipy.cluster.hierarchy pour obtenir une...
J'ai le problème suivant à portée de main: j'ai une très longue liste de mots, éventuellement des noms, des noms de famille, etc. J'ai besoin de regrouper cette liste de mots, de sorte que des mots similaires, par exemple des mots avec une distance d'édition similaire (Levenshtein) apparaissent...
Quelles sont les différences dans les inférences qui peuvent être faites à partir d'une analyse de classe latente (ACV) par rapport à une analyse en grappes? Est-il exact qu'une ACV suppose une variable latente sous-jacente qui donne naissance aux classes, alors que l'analyse de cluster est une...
Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...
Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit)...
J'ai une matrice où a (i, j) me dit combien de fois j'ai consulté individuellement la page j. Il y a 27 000 personnes et 95 000 pages. J'aimerais avoir une poignée de "dimensions" ou "aspects" dans l'espace des pages qui correspondraient à des ensembles de pages qui sont souvent vues ensemble. Mon...
[Le titre initial "Mesure de la similitude pour les arbres de clustering hiérarchiques" a été modifié par la suite par @ttnphns pour mieux refléter le sujet] J'effectue un certain nombre d' analyses de grappes hiérarchiques sur une trame de données des dossiers des patients (par exemple similaire à...