Je veux attribuer des poids différents aux variables dans mon analyse de cluster, mais mon programme (Stata) ne semble pas avoir d'option pour cela, donc je dois le faire manuellement.
Imaginez 4 variables A, B, C, D. Les poids de ces variables devraient être
w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%
Je me demande si l'une des deux approches suivantes ferait vraiment l'affaire:
- Tout d'abord, je standardise toutes les variables (par exemple par leur plage). Ensuite, je multiplie chaque variable standardisée par leur poids. Faites ensuite l'analyse de cluster.
- Je multiplie toutes les variables par leur poids et les standardise ensuite. Faites ensuite l'analyse de cluster.
Ou les deux idées sont-elles complètement absurdes?
[EDIT] Les algorithmes de clustering (j'en essaie 3 différents) que je souhaite utiliser sont les k-moyennes, la liaison moyenne pondérée et la liaison moyenne. J'ai l'intention d'utiliser une liaison moyenne pondérée pour déterminer un bon nombre de grappes que je brancherai ensuite sur k-means.
clustering
stata
SPi
la source
la source
Réponses:
Une façon d'attribuer un poids à une variable consiste à modifier son échelle. L'astuce fonctionne pour les algorithmes de clustering que vous mentionnez, à savoir. k-moyennes, liaison moyenne pondérée et liaison moyenne.
Kaufman, Leonard et Peter J. Rousseeuw. " Trouver des groupes dans les données: une introduction à l'analyse de cluster ." (2005) - page 11:
Abrahamowicz, M. (1985), The use of non-numerical a pnon information for measure dissimilarities, article présenté à la quatrième réunion européenne de la Psychometric Society and the Classification Societies, 2-5 juillet, Cambridge (UK).
Friedman, HP et Rubin, J. (1967), Sur certains critères invariants pour regrouper les données. J. Amer. Statist. ASSOC6., 2, 1159-1178.
Hardy, A. et Rasson, JP (1982), Une nouvelle approche des problèmes de classification automatique, Statist. Anal. Donnies, 7, 41-56.
la source