Quelles sont les meilleures étapes (recommandées) de prétraitement avant d’utiliser k-means?
clustering
normalization
k-means
Pedrosaurio
la source
la source
Réponses:
Si vos variables sont d'unités incomparables (par exemple, la taille en cm et le poids en kg), alors vous devriez normaliser les variables, bien sûr. Même si les variables ont les mêmes unités mais montrent des variances assez différentes, il est toujours judicieux de normaliser avant K-moyennes. Vous voyez, le cluster K-means est "isotrope" dans toutes les directions de l'espace et a donc tendance à produire des clusters plus ou moins ronds (plutôt qu'allongés). Dans cette situation, laisser les variances inégales équivaut à accorder plus de poids aux variables de variance plus faible, de sorte que les grappes ont tendance à être séparées en fonction de variables présentant une variance plus grande.
Il est également intéressant de rappeler que les résultats de la mise en cluster à moyennes moyennes sont potentiellement sensibles à l'ordre des objets dans l'ensemble de données . Une pratique justifiée consisterait à exécuter l'analyse plusieurs fois, en randomisant l'ordre des objets; puis faites la moyenne des centres de grappes de ces exécutions et entrez-les en tant que centres initiaux pour une dernière analyse.1
Voici un raisonnement général sur la question de la normalisation des fonctionnalités dans les analyses en grappes ou autres analyses multivariées.
la source
Cela dépend de vos données, je suppose. Si vous souhaitez que les tendances de vos données soient regroupées indépendamment de leur ampleur, vous devriez vous centrer. par exemple. Supposons que vous avez un profil d’expression génique et que vous souhaitez connaître les tendances en matière d’expression génique. Sans un centrage moyen, vos gènes de faible expression se regrouperont et s’éloigneront des gènes de forte expression, quelles que soient les tendances. Le centrage permet de regrouper des gènes (à la fois haut et bas exprimés) avec des modèles d'expression similaires
la source