Dans mon jeu de données, nous avons à la fois des variables continues et des variables naturellement discrètes. Je veux savoir si nous pouvons faire une classification hiérarchique en utilisant les deux types de variables. Et si oui, quelle mesure de distance est appropriée?
34
Réponses:
Une solution consiste à utiliser le coefficient de similarité de Gower, qui est une mesure composite 1 ; il prend des variables quantitatives (telles que l'échelle d'évaluation), binaires (telles que présent / absent) et nominales (telles que travailleur / enseignant / employé). Plus tard, Podani 2 a ajouté une option permettant de prendre également des variables ordinales.1 2
Le coefficient est facile à comprendre même sans formule; vous calculez la valeur de similarité entre les individus pour chaque variable, en prenant en compte le type de variable, puis une moyenne pour toutes les variables. Habituellement, un programme calculant Gower vous permettra de pondérer les variables, c'est-à-dire leur contribution, à la formule composite. Cependant, la pondération correcte de variables de types différents pose un problème . Il n’existe pas de directives claires, ce qui donne à Gower ou à d’autres indices "composites" des facteurs d’attirance de proximité.
Les facettes de la similarité de Gower (GS ):
(Il est facile d’élargir la liste des types. Par exemple, on pourrait ajouter un sommand pour les variables de comptage, en utilisant une distance khi-carré normalisée convertie en similarité.)
Le coefficient est compris entre 0 et 1.
Avec les distances euclidiennes (distances prenant en charge l’espace euclidien), pratiquement toutes les techniques classiques de regroupement conviendront. Y compris K-means (si votre programme K-means peut traiter des matrices de distance, bien sûr) et y compris les méthodes de Ward, centroïde, médianes du clustering hiérarchique . L'utilisation de K-moyennes ou d'autres méthodes basées sur la distance euclidienne avec une distance métrique immobile non euclidienne est peut-être heuristiquement admissible. Avec des distances non métriques, aucune méthode de ce type ne peut être utilisée.
Le paragraphe précédent indique si K-means ou Ward's ou un tel regroupement est légal ou non avec une distance de Gower mathématiquement (géométriquement). Du point de vue de l’ échelle de mesure («psychométrique»), il ne faut pas en calculer l’écart moyen ou de distance euclidienne dans aucune donnée catégorielle (nominale, binaire ou ordinale); donc de cette position, vous ne pouvez tout simplement pas traiter le coefficient de Gower par K-means, Ward, etc. Ce point de vue avertit que même si un espace euclidien est présent, il peut être granulé, et non pas lisse ( voir la relation correspondante ).
la source
Si vous êtes tombé sur cette question et que vous vous demandez quel package télécharger pour utiliser la métrique Gower dans R , il
cluster
possède une fonction nommée daisy () , qui utilise par défaut la métrique de Gower lorsque des types de variables variés sont utilisés. Ou vous pouvez le configurer manuellement pour utiliser la métrique de Gower.la source
StatMatch
.