Je ne sais pas quelle fonction de distance entre les individus utiliser en cas d'attributs nominaux (catégoriques non ordonnés). Je lisais un manuel et ils suggèrent une fonction de correspondance simple , mais certains livres suggèrent que je devrais changer le nominal en attributs binaires et utiliser le coefficient de Jaccard . Cependant, que se passe-t-il si les valeurs de l'attribut nominal ne sont pas 2? que faire s'il y a trois ou quatre valeurs dans cet attribut?
Quelle fonction de distance dois-je utiliser pour les attributs nominaux?
Réponses:
Techniquement, pour calculer une mesure dis (similitude) entre les individus sur des attributs nominaux, la plupart des programmes recodent d'abord chaque variable nominale en un ensemble de variables binaires fictives , puis calculent une certaine mesure pour les variables binaires. Voici des formules de mesures de similarité et de dissimilarité binaires fréquemment utilisées .
Qu'est-ce que les variables fictives (également appelées one-hot)? Ci-dessous se trouvent 5 individus, deux variables nominales (A avec 3 catégories, B avec 2 catégories). 3 mannequins créés à la place de A, 2 mannequins créés à la place de B.
(Il n'est pas nécessaire d'éliminer une variable fictive comme "redondante" comme nous le ferions généralement en régression avec des variables fictives. Elle n'est pas pratiquée en clustering, bien que dans des situations spéciales, vous puissiez envisager cette option.)
La validité intuitive du coefficient de similitude Dice vient du fait qu'il s'agit simplement de la proportion de co-occurrence (ou accord relatif ). Pour l'extrait de données ci-dessus, prenez la colonne nominale
A
et calculez la5x5
matrice symétrique carrée avec1
(les deux individus sont tombés dans la même catégorie) ou0
(pas dans la même catégorie). Calculez également la matrice pourB
.Additionnez les entrées correspondantes des deux matrices et divisez par 2 (nombre de variables nominales) - vous êtes ici avec la matrice des coefficients de dés. (Donc, en fait, vous n'avez pas à créer de variables muettes pour calculer les dés, avec les opérations matricielles, vous pouvez probablement le faire plus rapidement comme décrit ci-dessus.) Voir une rubrique connexe sur les dés pour l'association des attributions nominales .
Bien que les dés soient la mesure la plus apparente à utiliser lorsque vous voulez une fonction de (dis) similitude entre les cas où les attributs sont catégoriques, d'autres mesures binaires pourraient être utilisées - si la formule satisfait les considérations sur vos données nominales.
Mais ...
Étant donné que dans de nombreuses applications d'une matrice de proximité, comme dans de nombreuses méthodes d'analyse en grappes, les résultats ne changeront pas ou changeront en douceur sous la transformation linéaire (et parfois même sous monotone) des proximités, il semble que l'on puisse se justifier par un grand nombre de mesures binaires en plus de dés pour obtenir des résultats identiques ou similaires. Mais vous devez d' abord considérer / explorer comment la méthode spécifique (par exemple un lien dans le clustering hiérarchique) réagit à une transformation donnée des proximités.
Si votre regroupement planifié ou votre analyse MDS est sensible aux transformations monotones des distances, vous feriez mieux de ne pas utiliser de mesures notées comme "monotones" dans le tableau ci-dessus (et donc oui, ce n'est pas une bonne idée d'utiliser la similitude Jaccard ou la distance euclidienne non équarrie avec un mannequin). , c.-à-d. anciens attributs nominaux).
la source