Quelle est la fonction de distance optimale pour les individus lorsque les attributs sont nominaux?

12

Je ne sais pas quelle fonction de distance entre les individus utiliser en cas d'attributs nominaux (catégoriques non ordonnés). Je lisais un manuel et ils suggèrent une fonction de correspondance simple , mais certains livres suggèrent que je devrais changer le nominal en attributs binaires et utiliser le coefficient de Jaccard . Cependant, que se passe-t-il si les valeurs de l'attribut nominal ne sont pas 2? que faire s'il y a trois ou quatre valeurs dans cet attribut?

Quelle fonction de distance dois-je utiliser pour les attributs nominaux?

Jane Doe
la source
1
J'ai trouvé ce post utile, sur les statistiques au carré de V et Chi de Cramer.
KarthikS

Réponses:

18

Techniquement, pour calculer une mesure dis (similitude) entre les individus sur des attributs nominaux, la plupart des programmes recodent d'abord chaque variable nominale en un ensemble de variables binaires fictives , puis calculent une certaine mesure pour les variables binaires. Voici des formules de mesures de similarité et de dissimilarité binaires fréquemment utilisées .

Qu'est-ce que les variables fictives (également appelées one-hot)? Ci-dessous se trouvent 5 individus, deux variables nominales (A avec 3 catégories, B avec 2 catégories). 3 mannequins créés à la place de A, 2 mannequins créés à la place de B.

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(Il n'est pas nécessaire d'éliminer une variable fictive comme "redondante" comme nous le ferions généralement en régression avec des variables fictives. Elle n'est pas pratiquée en clustering, bien que dans des situations spéciales, vous puissiez envisager cette option.)

aa+b+c

  • a - nombre de nuls 1 pour les deux individus
  • b - nombre de nuls 1 pour ceci et 0 pour cela
  • c - nombre de nuls 0 pour ceci et 1 pour cela
  • d - nombre de nuls 0 pour les deux

bcaa2a2a+b+cdistance. Regardez combien de synonymes - vous êtes sûr de trouver quelque chose de cela dans votre logiciel!

La validité intuitive du coefficient de similitude Dice vient du fait qu'il s'agit simplement de la proportion de co-occurrence (ou accord relatif ). Pour l'extrait de données ci-dessus, prenez la colonne nominale Aet calculez la 5x5matrice symétrique carrée avec 1(les deux individus sont tombés dans la même catégorie) ou 0(pas dans la même catégorie). Calculez également la matrice pour B.

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

Additionnez les entrées correspondantes des deux matrices et divisez par 2 (nombre de variables nominales) - vous êtes ici avec la matrice des coefficients de dés. (Donc, en fait, vous n'avez pas à créer de variables muettes pour calculer les dés, avec les opérations matricielles, vous pouvez probablement le faire plus rapidement comme décrit ci-dessus.) Voir une rubrique connexe sur les dés pour l'association des attributions nominales .

Bien que les dés soient la mesure la plus apparente à utiliser lorsque vous voulez une fonction de (dis) similitude entre les cas où les attributs sont catégoriques, d'autres mesures binaires pourraient être utilisées - si la formule satisfait les considérations sur vos données nominales.

a+da+b+c+dddb+cdd2=p(1SM)p

Mais ...

d

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

Étant donné que dans de nombreuses applications d'une matrice de proximité, comme dans de nombreuses méthodes d'analyse en grappes, les résultats ne changeront pas ou changeront en douceur sous la transformation linéaire (et parfois même sous monotone) des proximités, il semble que l'on puisse se justifier par un grand nombre de mesures binaires en plus de dés pour obtenir des résultats identiques ou similaires. Mais vous devez d' abord considérer / explorer comment la méthode spécifique (par exemple un lien dans le clustering hiérarchique) réagit à une transformation donnée des proximités.

Si votre regroupement planifié ou votre analyse MDS est sensible aux transformations monotones des distances, vous feriez mieux de ne pas utiliser de mesures notées comme "monotones" dans le tableau ci-dessus (et donc oui, ce n'est pas une bonne idée d'utiliser la similitude Jaccard ou la distance euclidienne non équarrie avec un mannequin). , c.-à-d. anciens attributs nominaux).

ttnphns
la source
oui, vous avez raison les valeurs .. donc un attribut a trois valeurs possibles
Jane Doe
2
supposons que j'ai deux valeurs du même attribut, "ball", "nall", "pall" et que j'ai converti cela en 11 01 et 00. Je veux mesurer la distance Jaccard entre 11 et 00. Dans ce cas, alors est le distance 1? puisque a = 0 b = 2 c = 0 et d = 0? s'il vous plaît, faites-moi savoir!
Jane Doe
Je manque le point de votre dernier commentaire. Veuillez demander clairement. Ou utilisez mes données d'exemple ci-dessus avec 5 personnes et 2 attributs nominaux et dites quelle personne avec laquelle vous souhaitez que je compare et par quelle mesure de dis (similitude).
ttnphns