Coefficients de similitude pour les données binaires: pourquoi choisir Jaccard plutôt que Russell et Rao?

20

D'après l' Encyclopedia of Statistical Sciences, je comprends que, étant donné attributs dichotomiques (binaires: 1 = présents; 0 = absents) (variables), nous pouvons former un tableau de contingence pour deux objets i et j quelconques d'un échantillon: $p$

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Nous pouvons calculer à partir de ces valeurs des coefficients de similitude entre n'importe quelle paire d'objets, en particulier le coefficient de Jaccard et le coefficient de Russell et Rao

\frac{une}{une + b + c}

$\frac{a}{a+b+c}$

\frac{une}{une + b + c + ré} = \frac{une}{p} .

$\frac{a}{a+b+c+d} = \frac{a}{p}.$

Une fois calculés, ces coefficients donneront des valeurs différentes, mais je ne trouve aucune ressource expliquant pourquoi je devrais choisir l'un plutôt que l'autre. Est-ce simplement parce que pour certains ensembles de données, l'absence simultanée des deux attributs ( ) ne transmet aucune information? $d$

binary-data similarities association-measure wflynny
la source

14

Il existe de nombreux coefficients de ce type (la plupart sont exprimés ici ). Essayez simplement de méditer sur les conséquences des différences de formules, surtout lorsque vous calculez une matrice de coefficients.

Imaginez, par exemple, que les objets 1 et 2 soient similaires, tout comme les objets 3 et 4. Mais 1 et 2 ont de nombreux attributs sur la liste tandis que 3 et 4 n'ont que peu d'attributs. Dans ce cas, Russell-Rao (proportion de co-attributs par rapport au nombre total d'attributs considérés) sera élevé pour la paire 1-2 et faible pour la paire 3-4. Mais Jaccard (proportion de co-attribue le nombre combiné d'attributs les deux objets ont = probabilité que si l'objet a un attribut ils ont tous deux alors il) sera élevé pour les deux paires 1-2 et 3-4.

Cet ajustement pour le niveau de base de "saturation par attributs" rend Jaccard si populaire et plus utile que Russell-Rao , par exemple dans l'analyse de grappes ou la mise à l'échelle multidimensionnelle. Vous pourriez, dans un sens, affiner davantage l'ajustement ci-dessus en sélectionnant la mesure de Kulczynski-2 qui est la probabilité moyenne arithmétique que si un objet a un attribut, l'autre objet l'a aussi:

(\frac{une}{une + b} + \frac{une}{une + c}) / 2

$(\frac{a}{a+b} + \frac{a}{a+c}) /2$ Ici, la base (ou le champ) d'attributs pour les deux objets n'est pas regroupée, comme dans Jaccard, mais est propre à chacun des deux objets. Par conséquent, si les objets diffèrent considérablement sur le nombre d'attributs qu'ils ont, et sur tous ses attributs, l'objet "le plus pauvre" partage avec celui "le plus riche", Kulczynski sera élevé tandis que Jaccard sera modéré.

Ou vous pourriez préférer calculer la probabilité géométrique moyenne que si un objet a un attribut, l'autre objet aussi, ce qui donne la mesure d' Ochiai : Parce que le produit augmente plus faible que la somme quand un seul des termes croît, Ochiai ne sera vraiment élevé que si les deux proportions (probabilités) sont élevées, ce qui implique que pour être considérés comme similaires par Ochiai, les objets doivent partager le plus grand part de leurs attributs. En bref, Ochiai réduit la similitude si et sont inégaux. Ochiai est en fait la mesure de similitude cosinus (et Russell-Rao est la similitude du produit scalaire).

\sqrt{\frac{une}{une + b} \frac{une}{une + c}}

$\sqrt {\frac{a}{a+b} \frac{a}{a+c}}$

b

$b$

c

$c$

PS

Est-ce simplement parce que pour certains ensembles de données, l'absence simultanée des deux attributs (d) ne transmet aucune information?

$d$

Notez également que si vous souhaitez calculer la similitude entre les objets sur la base de 1+ attributs nominaux (dichotomiques ou polytomiques), recodez chacune de ces variables dans l'ensemble de variables binaires factices. Ensuite, la mesure de similarité recommandée pour calculer sera Dice ( qui , lorsqu'elle est calculée pour 1+ ensembles de variables muettes, est équivalente à Ochiai et Kulczynski-2).

ttnphns
la source

2

Divers termes ont été suggérés par analogie supposée avec "dichotomique" pour les classifications à plus de deux catégories. "Polytomous" est préférable sur le plan linguistique à "polychotomous", qui est basé sur une supposition incorrecte que "dichotomous" analyse en deux racines grecques, "di" et "chotomous". Des composés "multichotomiques" qui se trompent avec l'utilisation d'une racine latine. Bien que des mots ayant des racines latines et grecques distinctes aient survécu au mépris des linguistes (par exemple, "télévision"), je conseille d'utiliser "polytomique" ici.

Nick Cox

Merci de l'avoir rappelé. En fait, je savais de quoi vous parliez et j'essaie d'être puriste moi-même ... quand je ne suis pas pressé. Je vais le modifier.

ttnphns

3

L'utilité du coefficient de Tanimoto par rapport à la précision traditionnelle (c.-à-d. Russell-Rao) est évidente dans l'analyse d'images, lorsque l'on compare une segmentation à un étalon-or. Considérez ces deux images:

Dans chacune de ces images qui sont des `` masques '' binaires, nous avons deux objets de la même taille mais placés à des emplacements légèrement différents, et nous voulons évaluer dans quelle mesure ces objets sont identiques en forme et en position en évaluant leur chevauchement. Habituellement, l'un (par exemple le masque violet) est une segmentation (produite par un algorithme informatique), par exemple, cela pourrait être une tentative de localisation du cœur à partir d'une image médicale. L'autre, (par exemple vert) est l'étalon-or (c'est-à-dire le cœur, tel qu'identifié par un clinicien expert). Là où il y a de la couleur blanche, les deux formes se chevauchent. Les pixels noirs sont en arrière-plan.

Les deux images sont identiques (c'est-à-dire que le résultat de l'algorithme de segmentation, ainsi que l'étalon-or, sont les mêmes dans les deux images), à l'exception de beaucoup de "remplissage" d'arrière-plan dans la deuxième image (par exemple, cela pourrait représenter deux expériences avec deux appareils à rayons X différents, où le 2e appareil avait un rayon plus large couvrant plus de zone corporelle, mais sinon la taille du cœur est la même dans les deux ensembles d'images).

De toute évidence, puisque la segmentation et l'étalon-or dans les deux images sont identiques, si nous évaluons la précision de la segmentation par rapport à l'étalon-or, nous aimerions que notre métrique produise le même résultat de «précision» dans les deux expériences.

Cependant, si nous tentons d'évaluer la qualité de la segmentation en utilisant l'approche Russel-Rao, nous obtiendrions une précision trompeuse pour la bonne image (près de 100%), car les "pixels d'arrière-plan correctement identifiés comme pixels d'arrière-plan" contribuent à la la précision globale des jeux et les pixels d'arrière-plan sont représentés de manière disproportionnée dans le deuxième jeu. Les objets dont nous voulons évaluer le chevauchement dans la segmentation médicale sont souvent de minuscules taches sur un fond massif, donc cela ne nous est pas très utile. De plus, cela entraînerait des problèmes si nous essayions de comparer la précision d'un algorithme de segmentation à un autre, et les deux étaient évalués sur des images de tailles différentes! (ou, de manière équivalente, à différentes échelles).La mise à l'échelle / taille de l'image d'intégration ne devrait pas faire de différence dans l'évaluation d'une segmentation par rapport à un étalon-or! .

En revanche, le coefficient de tanimoto ne se soucie pas des pixels d'arrière-plan, ce qui le rend invariant à «l'échelle». Donc, en ce qui concerne le coefficient de tanimoto, la similitude de ces deux ensembles sera identique, ce qui en fait une métrique de similarité beaucoup plus utile à utiliser pour évaluer la qualité d'un algorithme de segmentation.

Tasos Papastylianou
la source

Coefficients de similitude pour les données binaires: pourquoi choisir Jaccard plutôt que Russell et Rao?

Réponses: