Avantages de la distance de Jeffries Matusita

11

Selon certains articles que je lis, la distance de Jeffries et Matusita est couramment utilisée. Mais je n'ai pas trouvé beaucoup d'informations à ce sujet, sauf pour la formule ci-dessous

JMD (x, y) =(xi2yi2)22

Elle est similaire à la distance euclidienne à l'exception de la racine carrée

E (x, y) =(xiyi)22

La distance JM serait plus fiable que la distance euclidienne en termes de classification. Quelqu'un peut-il expliquer pourquoi cette différence améliore la distance JM?

romy_ngo
la source
1
Je ne trouve pas de référence faisant autorité qui utilise cette formule pour la distance Jeffries-Matusita. Les formules que je trouve sont basées sur des matrices de covariance pour deux classes et semblent n'avoir aucun rapport avec celle donnée ici, mais il semble qu'il puisse y avoir deux (ou plus) choses différentes connues sous ce nom. Pourriez-vous fournir une référence ou (encore mieux) un lien? BTW, est-ce que et comptent par hasard? (Si c'est le cas, il existe une interprétation naturelle de votre formule.)xiyi
whuber
1
@whuber: peut - être le et sont se substituer à etxyp(x)q(x)
user603
@ user603 Oui, je pense que vous l'avez. Maintenant, les liens avec les divergences KL et la mesure Battacharyya deviennent apparents.
whuber

Réponses:

14

Certaines différences clés, précédant une explication plus longue ci-dessous, sont les suivantes:

  1. Point crucial: la distance Jeffries-Matusita s'applique aux distributions plutôt qu'aux vecteurs en général.
  2. La formule de distance JM que vous citez ci-dessus ne s'applique qu'aux vecteurs représentant des distributions de probabilité discrètes (c'est-à-dire des vecteurs qui totalisent 1).
  3. Contrairement à la distance euclidienne, la distance JM peut être généralisée à toutes les distributions pour lesquelles la distance Bhattacharrya peut être formulée.
  4. La distance JM a, via la distance Bhattacharrya, une interprétation probabiliste.

La distance de Jeffries-Matusita, qui semble être particulièrement populaire dans la littérature de télédétection, est une transformation de la distance de Bhattacharrya (une mesure populaire de la dissimilarité entre deux distributions, notée ici ) à partir de la plage à la plage fixe :bp,q[0,inf)[0,2]

JMp,q=2(1exp(b(p,q))

Un avantage pratique de la distance JM, selon cet article, est que cette mesure "tend à supprimer les valeurs de séparabilité élevées, tout en surestimant les valeurs de séparabilité faibles".

La distance de Bhattacharrya mesure la dissimilarité de deux distributions et dans le sens continu abstrait suivant: Si les distributions et sont capturés par des histogrammes, représentés par des vecteurs de longueur unitaire (où le ème élément est le compte normalisé pour ème de cases) cela devient: Et par conséquent la distance JM pour les deux histogrammes est: Qui, en notant que pour les histogrammes normaliséspq

b(p,q)=lnp(x)q(x)dx
pqiiN
b(p,q)=lni=1Npiqi
JMp,q=2(1i=1Npiqi)
ipi=1, est la même que la formule que vous avez donnée ci-dessus:
JMp,q=i=1N(piqi)2=i=1N(pi2piqi+qi)=2(1i=1Npiqi)
rroowwllaanndd
la source
+1 Merci d'avoir sauté et d'avoir fait cet effort très bien fait pour clarifier la situation.
whuber