Qu'est-ce que la distance Hellinger et quand l'utiliser?

19

Je souhaite savoir ce qui se passe réellement à Hellinger Distance (en termes simples). De plus, je suis également intéressé à savoir quels sont les types de problèmes que nous pouvons utiliser Hellinger Distance? Quels sont les avantages de l'utilisation de Hellinger Distance?

Smith Volka
la source
9
La distance de Hellinger est un analogue probabiliste de la distance euclidienne. Une propriété saillante est sa symétrie, en tant que métrique. Ces propriétés mathématiques sont utiles si vous écrivez un article et que vous avez besoin d'une fonction de distance qui possède certaines propriétés pour rendre votre preuve possible. Dans l'application, quelqu'un peut découvrir qu'une métrique produit des résultats plus agréables ou meilleurs qu'une autre pour une certaine tâche; Par exemple, la distance de Wasserstein fait fureur dans les réseaux contradictoires génératifs
Emre
Merci pour le commentaire. Je suis tombé sur cette question, qui est assez similaire à la question que j'ai maintenant. datascience.stackexchange.com/questions/22324/… Veuillez me faire savoir pourquoi la réponse indique que la distance Hellinger est appropriée?
Smith Volka
2
Probablement pour visualiser les sujets dans un espace métrique. Une autre belle propriété est que la distance Hellinger est finie pour les distributions avec un support différent. C'est bien que vous posiez ces questions. Je suggère d'essayer différentes métriques par vous-même et d'observer les résultats.
Emre
Merci. c'est un bon lien. aide beaucoup. Mais la distance Hellinger est-elle uniquement limitée aux sujets dérivés de l'allocation de Dirichlet latente (LDA) comme mentionné dans le lien?
Smith Volka
1
Non, il n'a pas de connexion inhérente à LDA.
Emre

Réponses:

7

La distance de Hellinger est une mesure pour mesurer la différence entre deux distributions de probabilité. C'est l'analogue probabiliste de la distance euclidienne .

PQ

h(P,Q)=12PQ2

Il est utile pour quantifier la différence entre deux distributions de probabilité. Par exemple, si vous estimez une distribution pour les utilisateurs et les non-utilisateurs d'un service. Si la distance Hellinger est petite entre ces groupes pour certaines entités, ces entités ne sont pas statistiquement utiles pour la segmentation.

Brian Spiering
la source