Mesurer la «distance» entre deux distributions multivariées

28

Je cherche une bonne terminologie pour décrire ce que j'essaie de faire, pour faciliter la recherche de ressources.

Donc, disons que j'ai deux grappes de points A et B, chacune associée à deux valeurs, X et Y, et je veux mesurer la "distance" entre A et B - c'est-à-dire quelle est la probabilité qu'ils aient été échantillonnés à partir de la même distribution (Je peux supposer que les distributions sont normales). Par exemple, si X et Y sont corrélés dans A mais pas dans B, les distributions sont différentes.

Intuitivement, j'obtiendrais la matrice de covariance de A, puis j'examinerais la probabilité que chaque point de B y rentre, et vice-versa (en utilisant probablement quelque chose comme la distance de Mahalanobis).

Mais c'est un peu "ad-hoc", et il y a probablement une façon plus rigoureuse de décrire cela (bien sûr, dans la pratique, j'ai plus de deux jeux de données avec plus de deux variables - j'essaie d'identifier lequel de mes jeux de données sont des valeurs aberrantes).

Merci!

Emile
la source
Je ne sais pas pourquoi, mais un test de Mantel a défilé devant mes yeux lorsque j'ai lu votre message.
Roman Luštrik

Réponses:

15

Il y a aussi la divergence Kullback-Leibler , qui est liée à la distance Hellinger que vous mentionnez ci-dessus.

Réintégrer Monica - G. Simpson
la source
2
peut-on calculer la divergence de points de Kullback-Leibler sans faire l'hypothèse de la densité de probabilité sous-jacente d'où proviennent les points?
Andre Holzner
16

Hmm, la distance Bhattacharyya semble être ce que je recherche, bien que la distance Hellinger fonctionne aussi.

Emile
la source
vous mentionnez Bhattacharyya et Helling puis acceptez une réponse parlant de KL ... A la fin quel a été votre choix et pourquoi?
Simon C.
1
Je crois que c'était la divergence KL, mais ... c'était en 2010 et ma mémoire est loin d'être parfaite.
Emile
ahah oui je l'ai deviné, mais merci quand même!
Simon
9

Heuristique

  • Forme Minkowski
  • Variance moyenne pondérée (WMV)

Statistiques des tests non paramétriques

  • 2 (chi carré)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Divergences de la théorie de l'information

  • Kullback-Liebler (KL)
  • Divergence Jensen – Shannon (métrique)
  • Jeffrey-divergence (numériquement stable et symétrique)

Mesures de distance au sol

  • Intersection d'histogramme
  • Forme quadratique (QF)
  • Distance des Earth Movers (EMD)
skyde
la source
0

Moins de mesures supplémentaires de la "différence statistique"

  • Test de permutation (par Fisher)
  • Théorème de limite centrale et théorème de Slutsky
  • Test de Mann-Whitney-Wilcoxin
  • Test d'Anderson – Darling
  • Test de Shapiro – Wilk
  • Test Hosmer – Lemeshow
  • Test de Kuiper
  • divergence Stein noyauée
  • Similitude Jaccard
  • En outre, le regroupement hiérarchique traite des mesures de similitude entre les groupes. Les mesures les plus populaires de la similitude des groupes sont peut-être le couplage unique, le couplage complet et le couplage moyen.
Danylo Zherebetskyy
la source