Je cherche une bonne terminologie pour décrire ce que j'essaie de faire, pour faciliter la recherche de ressources.
Donc, disons que j'ai deux grappes de points A et B, chacune associée à deux valeurs, X et Y, et je veux mesurer la "distance" entre A et B - c'est-à-dire quelle est la probabilité qu'ils aient été échantillonnés à partir de la même distribution (Je peux supposer que les distributions sont normales). Par exemple, si X et Y sont corrélés dans A mais pas dans B, les distributions sont différentes.
Intuitivement, j'obtiendrais la matrice de covariance de A, puis j'examinerais la probabilité que chaque point de B y rentre, et vice-versa (en utilisant probablement quelque chose comme la distance de Mahalanobis).
Mais c'est un peu "ad-hoc", et il y a probablement une façon plus rigoureuse de décrire cela (bien sûr, dans la pratique, j'ai plus de deux jeux de données avec plus de deux variables - j'essaie d'identifier lequel de mes jeux de données sont des valeurs aberrantes).
Merci!
Réponses:
Il y a aussi la divergence Kullback-Leibler , qui est liée à la distance Hellinger que vous mentionnez ci-dessus.
la source
Hmm, la distance Bhattacharyya semble être ce que je recherche, bien que la distance Hellinger fonctionne aussi.
la source
Heuristique
Statistiques des tests non paramétriques
Divergences de la théorie de l'information
Mesures de distance au sol
la source
L'enquête la plus complète est fournie dans Inférence statistique basée sur les mesures de divergence par Leandro Pardo, Université Complutense, Chapman Hall 2006.
la source
Moins de mesures supplémentaires de la "différence statistique"
la source