Écart moyen maximal (distribution de la distance)

15

J'ai deux ensembles de données (données source et cible) qui suivent la distribution différente. J'utilise MMD - qui est une distribution de distance non paramétrique - pour calculer la distribution marginale entre les données source et cible.

données source, Xs

données cibles, Xt

matrice d'adaptation A

* Données projetées, Zs = A '* Xs et Zt = A' Xt

* MMD => Distance (P (Xs), P (Xt)) = | moyenne (A'Xs) - moyenne (A ' Xt) |

Cela signifie: la distance de la distribution entre les données source et cible dans l'espace d'origine est équivalente à la distance entre les moyennes des données source et cible projetées dans l'espace intégré.

J'ai une question sur le concept de MMD.

Dans la formule MMD, Pourquoi avec le calcul de la distance dans l'espace latent, nous pourrions mesurer la distance de la distribution dans l'espace d'origine?

Merci

Mahsa
la source
Vous n'avez pas encore posé de question: vous venez de nous dire que vous vous trompez!
whuber

Réponses:

44

Il pourrait être utile de donner un peu plus d’aperçu du MMD.

En général, MMD est défini par l'idée de représenter les distances entre les distributions comme des distances entre les plongements moyens d'entités. C'est, disons que nous avons des distributions et sur un ensemble . Le MMD est défini par une carte de fonctionnalités , où est ce qu'on appelle un espace Hilbert de noyau de reproduction. En général, le MMD est PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

Par exemple, nous pourrions avoir et . Dans ce cas: donc ce MMD est juste la distance entre les moyennes des deux distributions. Les distributions correspondantes comme celle-ci correspondront à leurs moyennes, bien qu'elles puissent différer dans leur variance ou d'autres manières.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

Votre cas est légèrement différent: nous avons et , avec , où est une matrice . Nous avons donc Ce MMD est la différence entre deux projections différentes de la moyenne. Si ou le mappage autrement n'est pas inversible,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA que la précédente: elle ne fait pas de distinction entre certaines distributions que la précédente fait.

Vous pouvez également construire des distances plus importantes. Par exemple, si et vous utilisez , alors le MMD devient , et peut distinguer non seulement des distributions avec des moyennes différentes mais aussi avec des variances différentes.X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

Et vous pouvez devenir beaucoup plus fort que cela: si correspond à un espace Hilbert de noyau de reproduction général, alors vous pouvez appliquer l' astuce du noyau pour calculer le MMD, et il s'avère que de nombreux noyaux, y compris le noyau gaussien, conduisent au MMD étant nul si et seulement les distributions sont identiques.φ

Plus précisément, en laissant , vous obtenez que vous pouvez directement estimer avec des échantillons.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


Mise à jour: voici d'où vient le "maximum" du nom.

La carte des fonctionnalités mappée dans un espace Hilbert du noyau de reproduction. Ce sont des espaces de fonctions , et satisfont une propriété clé (appelée propriété de reproduction ): pour tout .φ:XHf,φ(x)H=f(x)fH

Dans l'exemple le plus simple, avec , nous considérons chaque comme la fonction correspondant à certains , par . La propriété de reproduction devrait alors avoir un sens.X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

Dans des paramètres plus complexes, comme un noyau gaussien, est une fonction beaucoup plus compliquée, mais la propriété de reproduction tient toujours.f

Maintenant, nous pouvons donner une caractérisation alternative du MMD: La deuxième ligne est un fait général sur les normes dans les espaces de Hilbert:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g est obtenu par . Le quatrième dépend d'une condition technique connue sous le nom d'intégrabilité de Bochner mais est vrai par exemple pour les noyaux bornés ou les distributions avec support borné. Ensuite, à la fin, nous utilisons la propriété de reproduction.f=g/g

Cette dernière ligne est la raison pour laquelle on l'appelle "écart moyen maximum" - c'est le maximum, sur les fonctions de test dans la boule unitaire de , de la différence moyenne entre les deux distributions.fH

Dougal
la source
Merci pour votre explication, cela devient plus clair pour moi; Je n'ai toujours pas compris ce concept. Au début, vous avez dit: "MMD est défini par l'idée de représenter les distances entre les distributions comme des distances entre les plongements moyens d'entités." Pourquoi cette idée se réalise?
Mahsa
"MMD est défini par l'idée de représenter les distances entre les distributions comme des distances entre les plongements moyens d'entités." Pourquoi cette idée se réalise-t-elle? Est-elle liée à l'espace RKHS?
Mahsa
1
C'est juste une définition: vous pouvez comparer les distributions en comparant leurs moyennes. Ou, vous pouvez comparer les distributions en comparant une certaine transformation de leurs moyennes; ou en comparant leurs moyennes et leurs écarts; ou en comparant la moyenne de toute autre carte d'entités, dont une dans un RKHS.
Dougal
Merci pour votre réponse; Je vais en savoir plus sur la carte des fonctionnalités RKHS; Je me demandais, pourquoi la distance MMD est-elle définie dans la carte des fonctionnalités RKHS? Je veux dire, quel est l'avantage de RKHS dans la définition de distance MMD?
Mahsa
L'explication ici est centrée sur la "différence moyenne" par opposition à la "différence moyenne maximale". Quelqu'un pourrait-il développer la partie "Maximisation"?
Jiang Xiang
5

Voici comment j'ai interprété MMD. Deux distributions sont similaires si leurs moments sont similaires. En appliquant un noyau, je peux transformer la variable de sorte que tous les moments (premier, deuxième, troisième etc.) soient calculés. Dans l'espace latent, je peux calculer la différence entre les moments et la faire la moyenne. Cela donne une mesure de la similitude / dissimilarité entre les ensembles de données.

rsambasivan
la source