J'ai deux ensembles de données (données source et cible) qui suivent la distribution différente. J'utilise MMD - qui est une distribution de distance non paramétrique - pour calculer la distribution marginale entre les données source et cible.
données source, Xs
données cibles, Xt
matrice d'adaptation A
* Données projetées, Zs = A '* Xs et Zt = A' Xt
* MMD => Distance (P (Xs), P (Xt)) = | moyenne (A'Xs) - moyenne (A ' Xt) |
Cela signifie: la distance de la distribution entre les données source et cible dans l'espace d'origine est équivalente à la distance entre les moyennes des données source et cible projetées dans l'espace intégré.
J'ai une question sur le concept de MMD.
Dans la formule MMD, Pourquoi avec le calcul de la distance dans l'espace latent, nous pourrions mesurer la distance de la distribution dans l'espace d'origine?
Merci
Réponses:
Il pourrait être utile de donner un peu plus d’aperçu du MMD.
En général, MMD est défini par l'idée de représenter les distances entre les distributions comme des distances entre les plongements moyens d'entités. C'est, disons que nous avons des distributions et sur un ensemble . Le MMD est défini par une carte de fonctionnalités , où est ce qu'on appelle un espace Hilbert de noyau de reproduction. En général, le MMD estP Q X φ:X→H H MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Par exemple, nous pourrions avoir et . Dans ce cas: donc ce MMD est juste la distance entre les moyennes des deux distributions. Les distributions correspondantes comme celle-ci correspondront à leurs moyennes, bien qu'elles puissent différer dans leur variance ou d'autres manières.X=H=Rd φ(x)=x MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Votre cas est légèrement différent: nous avons et , avec , où est une matrice . Nous avons donc Ce MMD est la différence entre deux projections différentes de la moyenne. Si ou le mappage autrement n'est pas inversible,X=Rd H=Rp φ(x)=A′x A d×p MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp. p<d A′ que la précédente: elle ne fait pas de distinction entre certaines distributions que la précédente fait.
Vous pouvez également construire des distances plus importantes. Par exemple, si et vous utilisez , alors le MMD devient , et peut distinguer non seulement des distributions avec des moyennes différentes mais aussi avec des variances différentes.X=R φ(x)=(x,x2) (EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
Et vous pouvez devenir beaucoup plus fort que cela: si correspond à un espace Hilbert de noyau de reproduction général, alors vous pouvez appliquer l' astuce du noyau pour calculer le MMD, et il s'avère que de nombreux noyaux, y compris le noyau gaussien, conduisent au MMD étant nul si et seulement les distributions sont identiques.φ
Plus précisément, en laissant , vous obtenez que vous pouvez directement estimer avec des échantillons.k(x,y)=⟨φ(x),φ(y)⟩H MMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Mise à jour: voici d'où vient le "maximum" du nom.
La carte des fonctionnalités mappée dans un espace Hilbert du noyau de reproduction. Ce sont des espaces de fonctions , et satisfont une propriété clé (appelée propriété de reproduction ): pour tout .φ:X→H ⟨f,φ(x)⟩H=f(x) f∈H
Dans l'exemple le plus simple, avec , nous considérons chaque comme la fonction correspondant à certains , par . La propriété de reproduction devrait alors avoir un sens.X=H=Rd φ(x)=x f∈H w∈Rd f(x)=w′x ⟨f,φ(x)⟩H=⟨w,x⟩Rd
Dans des paramètres plus complexes, comme un noyau gaussien, est une fonction beaucoup plus compliquée, mais la propriété de reproduction tient toujours.f
Maintenant, nous pouvons donner une caractérisation alternative du MMD: La deuxième ligne est un fait général sur les normes dans les espaces de Hilbert:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)]. supf:∥f∥≤1⟨f,g⟩H=∥g∥ est obtenu par . Le quatrième dépend d'une condition technique connue sous le nom d'intégrabilité de Bochner mais est vrai par exemple pour les noyaux bornés ou les distributions avec support borné. Ensuite, à la fin, nous utilisons la propriété de reproduction.f=g/∥g∥
Cette dernière ligne est la raison pour laquelle on l'appelle "écart moyen maximum" - c'est le maximum, sur les fonctions de test dans la boule unitaire de , de la différence moyenne entre les deux distributions.f H
la source
Voici comment j'ai interprété MMD. Deux distributions sont similaires si leurs moments sont similaires. En appliquant un noyau, je peux transformer la variable de sorte que tous les moments (premier, deuxième, troisième etc.) soient calculés. Dans l'espace latent, je peux calculer la différence entre les moments et la faire la moyenne. Cela donne une mesure de la similitude / dissimilarité entre les ensembles de données.
la source