Écart moyen maximal (distribution de la distance)

Il pourrait être utile de donner un peu plus d’aperçu du MMD. $\DeclareMathOperator{\E}{\mathbb E}\newcommand{\R}{\mathbb R}\newcommand{\X}{\mathcal X}\newcommand{\h}{\mathcal H}\DeclareMathOperator{\MMD}{MMD}$

En général, MMD est défini par l'idée de représenter les distances entre les distributions comme des distances entre les plongements moyens d'entités. C'est, disons que nous avons des distributions et sur un ensemble . Le MMD est défini par une carte de fonctionnalités , où est ce qu'on appelle un espace Hilbert de noyau de reproduction. En général, le MMD est $P$ $Q$ $\X$ $\varphi : \X \to \h$ $\mathcal H$

MMD (P, Q) = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} .

$\MMD(P, Q) = \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h .$

Par exemple, nous pourrions avoir et . Dans ce cas: donc ce MMD est juste la distance entre les moyennes des deux distributions. Les distributions correspondantes comme celle-ci correspondront à leurs moyennes, bien qu'elles puissent différer dans leur variance ou d'autres manières. $\X = \h = \R^d$ $\varphi(x) = x$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [X] - E_{Y \sim Q} [Y] ‖_{R^{d}} \\ = ‖ μ_{P} - μ_{Q} ‖_{R^{d}}, \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ X ] - \E_{Y \sim Q}[ Y ] \rVert_{\R^d} \\&= \lVert \mu_P - \mu_Q \rVert_{\R^d} ,\end{align}$

Votre cas est légèrement différent: nous avons et , avec , où est une matrice . Nous avons donc Ce MMD est la différence entre deux projections différentes de la moyenne. Si ou le mappage autrement n'est pas inversible, $\mathcal X = \mathbb R^d$ $\mathcal H = \mathbb R^p$ $\varphi(x) = A' x$ $A$ $d \times p$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [A^{'} X] - E_{Y \sim Q} [A^{'} Y] ‖_{R^{p}} \\ = ‖ A^{'} E_{X \sim P} [X] - A^{'} E_{Y \sim Q} [Y] ‖_{R^{p}} \\ = ‖ A^{'} (μ_{P} - μ_{Q}) ‖_{R^{p}} . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ A' X ] - \E_{Y \sim Q}[ A' Y ] \rVert_{\R^p} \\&= \lVert A' \E_{X \sim P}[ X ] - A' \E_{Y \sim Q}[ Y ] \rVert_{\R^p} \\&= \lVert A'( \mu_P - \mu_Q ) \rVert_{\R^p} .\end{align}$

p < d

$p < d$

A^{'}

$A'$ que la précédente: elle ne fait pas de distinction entre certaines distributions que la précédente fait.

Vous pouvez également construire des distances plus importantes. Par exemple, si et vous utilisez , alors le MMD devient , et peut distinguer non seulement des distributions avec des moyennes différentes mais aussi avec des variances différentes. $\X = \R$ $\varphi(x) = (x, x^2)$ $\sqrt{(\E X - \E Y)^2 + (\E X^2 - \E Y^2)^2}$

Et vous pouvez devenir beaucoup plus fort que cela: si correspond à un espace Hilbert de noyau de reproduction général, alors vous pouvez appliquer l' astuce du noyau pour calculer le MMD, et il s'avère que de nombreux noyaux, y compris le noyau gaussien, conduisent au MMD étant nul si et seulement les distributions sont identiques. $\varphi$

Plus précisément, en laissant , vous obtenez que vous pouvez directement estimer avec des échantillons. $k(x, y) = \langle \varphi(x), \varphi(y) \rangle_\h$

\begin{aligned} {MMD}^{2} (P, Q) & = ‖ E_{X \sim P} φ (X) - E_{Y \sim Q} φ (Y) ‖_{H}^{2} \\ = ⟨ E_{X \sim P} φ (X), E_{X^{'} \sim P} φ (X^{'}) ⟩_{H} + ⟨ E_{Y \sim Q} φ (Y), E_{Y^{'} \sim Q} φ (Y^{'}) ⟩_{H} - 2 ⟨ E_{X \sim P} φ (X), E_{Y \sim Q} φ (Y) ⟩_{H} \\ = E_{X, X^{'} \sim P} k (X, X^{'}) + E_{Y, Y^{'} \sim Q} k (Y, Y^{'}) - 2 E_{X \sim P, Y \sim Q} k (X, Y) \end{aligned}

$\begin{align} \MMD^2(P, Q) &= \lVert \E_{X \sim P} \varphi(X) - \E_{Y \sim Q} \varphi(Y) \rVert_\h^2 \\&= \langle \E_{X \sim P} \varphi(X), \E_{X' \sim P} \varphi(X') \rangle_\h + \langle \E_{Y \sim Q} \varphi(Y), \E_{Y' \sim Q} \varphi(Y') \rangle_\h - 2 \langle \E_{X \sim P} \varphi(X), \E_{Y \sim Q} \varphi(Y) \rangle_\h \\&= \E_{X, X' \sim P} k(X, X') + \E_{Y, Y' \sim Q} k(Y, Y') - 2 \E_{X \sim P, Y \sim Q} k(X, Y) \end{align}$

Mise à jour: voici d'où vient le "maximum" du nom.

La carte des fonctionnalités mappée dans un espace Hilbert du noyau de reproduction. Ce sont des espaces de fonctions , et satisfont une propriété clé (appelée propriété de reproduction ): pour tout . $\varphi: \X \to \h$ $\langle f, \varphi(x) \rangle_\h = f(x)$ $f \in \h$

Dans l'exemple le plus simple, avec , nous considérons chaque comme la fonction correspondant à certains , par . La propriété de reproduction devrait alors avoir un sens. $\X = \h = \R^d$ $\varphi(x) = x$ $f \in \h$ $w \in \R^d$ $f(x) = w' x$ $\langle f, \varphi(x) \rangle_\h = \langle w, x \rangle_{\R^d}$

Dans des paramètres plus complexes, comme un noyau gaussien, est une fonction beaucoup plus compliquée, mais la propriété de reproduction tient toujours. $f$

Maintenant, nous pouvons donner une caractérisation alternative du MMD: La deuxième ligne est un fait général sur les normes dans les espaces de Hilbert:

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] ⟩_{H} - ⟨ f, E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [⟨ f, φ (X) ⟩_{H}] - E_{Y \sim Q} [⟨ f, φ (Y) ⟩_{H}] \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [f (X)] - E_{Y \sim Q} [f (Y)] . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rVert_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] \rangle_\h - \langle f, \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[\langle f, \varphi(X)\rangle_\h] - \E_{Y \sim Q}[\langle f, \varphi(Y) \rangle_\h] \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[f(X)] - \E_{Y \sim Q}[f(Y)] .\end{align}$

sup_{f : ‖ f ‖ \leq 1} ⟨ f, g ⟩_{H} = ‖ g ‖

$\sup_{f : \lVert f \rVert \le 1} \langle f, g \rangle_\h = \lVert g \rVert$ est obtenu par . Le quatrième dépend d'une condition technique connue sous le nom d'intégrabilité de Bochner mais est vrai par exemple pour les noyaux bornés ou les distributions avec support borné. Ensuite, à la fin, nous utilisons la propriété de reproduction.

f = g / ‖ g ‖

$f = g / \lVert g \rVert$

Cette dernière ligne est la raison pour laquelle on l'appelle "écart moyen maximum" - c'est le maximum, sur les fonctions de test dans la boule unitaire de , de la différence moyenne entre les deux distributions. $f$ $\h$

Dougal
la source

Merci pour votre explication, cela devient plus clair pour moi; Je n'ai toujours pas compris ce concept. Au début, vous avez dit: "MMD est défini par l'idée de représenter les distances entre les distributions comme des distances entre les plongements moyens d'entités." Pourquoi cette idée se réalise?

Mahsa

"MMD est défini par l'idée de représenter les distances entre les distributions comme des distances entre les plongements moyens d'entités." Pourquoi cette idée se réalise-t-elle? Est-elle liée à l'espace RKHS?

Mahsa

C'est juste une définition: vous pouvez comparer les distributions en comparant leurs moyennes. Ou, vous pouvez comparer les distributions en comparant une certaine transformation de leurs moyennes; ou en comparant leurs moyennes et leurs écarts; ou en comparant la moyenne de toute autre carte d'entités, dont une dans un RKHS.

Dougal

Merci pour votre réponse; Je vais en savoir plus sur la carte des fonctionnalités RKHS; Je me demandais, pourquoi la distance MMD est-elle définie dans la carte des fonctionnalités RKHS? Je veux dire, quel est l'avantage de RKHS dans la définition de distance MMD?

Mahsa

L'explication ici est centrée sur la "différence moyenne" par opposition à la "différence moyenne maximale". Quelqu'un pourrait-il développer la partie "Maximisation"?

Jiang Xiang

Écart moyen maximal (distribution de la distance)

Réponses: