Dériver l'algorithme K-means comme limite de maximisation des attentes pour les mélanges gaussiens

Christopher Bishop définit la valeur attendue de la fonction de vraisemblance du journal des données complètes (c'est-à-dire en supposant que l'on nous donne à la fois les données observables X et les données latentes Z) comme suit:

\begin{matrix} (1) & E_{Z} [\ln p (X, Z ∣ μ, Σ, π)] = \sum_{n = 1}^{N} \sum_{k = 1}^{K} γ (z_{n k}) {\ln π_{k} + \ln N (x_{n} ∣ μ_{k}, Σ_{k})} \end{matrix}

$\mathbb{E}_\textbf{Z}[\ln p(\textbf{X},\textbf{Z} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\pi})] = \sum_{n=1}^N \sum_{k=1}^K \gamma(z_{nk})\{\ln \pi_k + \ln \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)\} \tag 1$

où est défini comme: $\gamma(z_{nk})$

\begin{matrix} (2) & \frac{π_{k} N (x_{n} ∣ μ_{k}, Σ_{k})}{\sum_{j = 1}^{K} π_{j} N (x_{n} ∣ μ_{j}, Σ_{j})} \end{matrix}

$\frac{\pi_k \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_j, \boldsymbol{\Sigma}_j)} \tag 2$

L'idée, telle que décrite, est de considérer un modèle de mélange gaussien dans lequel les matrices de covariance des composants du mélange sont données par , où est un paramètre de variance qui est partagé par tous les composants, tels que cette: $\epsilon \textbf{I}$ $\epsilon$

\begin{matrix} (3) & p (x ∣ μ_{k}, Σ_{k}) = \frac{1}{(2 π ϵ)^{\frac{M}{2}}} \exp {- \frac{1}{2 ϵ} ‖ x - μ_{k} ‖^{2}} \end{matrix}

$p(\textbf x \mid \boldsymbol \mu_k, \boldsymbol \Sigma_k) = \frac{1}{(2 \pi \epsilon)^\frac{M}{2}} \exp\big\{{-\frac{1}{2 \epsilon} \|\textbf x - \boldsymbol \mu_k\|^2}\big\} \tag 3$

et ainsi, $\gamma(z_{nk})$ est maintenant défini comme:

\begin{matrix} (4) & \frac{π_{k} \exp {- ‖ x_{n} - μ_{k} ‖^{2} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {- ‖ x_{n} - μ_{j} ‖^{2} / 2 ϵ}} \end{matrix}

$\frac{\pi_k \exp\{ - \| \textbf x_n - \boldsymbol \mu_k\|^2 / 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \| \textbf x_n - \boldsymbol \mu_j\|^2 / 2 \epsilon\}} \tag 4$

L' argument est maintenant le suivant:

si l'on considère la limite , on voit que dans le dénominateur le terme pour lequel est le plus petit, ira à zéro le plus lentement, et donc les responsabilités pour le point de données vont toutes à zéro sauf pour le terme j, dont la responsabilité ira à l'unité. Ainsi, dans cette limite, nous obtenons une affectation difficile des points de données aux clusters, tout comme dans l' algorithme moyens, de sorte que $\epsilon \to 0$ $\| \textbf x_n - \boldsymbol \mu_j\|^2$ $\gamma(z_{nk})$ $\textbf x_n$ $\gamma(z_{nk})$ $K$ $\gamma(z_{nk}) \to r_{nk}$

où est défini comme: $r_{nk}$

\begin{matrix} (5) & f (n) = {\begin{cases} 1 & if k = arg {min}_{j} ‖ x_{n} - μ_{j} ‖^{2} \\ 0 & otherwise \end{cases} \end{matrix}

$\begin{equation*} f(n) = \begin{cases} 1 & \text{if } k = \text{arg } \text{min}_j \|\textbf x_n - \boldsymbol \mu_j\|^2\\ 0 & \text{otherwise}\\ \tag 5 \end{cases} \end{equation*}$

Ma question est de savoir comment l'argument ci-dessus tient? A savoir, qu'est-ce que cela signifie pour un terme d'aller à zéro ? Et comment le fait de prendre la limite dans l'équation entraîne-t-il une responsabilité binaire? $\textbf{most slowly}$ $\epsilon \to 0$ $4$

self-study maximum-likelihood expected-value convergence expectation-maximization BitRiver
la source

Lorsque passe à zéro, passe à zéro pour tous les mais à des vitesses différentes selon , la plus petite rassemble alors tout le poids dans la limite.

ϵ

$\epsilon$

\exp {- ‖ x_{n} - μ_{k} ‖^{2} / 2 ϵ} = \exp {- δ_{n} / ϵ}

$\exp\{ - \| \textbf x_n - \boldsymbol \mu_k\|^2 / 2 \epsilon\}=\exp\{-\delta_n/\epsilon\}$

n

$n$

δ_{n}

$\delta_n$

δ_{n}

$\delta_n$

Xi'an

(explication supplémentaire) Si vous prenez comme le plus petit , vous pouvez réécrire tous les termes en , ce qui signifie que tous les termes vont à zéro avec sauf un, celui pour lequel .

δ^{*}

$\delta^*$

δ_{n}

$\delta_n$

\exp {(δ^{*} - δ_{n}) / ϵ}

$\exp\{(\delta^*-\delta_n)/\epsilon\}$

ϵ

$\epsilon$

δ^{*} - δ_{n} = 0

$\delta^*-\delta_n=0$

Xi'an

@ Xi'an Souhaitez-vous fournir plus d'élaboration? Que voulez-vous dire "le plus petit rassemble alors tout le poids dans la limite"? Et comment le terme pour lequel = 0 est-il évalué à l'unité? Je veux dire, le numérateur est 0, non?

δ_{n}

$\delta_n$

δ^{*} - δ_{n}

$\delta^* - \delta_n$

BitRiver

Ecrivons Alors Si nous prenons nous avons où sauf pour où

‖ x_{n} - μ_{k} ‖^{2} = δ_{k} .

$\|\textbf x_n - \boldsymbol \mu_k\|^2=\delta_k\,.$

\frac{π_{k} \exp {- ‖ x_{n} - μ_{k} ‖^{2} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {- ‖ x_{n} - μ_{j} ‖^{2} / 2 ϵ}} = \frac{π_{k} \exp {- δ_{k} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {- δ_{j} / 2 ϵ}}

$\frac{\pi_k \exp\{ - \| \textbf x_n - \boldsymbol \mu_k\|^2 / 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \| \textbf x_n - \boldsymbol \mu_j\|^2 / 2 \epsilon\}}=\frac{\pi_k \exp\{ - \delta_k/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \delta_j/ 2 \epsilon\}}$

δ^{*} = min_{n} δ_{n},

$\delta^*=\min_n\delta_n\,,$

\begin{aligned} \frac{π_{k} \exp {- δ_{k} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {- δ_{j} / 2 ϵ}} & = \frac{π_{k} \exp {(δ^{*} - δ_{k}) / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} \end{aligned}

$\begin{align*} \frac{\pi_k \exp\{ - \delta_k/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \delta_j/ 2 \epsilon\}}&=\frac{\pi_k \exp\{(\delta^*- \delta_k)/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}} \end{align*}$

δ^{*} - δ_{k} < 0

$\delta^*-\delta_k<0$

k = k^{*}

$k=k^*$

δ^{*} - δ_{k^{*}} = 0

$\delta^*-\delta_{k^*}=0$ . Donc, pour tout , puisque, pour , tandis que

k \neq k^{*}

$k\ne k^*$

lim_{ϵ \to 0} \frac{π_{k} \exp {(δ^{*} - δ_{k}) / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = lim_{ϵ \to 0} \frac{π_{k} \exp {(δ^{*} - δ_{k}) / 2 ϵ}}{π_{k^{*}} + \sum_{j \neq k^{*}} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = 0

$\lim_{\epsilon\to 0} \frac{\pi_k \exp\{(\delta^*- \delta_k)/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=\lim_{\epsilon\to 0} \frac{\pi_k \exp\{(\delta^*- \delta_k)/ 2 \epsilon\}}{\pi_{k^*}+\sum_{j\ne k^*} \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=0$

a > 0

$a>0$

lim_{ϵ \to 0} \exp {- a / ϵ} = 0

$\lim_{\epsilon\to 0}\exp\{-a/\epsilon \}=0$

lim_{ϵ \to 0} \frac{π_{k^{*}} \exp {(δ^{*} - δ_{k^{*}}) / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = lim_{ϵ \to 0} \frac{π_{k^{*}} \times 1}{π_{k^{*}} + \sum_{j \neq k^{*}} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = 1

$\lim_{\epsilon\to 0} \frac{\pi_{k^*} \exp\{(\delta^*- \delta_{k^*})/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=\lim_{\epsilon\to 0} \frac{\pi_{k^*} \times 1}{\pi_{k^*}+\sum_{j\ne k^*} \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=1$

Xi'an
la source

Dériver l'algorithme K-means comme limite de maximisation des attentes pour les mélanges gaussiens

Réponses: