Les hyperplans classent de manière optimale les données lorsque les entrées sont indépendantes conditionnellement

10

Dans l'article intitulé Deep Learning and the Information Bottleneck Principle, les auteurs déclarent dans la section II A) ce qui suit:

Les neurones simples ne classent que les entrées séparables linéairement, car ils ne peuvent implémenter que des hyperplans dans leur espace d'entrée . Les hyperplans peuvent classer de manière optimale les données lorsque les entrées sont indépendantes de manière conditionnelle. $u = wh+b$

Pour le montrer, ils en déduisent ce qui suit. En utilisant le théorème de Bayes, ils obtiennent:

$p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})}$ (1)

Où est l'entrée, est la classe et est la classe prédite (je suppose que n'est pas défini). Poursuivant, ils déclarent que: $x$ $y$ $y'$ $y'$

$\frac{p(x|y)}{p(x|y')} = \prod^N_{j=1}[\frac{p(x_j|y)}{p(x_j|y')}]^{np(x_j)}$ (2)

Où est la dimension d'entrée et je ne suis pas sûr (encore une fois, les deux ne sont pas définis). En considérant un neurone sigmoïde, avec la fonction d'activation sigmoïde et la préactivation , après avoir inséré (2) dans (1), nous obtenons les valeurs de poids optimales et , lorsque les valeurs d'entrée . $N$ $n$ $\sigma(u) = \frac{1}{1+exp(-u)}$ $u$ $w_j = log\frac{p(x_j|y)}{p(x_j|y')}$ $b=log\frac{p(y)}{p(y')}$ $h_j=np(x_j)$

Passons maintenant à mes questions. Je comprends comment l'insertion de (2) dans (1) conduit au poids optimal et aux valeurs d'entrée . Ce que je ne comprends pas cependant, c'est ce qui suit: $w,b,h$

Comment (1) est-il dérivé en utilisant le théorème de Bayes?
Comment est dérivé (2)? Qu'est-ce que ? Quel est le sens de cela? Je suppose que cela a quelque chose à voir avec l'indépendance conditionnelle $n$
Même si les dimensions de x sont conditionnellement indépendantes, comment peut-on affirmer qu'il est égal à sa probabilité d'échelle? (c.-à-d. comment pouvez-vous indiquer ?) $h_j=np(x_j)$

EDIT: La variable est une variable de classe binaire. De cela, je suppose que est la "autre" classe. Cela résoudrait la question 1. Êtes-vous d'accord? $y$ $y'$

bayesian neural-networks information-theory spurra
la source

J'ai du mal à comprendre d'où vient l'éq 2, malgré les indications de la réponse de l'auteur de l'article (Prof. Tishby). Je comprends la partie qui découle de l'hypothèse d'indépendance conditionnelle. Cependant, je ne suis pas sûr de l'exposant - pourquoi est-il là?

n p (x_{j})

$n p(x_j)$

IcannotFixThis

5

Désolé pour les détails manquants dans notre court article, mais ces relations et connexions entre le test du rapport de vraisemblance et les neurones sigmoïdes ne sont certainement pas nouvelles et peuvent être trouvées dans les manuels (par exemple Bishop 2006). Dans notre article, «N» est la dimension d'entrée et «n» est la taille de l'échantillon de test (qui se traduit en fait par le SNR d'entrée en supposant que le SNR croît comme sqrt (n)). La connexion à la fonction sigmoïde se fait par la règle de Bayes, en tant que postérieure de la classe. Rien dans le reste de l'article et notre article plus récent et plus important de 2017 n'en dépend réellement.

Naftali Tishby

Naftali Tishby
la source

2

Merci d'avoir clarifié cela ici. Il est courant dans cette communauté d'écrire des citations complètes afin que les lecteurs intéressés puissent rechercher les sources. Pourriez-vous faire cela pour Bishop (2006)?

mkt

5

Il s'agit d'une configuration de modèle dans laquelle les auteurs utilisent une forme spéciale de théorème de Bayes qui s'applique lorsque vous avez une variable binaire d'intérêt. Ils dérivent d'abord cette forme spéciale du théorème de Bayes comme l'équation (1), puis ils montrent que la condition de l'équation (2) les conduit à la forme linéaire spécifiée pour leur réseau. Il est important de noter que cette dernière équation n'est pas dérivée des conditions précédentes --- c'est plutôt une condition pour la forme linéaire qu'ils utilisent pour leur réseau.

Dérivation de la première équation: L' équation (1) dans l'article n'est qu'une forme de théorème de Bayes qui encadre la probabilité conditionnelle d'intérêt en termes de fonction logistique standard (sigmoïde) opérant sur des fonctions de vraisemblance et de précédent. Si et sont les deux résultats binaires de la variable aléatoire et en appliquant le théorème de Bayes, on obtient: $y$ $y'$ $Y$

\begin{aligned} p (y | x) = \frac{p (y, x)}{p (x)} & = \frac{p (x | y) p (y)}{p (x | y) p (y) + p (x | y^{'}) p (y^{'})} \\ = \frac{1}{1 + p (x | y^{'}) p (y^{'}) / p (x | y) p (y)} \\ = \frac{1}{1 + \exp (\log (\frac{p (x | y^{'}) p (y^{'})}{p (x | y) p (y)}))} \\ = \frac{1}{1 + \exp (- \log \frac{p (x | y)}{p (x | y^{'})} - \log \frac{p (y)}{p (y^{'})})} \\ = logistic (\log \frac{p (x | y)}{p (x | y^{'})} + \log \frac{p (y)}{p (y^{'})}) . \end{aligned}

$\begin{equation} \begin{aligned} p(y|\mathbf{x}) = \frac{p(y,\mathbf{x})}{p(\mathbf{x})} &= \frac{p(\mathbf{x}|y) p(y)}{p(\mathbf{x}|y) p(y)+p(\mathbf{x}|y') p(y')} \\[6pt] &= \frac{1}{1+ p(\mathbf{x}|y') p(y')/p(\mathbf{x}|y) p(y)} \\[6pt] &= \frac{1}{1+ \exp \Big( \log \Big( \tfrac{p(\mathbf{x}|y') p(y')}{p(\mathbf{x}|y) p(y)} \Big) \Big)} \\[6pt] &= \frac{1}{1+ \exp \Big( - \log \tfrac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} - \log \tfrac{p(y)}{p(y')} \Big)} \\[6pt] &= \text{logistic} \Bigg( \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} + \log \frac{p(y)}{p(y')} \Bigg). \\[6pt] \end{aligned} \end{equation}$

Utilisation de l'équation (2) comme condition pour la forme lienar du réseau: Comme indiqué ci-dessus, cette équation n'est pas quelque chose qui est dérivé des résultats précédents. C'est plutôt une condition suffisante qui conduit à la forme linéaire que les auteurs utilisent dans leur modèle --- c'est-à-dire que les auteurs disent que si cette équation est vraie, alors certains résultats subséquents suivent. Laisser le vecteur d'entrée avoir la longueur , si l'équation (2) est , alors prendre des logarithmes des deux côtés donne: $\mathbf{x} = (x_1,...,x_N)$ $N$

\begin{aligned} \log \frac{p (x | y)}{p (x | y^{'})} & = \log \prod_{i = 1}^{N} [\frac{p (x_{i} | y)}{p (x_{i} | y^{'})}]^{n p (x_{i})} \\ = \sum_{i = 1}^{N} n p (x_{i}) \log [\frac{p (x_{i} | y)}{p (x_{i} | y^{'})}] \\ = \sum_{i = 1}^{N} h_{i} w_{i} . \end{aligned}

$\begin{equation} \begin{aligned} \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} &= \log \prod_{i=1}^N \Big[ \frac{p(x_i|y)}{p(x_i|y')} \Big]^{n p (x_i)} \\[6pt] &= \sum_{i=1}^N n p (x_i) \log \Big[ \frac{p(x_i|y)}{p(x_i|y')} \Big] \\[6pt] &= \sum_{i=1}^N h_i w_i. \\[6pt] \end{aligned} \end{equation}$

Dans cette condition, on obtient donc la forme postérieure:

\begin{aligned} p (y | x) & = logistic (\log \frac{p (x | y)}{p (x | y^{'})} + \log \frac{p (y)}{p (y^{'})}) \\ = logistic (\sum_{i = 1}^{N} h_{i} w_{i} + b), \end{aligned}

$\begin{equation} \begin{aligned} p(y|\mathbf{x}) &= \text{logistic} \Bigg( \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} + \log \frac{p(y)}{p(y')} \Bigg) \\[6pt] &= \text{logistic} \Bigg( \sum_{i=1}^N h_i w_i + b \Bigg), \\[6pt] \end{aligned} \end{equation}$

qui est la forme que les auteurs utilisent dans leur réseau. C'est la forme modèle postulée par les auteurs dans la section de fond, avant de spécifier les équations (1) - (2). L'article ne définit pas dans cette configuration de modèle, mais comme vous le faites remarquer, la réponse du professeur Tishby indique qu'il s'agit de la taille de l'échantillon de test. En ce qui concerne votre troisième question, il semble que l'exigence de l'équation (2) signifie que les valeurs dans ne sont pas conditionnellement indépendantes étant donné . $n$ $\mathbf{x}$ $y$

Ben - Réintègre Monica
la source

Le professeur Tishby (auteur) dit, dans sa propre réponse, que est la taille de l'échantillon d'essai. C'est pourquoi j'ai senti que l'éq (2) avait une interprétation beaucoup plus riche qu'une simple condition arbitraire à la forme linéaire du réseau.

n

$n$

IcannotFixThis

Merci - J'ai modifié ma réponse pour refléter ces informations supplémentaires.

Ben - Réintègre Monica le

4

Pour une

$P(y \mid x) = \frac{P(y, x)}{P(x)}$

$= \frac{P(y,x)}{\sum_{i}P(y_{i},x)}$

Maintenant que est binaire, cela devient: $y_{i}$

$= \frac{P(y,x)}{P(y,x)+P(y',x)}$

$= \frac{1}{1+\frac{P(y',x)}{P(y,x)}}$

$= \frac{1}{1+exp[-log \ \frac{P(y,x)}{P(y',x)}]}$

et à partir de là, c'est juste la propriété du logarithme pour arriver à la forme finale (devrait être suffisamment clair à ce stade, faites le moi savoir si non).

Chris Ormandy
la source

Les hyperplans classent de manière optimale les données lorsque les entrées sont indépendantes conditionnellement - Pourquoi?

Réponses: