Motivation des unités de sortie sigmoïdes dans les réseaux de neurones commençant par des probabilités logarithmiques non normalisées linéaires en

12

Contexte: J'étudie le chapitre 6 du Deep Learning par Ian Goodfellow et Yoshua Bengio et Aaron Courville. Dans la section 6.2.2.2 (pages 182 de 183 qui peuvent être consultées ici ), l'utilisation de sigmoïde pour produire est motivée.P(y=1|x)

Pour résumer une partie du matériel, ils laissent un neurone de sortie avant qu'une activation soit appliquée où est la sortie de la couche cachée précédente, est un vecteur de poids et est un biais scalaire. Le vecteur d'entrée est noté (dont est fonction) et la valeur de sortie est notée où est la fonction sigmoïde. Le livre souhaite définir une distribution de probabilité sur utilisant la valeur . Du deuxième paragraphe de la page 183:

z=wTh+b
hwbxhy=ϕ(z)ϕyz

Nous omettons la dépendance de pour le moment pour discuter de la façon de définir une distribution de probabilité sur utilisant la valeur . Le sigmoïde peut être motivé en construisant une distribution de probabilité non normalisée , qui ne correspond pas à 1. Nous pouvons ensuite diviser par une constante appropriée pour obtenir une distribution de probabilité valide. Si nous partons de l'hypothèse que les probabilités logarithmiques non normalisées sont linéaires en et , nous pouvons exponentier pour obtenir les probabilités non normalisées. Nous normalisons ensuite pour voir que cela donne une distribution de Bernoulli contrôlée par une transformation sigmoïdale de z: xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

Questions: Je suis confus à propos de deux choses, en particulier la première:

  1. D'où vient l'hypothèse initiale? Pourquoi la probabilité logarithmique non normalisée est-elle linéaire en et ? Quelqu'un peut-il me donner une idée de la façon dont les auteurs ont commencé avec ?yzlogP~(y)=yz
  2. Comment la dernière ligne suit-elle?
HBeel
la source

Réponses:

8

Il y a deux résultats possibles pour . C'est très important, car cette propriété change la signification de la multiplication. Il y a deux cas possibles:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

Il est également important de noter que la probabilité logarithmique non normalisée pour est constante. Cette propriété découle de l'hypothèse principale. L'application d'une fonction déterministe à la valeur constante produira une sortie constante. Cette propriété simplifiera la formule finale lorsque nous effectuerons la normalisation sur toutes les probabilités possibles, car il nous suffit de connaître uniquement la probabilité non normalisée pour et pour elle est toujours constante. Et comme la sortie du réseau en probabilité logarithmique non normalisée, nous n'aurons besoin que d'une sortie, car une autre est supposée constante.y=0y=1y=0

Ensuite, nous appliquons l'exponentiation à la probabilité du logarithme non normalisé afin d'obtenir une probabilité non normalisée.

P~(y=1)=ezP~(y=0)=e0=1

Ensuite, nous normalisons simplement les probabilités en divisant chaque probabilité non normalisée par la somme de toutes les probabilités non normalisées possibles.

P(y=1)=ez1+ezP(y=0)=11+ez

Nous ne nous intéressons qu'à , car c'est ce que signifie la probabilité de la fonction sigmoïde. La fonction obtenue ne ressemble pas à sigmoïde au premier coup d'œil, mais elles sont égales et faciles à montrer.P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

La dernière déclaration peut être déroutante au début, mais c'est juste un moyen de montrer que cette fonction de probabilité finale est un sigmoïde. La valeur convertit en et en (ou on peut dire que ce serait sans changement).(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

Comme nous pouvons le voir, c'est juste la façon de montrer la relation entre etσP(y)

itdxer
la source
"De plus, il est important de noter que la probabilité logarithmique non normalisée pour est constante. Cette propriété découle de l'hypothèse principale." L'hypothèse étant que nous avons déjà décidé que ? y=0y=1
HBeel
Je pense que ma confusion vient du fait que le sigmoïde donne la probabilité du modèle de quelle que soit l'étiquette réelle. Merci! y=1
HBeel
Je ne veux pas être épais ici, mais comment linéaire en et . Je m'attendrais à quelque chose de la formey×zyzay+bz+clogyz
Je vois, c'est en fait une question intéressante. Je n'ai pas prêté attention à cette déclaration lorsque j'ai lu la question pour la première fois. Maintenant, cela me semble étrange aussi. Un problème est cette variable binaire y et je ne sais pas comment vérifier les propriétés de la fonction linéaire dans ces circonstances. Je suppose que cela aura du sens si vous posez des questions séparées, peut-être que quelqu'un peut vous expliquer pourquoi il a été rédigé de cette façon.
itdxer
2

Je trouve également que ce fragment du livre est difficile à suivre, et la réponse ci-dessus par itdxer mérite un certain temps pour comprendre également pour quelqu'un qui ne maîtrise pas correctement les probabilités et la pensée mathématique. Je l'ai fait cependant en lisant la réponse à l'envers, alors commencez par le sigmoïde de z

P(y=1)=ez1+ez=11+ez

et essayez de revenir à.

logP~(y)=yz

Ensuite, il est logique pourquoi ils ont commencé l'explication avec yz - c'est par conception, même que la finale

σ((2y1)z)

par construction permet d'obtenir -1 pour y = 0 et 1 pour y = 1, qui sont les seules valeurs possibles de y sous le Bernoulli.

Jakub Jurek
la source
0

Voici une formulation plus formelle qui plaira à ceux qui ont une formation théorique de mesure.

YPYy{0,1}PY(y)=P(Y=y)P~Y

Nous avons la chaîne d'implications suivante:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

{0,1}{1,1}

Gabriel Romon
la source