Contexte: J'étudie le chapitre 6 du Deep Learning par Ian Goodfellow et Yoshua Bengio et Aaron Courville. Dans la section 6.2.2.2 (pages 182 de 183 qui peuvent être consultées ici ), l'utilisation de sigmoïde pour produire est motivée.
Pour résumer une partie du matériel, ils laissent un neurone de sortie avant qu'une activation soit appliquée où est la sortie de la couche cachée précédente, est un vecteur de poids et est un biais scalaire. Le vecteur d'entrée est noté (dont est fonction) et la valeur de sortie est notée où est la fonction sigmoïde. Le livre souhaite définir une distribution de probabilité sur utilisant la valeur . Du deuxième paragraphe de la page 183:
Nous omettons la dépendance de pour le moment pour discuter de la façon de définir une distribution de probabilité sur utilisant la valeur . Le sigmoïde peut être motivé en construisant une distribution de probabilité non normalisée , qui ne correspond pas à 1. Nous pouvons ensuite diviser par une constante appropriée pour obtenir une distribution de probabilité valide. Si nous partons de l'hypothèse que les probabilités logarithmiques non normalisées sont linéaires en et , nous pouvons exponentier pour obtenir les probabilités non normalisées. Nous normalisons ensuite pour voir que cela donne une distribution de Bernoulli contrôlée par une transformation sigmoïdale de z:
Questions: Je suis confus à propos de deux choses, en particulier la première:
- D'où vient l'hypothèse initiale? Pourquoi la probabilité logarithmique non normalisée est-elle linéaire en et ? Quelqu'un peut-il me donner une idée de la façon dont les auteurs ont commencé avec ?
- Comment la dernière ligne suit-elle?
Je trouve également que ce fragment du livre est difficile à suivre, et la réponse ci-dessus par itdxer mérite un certain temps pour comprendre également pour quelqu'un qui ne maîtrise pas correctement les probabilités et la pensée mathématique. Je l'ai fait cependant en lisant la réponse à l'envers, alors commencez par le sigmoïde de z
et essayez de revenir à.
Ensuite, il est logique pourquoi ils ont commencé l'explication avec yz - c'est par conception, même que la finale
par construction permet d'obtenir -1 pour y = 0 et 1 pour y = 1, qui sont les seules valeurs possibles de y sous le Bernoulli.
la source
Voici une formulation plus formelle qui plaira à ceux qui ont une formation théorique de mesure.
Nous avons la chaîne d'implications suivante:
la source