Le centre de cette question
"Comment ... pouvons-nous traiter les données de la vraie distribution et les données du modèle génératif dans la même itération?
Analyse de la publication fondamentale
Dans la page référencée, Understanding Generative Adversarial Networks (2017) , le doctorant Daniel Sieta référence correctement Generative Adversarial Networks, Goodfellow, Pouget-Abadie, Mirza, Xu, Warde-Farley, Ozair, Courville et Bengio, juin 2014 . Ce sont des états abstraits, "Nous proposons un nouveau cadre pour estimer les modèles génératifs via un processus contradictoire, dans lequel nous formons simultanément deux modèles ..." Cet article original définit deux modèles définis comme MLP (perceptrons multicouches).
- Modèle génératif, G
- Modèle discriminant, D
Ces deux modèles sont contrôlés d'une manière où l'un fournit une forme de rétroaction négative à l'autre, donc le terme contradictoire.
- G est formé pour capturer suffisamment bien la distribution des données d'un ensemble d'exemples pour tromper D.
- D est formé pour découvrir si ses entrées sont des simulations de G ou l'ensemble d'exemples pour le système GAN.
(L'ensemble d'exemples pour le système GAN est parfois appelé les échantillons réels, mais ils peuvent ne pas être plus réels que ceux générés. Les deux sont des tableaux numériques dans un ordinateur, l'un avec une origine interne et l'autre avec une source externe Le fait que les caméras externes proviennent d'une caméra pointée sur une scène physique n'est pas pertinent pour le fonctionnement du GAN.)
Probablement, tromper D est synonyme de maximiser la probabilité que D génère autant de faux positifs et de faux négatifs qu'il corrige les catégorisations, 50% chacune. En science de l'information, cela revient à dire que la limite d'information D a de G s'approche de 0 comme t s'approche de l'infini. Il s'agit d'un processus de maximisation de l'entropie de G du point de vue de D, d'où le terme d'entropie croisée.
Comment la convergence est réalisée
Parce que la fonction de perte reproduite à partir de l'écriture de Sieta en 2017 dans la question est celle de D, conçue pour minimiser l'entropie croisée (ou corrélation) entre les deux distributions lorsqu'elle est appliquée à l'ensemble complet de points pour un état d'entraînement donné.
H( ( x1, y1) , D ) = 1D ( x1)
Il existe une fonction de perte distincte pour G, conçue pour maximiser l'entropie croisée. Notez qu'il existe DEUX niveaux de granularité de la formation dans le système.
- Celui des mouvements de jeu dans un jeu à deux joueurs
- Celui des échantillons de formation
Ceux-ci produisent une itération imbriquée avec l'itération externe comme suit.
- La formation de G se déroule en utilisant la fonction de perte de G.
- Les modèles d'entrée simulés sont générés à partir de G à son état actuel de formation.
- La formation de D se déroule en utilisant la fonction de perte de D.
- Répétez si l'entropie croisée n'est pas encore suffisamment maximisée, D peut toujours discriminer.
Lorsque D perd finalement la partie, nous avons atteint notre objectif.
- G a récupéré la distribution des données de formation
- D a été réduit à l'inefficacité ("1/2 probabilité partout")
Pourquoi une formation simultanée est nécessaire
Si les deux modèles n'étaient pas entraînés en va-et-vient pour simuler la concurrence, la convergence dans le plan contradictoire (l'itération externe) ne se produirait pas sur la solution unique revendiquée dans l'article de 2014.
Plus d'information
Au-delà de la question, le prochain élément d'intérêt dans le papier de Sieta est que, "Mauvaise conception de la fonction de perte du générateur", peut conduire à des valeurs de gradient insuffisantes pour guider la descente et produire ce qu'on appelle parfois la saturation. La saturation est simplement la réduction du signal de rétroaction qui guide la descente en rétropropagation au bruit chaotique résultant de l'arrondi à virgule flottante. Le terme vient de la théorie du signal.
Je suggère d'étudier l'article de 2014 de Goodfellow et alia (les chercheurs chevronnés) pour en savoir plus sur la technologie GAN plutôt que la page de 2017.
Vous pouvez traiter une combinaison d'
z
entrées et d'x
entrées comme un seul échantillon et vous évaluez dans quelle mesure le discriminateur a effectué la classification de chacun d'eux.Voilà pourquoi le poste plus tard sépare un seul
y
dansE(p~data)
etE(z)
- en gros, vous avez des attentes différentes (y
s) pour chacune des entrées discriminantes et vous devez mesurer les deux en même temps pour évaluer dans quelle mesure le discriminateur effectue.C'est pourquoi la fonction de perte est conçue comme une combinaison à la fois de la classification positive de l'entrée réelle et de la classification négative de l'entrée négative.
la source