Je passe par le cours DeepAI de Cousera (semaine 1 vidéo 1 "Présentation des réseaux de neurones") et Andrew Ng explique comment chaque couche d'un réseau de neurones n'est qu'une autre régression logistique, mais il n'explique pas comment cela rend les choses plus précises.
Ainsi, dans un réseau à 2 couches, comment le calcul de plusieurs temps logistiques le rend-il plus précis?
Réponses:
Lors de l'utilisation des fonctions d'activation logistique, il est vrai que la fonction reliant les entrées de chaque unité à sa sortie est la même que pour la régression logistique. Mais ce n'est pas vraiment la même chose que chaque unité effectuant une régression logistique. La différence est que, dans la régression logistique, les poids et les biais sont choisis de telle sorte que la sortie correspond le mieux aux valeurs cibles données (en utilisant la perte log / entropie croisée). En revanche, les unités cachées d'un réseau neuronal envoient leurs sorties aux unités en aval. Il n'y a pas de sortie cible à faire correspondre pour les unités cachées individuelles. Les poids et les biais sont plutôt choisis pour minimiser une fonction objective qui dépend de la sortie finale du réseau.
Plutôt que d'effectuer une régression logistique, il pourrait être plus logique de penser à chaque unité cachée comme calculant une coordonnée dans un espace caractéristique. Dans cette perspective, le but d'un calque caché est de transformer son entrée - le vecteur d'entrée est mappé sur un vecteur d'activation de calque caché. Vous pouvez penser à cela comme mapper l'entrée dans un espace d'entité avec une dimension correspondant à chaque unité cachée.
La couche de sortie peut souvent être considérée comme un algorithme d'apprentissage standard qui fonctionne dans cet espace d'entités. Par exemple, dans une tâche de classification, l'utilisation d'une unité de sortie logistique avec perte d'entropie croisée équivaut à effectuer une régression logistique dans l'espace des caractéristiques (ou une régression logistique multinomiale si vous utilisez des sorties softmax). Dans une tâche de régression, l'utilisation d'une sortie linéaire avec une erreur quadratique équivaut à effectuer une régression linéaire des moindres carrés dans l'espace d'objet.
Former le réseau revient à apprendre la fonction de mappage et de classification / régression de l'espace des fonctionnalités (dans l'espace des fonctionnalités) qui, ensemble, donnent les meilleures performances. En supposant des unités cachées non linéaires, l'augmentation de la largeur de la couche cachée ou l'empilement de plusieurs couches cachées permet des mappages d'espace d'entités plus complexes, permettant ainsi l'ajustement de fonctions plus complexes.
la source
Une façon de voir la puissance de la non-linéarité est de noter le théorème d'approximation universel .
Bien qu'il ne soit pas très important dans la pratique (il s'agit des capacités des réseaux à couche unique), il vous indique que si vous utilisez des sommes de sigmoides (longues arbitraires), vous pouvez en principe approximer n'importe quelle fonction continue à n'importe quel niveau souhaité. Si vous connaissez la théorie de Fourier ou si vous vous souvenez du théorème d'approximation de Weierstrass, cela ne devrait pas être surprenant.
la source
Lorsqu'il existe des couches cachées dans le réseau neuronal, nous ajoutons des caractéristiques non linéaires. Veuillez vérifier ma réponse ici pour avoir un peu de sens.
Qu'est-ce qui fait des réseaux de neurones un modèle de classification non linéaire?
Plus précisément, une fonction sigmoïde imbriquée sera plus "puissante" qu'une transformation linéaire des caractéristiques originales et une fonction sigmoïde (régression logistique).
Voici un exemple numérique pour répondre aux commentaires d'OP.
la source
Dans la régression logistique standard, nous avons 1 sortie dans la couche finale. Cependant, avec un réseau neuronal à couche cachée unique, nous pouvons avoir plusieurs valeurs intermédiaires, chacune pouvant être considérée comme la sortie d'un modèle de régression logistique différent, c'est-à-dire que nous n'effectuons pas la même régression logistique encore et encore. Ce n'est donc pas un grand saut de penser qu'il est possible que la combinaison de ceux-ci ait de plus grandes capacités expressives que le modèle de régression logistique standard (et cela a également été démontré en pratique et en théorie ).
la source