Pré-formation au réseau de neurones convolutionnel profond?

Réponses:

39

Je ne sais pas si cela répond exactement à votre question, mais d'après ce que je comprends, vous ne voyez pas les gens se pré-former ( je veux dire ceci dans un sens pré-entrainé sans surveillance ), c'est parce qu'il y a eu plusieurs innovations dans la formation purement supervisée qui ont rendu inutile la formation préalable non supervisée (pour le moment, qui sait quels problèmes et quelles questions l’avenir nous réserve?).

L’une des principales innovations a été de s’éloigner des unités d’activation sigmoïdales (sigmoïdes, tanh), qui peuvent saturer / avoir des régions de courbure presque plate et ainsi très peu de gradient est propagé en arrière. L’apprentissage est donc incroyablement lent, voire complètement interrompu. et à des fins. L'article de Glorot, Bordes et Bengio, intitulé Deep Sparse Rectifier Neural Networks, utilisait des unités linéaires rectifiées (ReLU) comme fonctions d'activation au lieu des unités sigmoïdes traditionnelles. Les ReLU ont la forme suivante: . Notez qu'ils ne sont pas liés et que, pour la partie positive, leur gradient est constant 1.f(x)=max(0,x)

L'article de Glorot, Bordes et Bengio utilisait les ReLU pour les perceptrons multicouches et non pour les réseaux de Conv. Un article précédent Quelle est la meilleure architecture en plusieurs étapes pour la reconnaissance d’objets par Jarret et d’autres membres du groupe NYU de Yann LeCun a utilisé des non-linéarités de correction, mais pour les unités sigmoïdales, leur fonction d’activation était donc de la forme f(x)=|tanh(x)|, etc. Les deux articles ont fait observer que l’utilisation de non-linéarités correctrices semblait combler l’écart entre les méthodes purement supervisées et les méthodes pré-entraînées non supervisées.

Une autre innovation est que nous avons trouvé de meilleures initialisations pour les réseaux profonds. En utilisant l’idée de normaliser la variance à travers les couches d’un réseau, de bonnes règles empiriques ont été établies au fil des ans. Parmi les premiers, les plus populaires sont Glorot et Bengio. Comprendre la difficulté de former des réseaux de type Feedforward Deep qui permettaient d’initialiser des réseaux profonds sous une hypothèse d’activation linéaire puis, plus tard, de creuser profondément dans des redresseurs.par un groupe de membres de l’équipe de Microsoft Research qui modifient l’initialisation du poids de Glorot et de Bengio pour tenir compte des non-linéarités à corriger. L'initialisation du poids est un gros problème pour les filets extrêmement profonds. Pour un réseau de convection à 30 couches, l’initialisation du poids MSR s’est avérée bien meilleure que celle du poids de Glorot. N'oubliez pas que le papier Glorot est sorti en 2010 et que le journal MSR est sorti en 2015.

Je ne suis pas sûr que le document ImageNet Classification avec Deep Convolutional Neural Networks de Alex Krizhevsky, Ilya Sutskever et Geoff Hinton ait été le premier à utiliser les ReLU pour les réseaux de conv, mais ce fut l'impact le plus important. Dans cet article, nous voyons que les ReLU pour réseaux de convictions accélèrent l’apprentissage, comme le montre l’un de leurs graphiques CIFAR-10, qui montre que les réseaux de convois ReLU peuvent atteindre des taux d’erreur de formation inférieurs plus rapidement que ceux qui ne le sont pas. Ces ReLU ne souffrent pas du problème de sigmoïde à gradient / saturation en voie de disparition et peuvent être utilisés pour entraîner des filets beaucoup plus profonds. L’une des autres innovations majeures a été l’utilisation de la formation Dropout, une technique d’injection de bruit stochastique ou de moyennage sur modèle (selon votre point de vue), qui nous permet de former des réseaux de neurones plus profonds et plus grands plus longtemps sans surajustement.

Et l’innovation de réseau a continué à un rythme effréné, presque toutes les méthodes utilisant ReLU (ou une modification telle que PReLU de Microsoft Research), Dropout et la formation purement supervisée (SGD + Momentum, éventuellement certaines techniques de taux d’apprentissage adaptatif telles que RMSProp ou ADAGrad ).

Ainsi, à l’heure actuelle, bon nombre des moustiquaires les plus performantes semblent être de nature purement supervisée. Cela ne veut pas dire que la pré-formation non supervisée ou l'utilisation de techniques non supervisées peuvent ne plus être importantes à l'avenir. Mais certains réseaux de navigation extrêmement profonds ont été formés, ont égalé ou même surpassé les performances humaines sur des jeux de données très riches, en utilisant simplement une formation supervisée. En fait, je pense que la dernière soumission de Microsoft Research au concours ImageNet 2015 contenait 150 couches. Ce n'est pas une faute de frappe. 150.

Si vous souhaitez utiliser la formation préalable non surveillée pour les réseaux de navigation, je pense que vous feriez mieux de trouver une tâche dans laquelle une formation "standard" supervisée des réseaux de communication ne donne pas de si bons résultats et d'essayer une formation préalable sans surveillance.

Contrairement à la modélisation en langage naturel, il semble difficile de trouver une tâche non supervisée qui aide une tâche supervisée correspondante en ce qui concerne les données d'image. Mais si vous regardez suffisamment sur Internet, vous verrez quelques-uns des pionniers de l'apprentissage en profondeur (Yoshua Bengio, Yann LeCun pour n'en nommer que quelques-uns) qui parlent de l'importance qu'ils considèrent comme un apprentissage non supervisé.

Indie AI
la source
1
J'ai vu dans le didacticiel de Stanford sur ConvNet qu'il existe une pré-formation dans les réseaux de neurones à convolution. voici le lien: cs231n.github.io/transfer-learning Sont-ils différents? puisqu'ils font la même chose, n'est-ce pas?
Rika
2
Hey je suis désolé pour la réponse tardive. L'apprentissage par transfert est beaucoup fait. Il est utilisé pour éviter la tâche fastidieuse de formation à partir de zéro et d'utiliser plutôt des fonctionnalités formées sur un jeu de données volumineux tel qu'ImageNet. Nous formons uniquement un classifieur par-dessus ces fonctionnalités. J'ai mis à jour ma réponse pour préciser que ces jours-ci, on ne voit pas beaucoup de pré - entraînement non supervisé , ce qui n'est pas la même chose que l'apprentissage par transfert. Merci pour le commentaire.
Indie AI
+1 Très bonne réponse. Ce qui me manque, il y a des discussions ou des commentaires sur le point de savoir si ce que vous dites (c’est-à-dire qu’il n’est pas nécessaire de pré-former) s’applique spécifiquement aux réseaux de neurones convolutifs (si oui, pourquoi?) Ou à des réseaux profonds, y compris des réseaux non périphériques. ceux convolutionnels.
amibe dit de réintégrer Monica
14

Comme on peut le comprendre d'après les réponses ci-dessus, la formation préalable a été «élaborée» lorsque plusieurs événements se sont produits. Cependant, je tiens à préciser ma compréhension de cette question:

  1. Il y a longtemps en 2010, tout le monde se souciait de la pré-formation. Voici un excellent article sur le sujet que je n'ai pas vu évoqué.
  2. Peu avant qu'Alex Krizhevsky, Ilya Sutskever et Geoff Hinton aient publié leur papier imagenet, les gens croyaient encore que les fonctionnalités importaient, mais étaient principalement axés sur l'apprentissage non supervisé et même l'autodidacte.
  3. Il n’est pas difficile de comprendre pourquoi: les blocs constitutifs des réseaux de neurones n’étaient pas aussi robustes à l’heure actuelle et convergeaient très lentement vers des fonctionnalités utiles. Plusieurs fois, ils ont même échoué de manière spectaculaire. Le pré-entraînement était utile lorsque vous disposiez de suffisamment de données pour obtenir une bonne initialisation pour SGD.
  4. Lorsque relu a été mis en place, les réseaux ont convergé plus rapidement. Lorsque des solutions fiables et plus récentes ont été publiées, les réseaux de neurones sont devenus des machines plus robustes pour converger vers un résultat viable. Je vous recommande vivement de jouer avec une excellente démo sur les réseaux de neurones que ce talentueux googleur a écrit , vous verrez de quoi je parle.
  5. Pour en venir à notre objectif principal, cela ne veut pas dire qu'une forme de pré-formation n'est pas importante dans l'apprentissage en profondeur. Si vous souhaitez obtenir des résultats de pointe, vous devez effectuer un prétraitement des données (ZCA par exemple) et choisir correctement les poids initiaux. Il s'agit d'un très bon document sur le sujet .

Vous voyez que la pré-formation a changé de forme en pré-traitement et en initialisation des poids, mais est restée fonctionnelle et est devenue plus élégante.

En conclusion, l’apprentissage automatique est très à la mode. Personnellement, je parie comme Andrew Ng que l'apprentissage non supervisé et autodidacte sera dominant dans le futur, alors n'en faites pas une religion :)

Rhadar
la source
13

Il y a quelques papiers mais pas autant que les autoencodeurs ou les RBM. Je pense que la raison est la chronologie de NN. Le RBM et l’auto-encodeur empilés sont introduits en 2006 et 2007 , respectivement. Après l’emploi de ReLU à 2009, l’apprentissage non supervisé est partiellement abandonné (quand il existe suffisamment de données pour apprendre en apprentissage supervisé direct). Bien que Convolution Net (ou LeNet) ait été inventé en 1989 , il n’a pu suivre une formation aussi profonde que 2012, ce qui est après la vulgarisation de l’apprentissage supervisé direct avec ReLU. Je suppose donc que les chercheurs l’ont principalement formée en utilisant l’apprentissage direct supervisé.

yasin.yazici
la source
Donc, vous êtes d’accord pour dire qu’il n’existe pas encore de formation préalable au réseau de neurones à convolution profonde?
RockTheStar
4
@RockTheStar non, il y en a mais pas autant que les deux précédents. research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf cette recherche l'a utilisé. Voici une courte citation; "Nous observons que le pré-entraînement améliore à la fois le DNN et le CNN, à l'exception du CNN sur TIMIT où le pré-entraînement n'a pas aidé. En général, l'amélioration relative de l'utilisation du pré-entraînement pour le CNN est inférieure à celle du DNN."
yasin.yazici