Une formation gourmande en couche profonde des réseaux profonds est-elle nécessaire pour un entraînement réussi ou la descente de gradient stochastique est-elle suffisante?

8

Est-il possible d'obtenir des résultats de pointe en utilisant uniquement la rétro-propagation (sans pré-formation )?

Ou est-ce pour que toutes les approches battant des records utilisent une certaine forme de pré-formation?

La rétropropagation est-elle suffisante à elle seule?


la source

Réponses:

8

La pré-formation n'est plus nécessaire . Son but était de trouver une bonne initialisation pour les poids de réseau afin de faciliter la convergence lorsqu'un grand nombre de couches était utilisé. De nos jours, nous avons ReLU , abandon et normalisation par lots , qui contribuent tous à résoudre le problème de la formation des réseaux de neurones profonds. Citant le post reddit lié ci-dessus (par le gagnant du défi Galaxy Zoo Kaggle):

Je dirais que «l'ère de la pré-formation», qui a commencé vers 2006, s'est terminée au début des années 10 lorsque les gens ont commencé à utiliser des unités linéaires rectifiées (ReLU), puis à abandonner, et ont découvert que la pré-formation n'était plus bénéfique pour cela. type de réseaux.

Du papier ReLU (lié ci-dessus):

les réseaux de redresseurs profonds peuvent atteindre leurs meilleures performances sans nécessiter de formation préalable non supervisée

Cela dit, ce n'est plus nécessaire , mais cela peut tout de même améliorer les performances dans certains cas où il y a trop d'échantillons non supervisés (non étiquetés), comme on le voit dans cet article .

rcpinto
la source
C'est une bonne réponse mais je pense que ce serait encore mieux si vous pouviez trouver une référence académique, plutôt qu'un fil Reddit.
Sycorax dit Réintégrer Monica
Les 3 ci-dessus ne suffisent-ils pas? Il est même écrit dans l'abstrait du premier.
rcpinto
La révision est exactement le type de soutien à l'affirmation selon laquelle «la formation préalable n'est plus nécessaire» que j'espérais. Merci d'avoir contribué à notre site Web.
Sycorax dit Réintégrer Monica
1
Voici une question connexe: la pré-formation fait-elle la même chose que l'abandon (dans un certain sens)?
Cette réponse est très fausse ou, au mieux, trompeuse; BN, Dropout, etc. remplissent des fonctions largement orthogonales à la pré-formation, où cette dernière permet l' apprentissage des fonctionnalités transférables . Exemple: débruitage, réduction de la dimensionnalité, reconstruction de données manquantes encodeur d'autoencodeur série temporelle placé en entrée avant un réseau neuronal de classificateur; le classificateur apprend des caractéristiques discriminatoires , très distinctes de celles de l'autoencodeur.
OverLordGoldDragon