La pré-formation n'est plus nécessaire . Son but était de trouver une bonne initialisation pour les poids de réseau afin de faciliter la convergence lorsqu'un grand nombre de couches était utilisé. De nos jours, nous avons ReLU , abandon et normalisation par lots , qui contribuent tous à résoudre le problème de la formation des réseaux de neurones profonds. Citant le post reddit lié ci-dessus (par le gagnant du défi Galaxy Zoo Kaggle):
Je dirais que «l'ère de la pré-formation», qui a commencé vers 2006, s'est terminée au début des années 10 lorsque les gens ont commencé à utiliser des unités linéaires rectifiées (ReLU), puis à abandonner, et ont découvert que la pré-formation n'était plus bénéfique pour cela. type de réseaux.
Du papier ReLU (lié ci-dessus):
les réseaux de redresseurs profonds peuvent atteindre leurs meilleures performances sans nécessiter de formation préalable non supervisée
Cela dit, ce n'est plus nécessaire , mais cela peut tout de même améliorer les performances dans certains cas où il y a trop d'échantillons non supervisés (non étiquetés), comme on le voit dans cet article .