Existe-t-il des études qui examinent le décrochage par rapport aux autres régularisations?

9

Y a-t-il des articles publiés qui montrent des différences dans les méthodes de régularisation pour les réseaux de neurones, de préférence sur différents domaines (ou au moins différents ensembles de données)?

Je pose la question parce que j'ai actuellement le sentiment que la plupart des gens semblent n'utiliser que le décrochage pour la régularisation en vision par ordinateur. Je voudrais vérifier s'il y a une raison (de ne pas) utiliser différents modes de régularisation.

Martin Thoma
la source

Réponses:

3

Deux points:

  1. Le décrochage est également généralement comparé aux ensembles de réseaux de neurones. Il semble qu'il présente certains des avantages en termes de performances de l'entraînement et de la moyenne de plusieurs réseaux de neurones.
  2. Le décrochage est plus facile à calibrer que la régularisation. Il n'y a qu'un seul hyperparamètre qui est le taux d'abandon et les gens utilisent largement 0,5 pendant la formation (puis 1,0 sur l'évaluation bien sûr :)), voir par exemple cet exemple TensorFlow .

Quoi qu'il en soit, je suis un peu sceptique quant aux études empiriques des réseaux de neurones. Il y a juste trop d'hyperparamètres pour affiner, de la topologie du réseau à la procédure d'optimisation de descente de gradient aux fonctions d'activation et tout ce que vous testez comme la régularisation. Ensuite, le tout est stochastique et les gains de performances sont généralement si faibles que vous pouvez difficilement tester statistiquement les différences. De nombreux auteurs ne prennent même pas la peine de faire des tests statistiques. Ils valident simplement la validation croisée et déclarent que le modèle ayant le gain de virgule décimale le plus élevé est le gagnant.

Vous pouvez trouver une étude promouvant le décrochage pour être contredite par une autre favorisant la régularisation.

Je pense que tout se résume aux préférences esthétiques. Le décrochage à mon humble avis semble plus plausible sur le plan biologique que la régularisation. Il semble également plus facile à calibrer. Donc, je le préfère personnellement lorsque j'utilise un framework comme TensorFlow. Si nous devons utiliser notre propre réseau de neurones, ce que nous faisons souvent, nous utiliserons la régularisation car elle était plus facile à mettre en œuvre.

Ricardo Cruz
la source
0

Absolument. Le papier du Créateur lui-même, Geoffrey Hinton. https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf lisez-le. Mais je vous encourage à voir la différence par vous-même.

Amanuel Negash
la source
2
Le document ne compare pas explicitement les différentes approches de régularisation, sauf en démontrant que le décrochage améliore les résultats de pointe à l'époque (les résultats précédents utilisaient très probablement d'autres formes de régularisation, mais ils ne sont pas répertoriés). Il mentionne également les contraintes de poids maxnorm comme un régularisateur supplémentaire efficace pour augmenter le décrochage.
Neil Slater