Deux points:
- Le décrochage est également généralement comparé aux ensembles de réseaux de neurones. Il semble qu'il présente certains des avantages en termes de performances de l'entraînement et de la moyenne de plusieurs réseaux de neurones.
- Le décrochage est plus facile à calibrer que la régularisation. Il n'y a qu'un seul hyperparamètre qui est le taux d'abandon et les gens utilisent largement 0,5 pendant la formation (puis 1,0 sur l'évaluation bien sûr :)), voir par exemple cet exemple TensorFlow .
Quoi qu'il en soit, je suis un peu sceptique quant aux études empiriques des réseaux de neurones. Il y a juste trop d'hyperparamètres pour affiner, de la topologie du réseau à la procédure d'optimisation de descente de gradient aux fonctions d'activation et tout ce que vous testez comme la régularisation. Ensuite, le tout est stochastique et les gains de performances sont généralement si faibles que vous pouvez difficilement tester statistiquement les différences. De nombreux auteurs ne prennent même pas la peine de faire des tests statistiques. Ils valident simplement la validation croisée et déclarent que le modèle ayant le gain de virgule décimale le plus élevé est le gagnant.
Vous pouvez trouver une étude promouvant le décrochage pour être contredite par une autre favorisant la régularisation.
Je pense que tout se résume aux préférences esthétiques. Le décrochage à mon humble avis semble plus plausible sur le plan biologique que la régularisation. Il semble également plus facile à calibrer. Donc, je le préfère personnellement lorsque j'utilise un framework comme TensorFlow. Si nous devons utiliser notre propre réseau de neurones, ce que nous faisons souvent, nous utiliserons la régularisation car elle était plus facile à mettre en œuvre.