J'ai vu des conclusions similaires à partir de nombreuses discussions, à mesure que la taille du mini-lot augmente, la convergence des SGD devient en fait plus difficile / pire, par exemple ce document et cette réponse . J'ai également entendu parler de personnes utilisant des astuces comme de petits taux d'apprentissage ou des tailles de lot au début pour résoudre cette difficulté avec de grandes tailles de lot.
Cependant, cela semble contre-intuitif car la perte moyenne d'un mini-lot peut être considérée comme une approximation de la perte attendue sur la distribution des données,
Voici quelques-unes de mes pensées (probablement fausses) qui essaient d'expliquer.
Les paramètres du modèle dépendent fortement les uns des autres, lorsque le lot devient trop volumineux, cela affectera trop de paramètres à la fois, de sorte qu'il est difficile pour les paramètres d'atteindre une dépendance inhérente stable? (comme le problème de décalage covariable interne mentionné dans le document de normalisation par lots )
Ou lorsque presque tous les paramètres sont responsables à chaque itération, ils auront tendance à apprendre des modèles implicites redondants, ce qui réduit donc la capacité du modèle? (Je veux dire par exemple pour les problèmes de classification des chiffres, certains motifs devraient être responsables des points, d'autres des bords, mais lorsque cela se produit, chaque motif essaie d'être responsable de toutes les formes).
Ou est-ce parce que lorsque la taille des lots se rapproche de l'échelle de l'ensemble d'apprentissage, les minibatches ne peuvent plus être considérés comme iid à partir de la distribution des données, car il y aura une forte probabilité de minibatches corrélés?
Mise à jour
Comme indiqué dans la réponse de Benoit Sanchez, une raison importante est que les grands minibatches nécessitent plus de calculs pour effectuer une mise à jour, et la plupart des analyses utilisent une quantité fixe d'époques d'apprentissage pour la comparaison.
Cependant, cet article (Wilson et Martinez, 2003) montre qu'une plus grande taille de lot est encore légèrement désavantageuse, même avec suffisamment de périodes d'apprentissage. Est-ce généralement le cas?
Pour compléter la réponse de Curtis White (et ajouter quelques références supplémentaires):
Oui, SGD fonctionne comme un type de régularisation. Ceci est important car sinon, il est difficile d'expliquer pourquoi les DNN ne sont pas toujours surajustés, car ils le peuvent .
La raison, si je comprends bien, est que SGD provoque des `` sauts '' dans l'espace des paramètres, donc pendant la formation, les paramètres ne peuvent pas rester dans un minimum étroit, seulement dans (ou près de) plus larges. Et ces plus larges apparemment [1] se généralisent mieux (aka, moins de sur-ajustement).
Plus de références:
"stochastic relaxation, or random diffusion"
laquelle conduit la stochasticité inhérente à la SGD"maximiz[ation of] the conditional entropy of the layer"
.Les deux disent en quelque sorte que SGD correspond à un terme de régularisation d'entropie.
Il pourrait certainement y avoir d'autres façons dont la taille des lots influence la convergence; c'est celui que je connais.
[1] Exemple: "Une perspective bayésienne sur la généralisation et la descente de gradient stochastique", Smith, Le, 2018. Extrait du résumé:
"We propose that the noise introduced by small mini-batches drives the parameters towards minima whose evidence is large."
[2] "La descente de gradient stochastique effectue l'inférence variationnelle, converge pour limiter les cycles pour les réseaux profonds", Chaudhari, Soatto 2017
[3] "Ouverture de la boîte noire des réseaux neuronaux profonds via l'information" Schwartz-Ziv, Tishby, 2017
[4] "Comprendre le deep learning nécessite de repenser la généralisation", C. Zhang etc. 2016
la source
Une taille de lot trop importante peut empêcher la convergence au moins lors de l'utilisation de SGD et de la formation MLP à l'aide de Keras. Quant à savoir pourquoi, je ne suis pas sûr à 100% si cela a à voir avec la moyenne des gradients ou si des mises à jour plus petites offrent une plus grande probabilité d'échapper aux minima locaux.
Voyez ici .
la source