Réseaux de neurones: une époque en SGD est-elle la même qu'une époque en mini-batch?

8

Dans SGD, une époque serait la présentation complète des données d'entraînement, puis il y aurait N mises à jour de poids par époque (s'il y a N exemples de données dans l'ensemble d'entraînement).

Si nous faisons maintenant des mini-lots à la place, disons par lots de 20. Une époque se compose-t-elle maintenant de mises à jour de poids N / 20, ou une époque est-elle «allongée» de 20 afin qu'elle contienne le même nombre de mises à jour de poids?

Je pose la question car dans quelques articles, l'apprentissage semble être trop rapide pour le nombre d'époques indiqué.

James
la source
Duplication possible de la taille du lot
Franck Dernoncourt
La question porte davantage sur la convention, c'est-à-dire que si quelqu'un déclare avoir formé un réseau pour 10 époques en utilisant des mini-lots de 20, cela signifie-t-il qu'il y a eu 10 * N mises à jour de poids, ou 10 * N / 20?
James
Je vois, désolé pour la confusion, peut-être que stats.stackexchange.com/a/164875/12359 répond à votre question?
Franck Dernoncourt

Réponses:

6

Dans la terminologie du réseau neuronal:

  • une époque = une passe avant et une passe arrière de tous les exemples de formation
  • taille du lot = le nombre d'exemples de formation dans une passe avant / arrière. Plus la taille du lot est élevée, plus vous aurez besoin d'espace mémoire.
  • nombre d' itérations = nombre de passes, chaque passe utilisant [taille de lot] nombre d'exemples. Pour être clair, une passe = une passe avant + une passe arrière (nous ne comptons pas la passe avant et la passe arrière comme deux passes différentes).

Exemple: si vous avez 1000 exemples d'entraînement et que la taille de votre lot est de 500, alors il faudra 2 itérations pour terminer 1 époque.

Franck Dernoncourt
la source
1

La réponse de Franck n'est pas correcte. Il faut du courage pour le dire, car il a beaucoup plus de représentants que moi et beaucoup de gens l'ont déjà voté.

Epoch est un mot qui signifie un seul passage à travers un ensemble de formation, pas tous les exemples de formation.

Donc oui. Si nous faisons des mini-lots GD au lieu d'un lot GD, disons par lots de 20, une époque se compose désormais de mises à jour de poids N / 20. N est le nombre total d'échantillons.

Pour être prolixe, dans une descente de gradient par lots, un seul passage à travers la formation vous permet de prendre une seule étape de descente de gradient. Avec la descente de gradient en mini-lot (taille de lot = 5 000), un seul passage à travers l'ensemble d'entraînement, c'est-à-dire une époque, vous permet de faire 5 000 pas de descente en gradient.

Aerin
la source