Dans SGD, une époque serait la présentation complète des données d'entraînement, puis il y aurait N mises à jour de poids par époque (s'il y a N exemples de données dans l'ensemble d'entraînement).
Si nous faisons maintenant des mini-lots à la place, disons par lots de 20. Une époque se compose-t-elle maintenant de mises à jour de poids N / 20, ou une époque est-elle «allongée» de 20 afin qu'elle contienne le même nombre de mises à jour de poids?
Je pose la question car dans quelques articles, l'apprentissage semble être trop rapide pour le nombre d'époques indiqué.
Réponses:
Dans la terminologie du réseau neuronal:
Exemple: si vous avez 1000 exemples d'entraînement et que la taille de votre lot est de 500, alors il faudra 2 itérations pour terminer 1 époque.
la source
La réponse de Franck n'est pas correcte. Il faut du courage pour le dire, car il a beaucoup plus de représentants que moi et beaucoup de gens l'ont déjà voté.
Epoch est un mot qui signifie un seul passage à travers un ensemble de formation, pas tous les exemples de formation.
Donc oui. Si nous faisons des mini-lots GD au lieu d'un lot GD, disons par lots de 20, une époque se compose désormais de mises à jour de poids N / 20. N est le nombre total d'échantillons.
Pour être prolixe, dans une descente de gradient par lots, un seul passage à travers la formation vous permet de prendre une seule étape de descente de gradient. Avec la descente de gradient en mini-lot (taille de lot = 5 000), un seul passage à travers l'ensemble d'entraînement, c'est-à-dire une époque, vous permet de faire 5 000 pas de descente en gradient.
la source