Lors de la mise en œuvre de la descente de gradient en mini-batch pour les réseaux de neurones, est-il important de prendre des éléments aléatoires dans chaque mini-batch? Ou est-ce suffisant de mélanger les éléments au début de la formation une fois?
(Je suis également intéressé par des sources qui disent définitivement ce qu'elles font.)
la source