Lors de la formation de modèles à l'apprentissage automatique, pourquoi est-il parfois avantageux de maintenir la taille du lot à une puissance de 2? J'ai pensé qu'il serait préférable d'utiliser une taille qui correspond le mieux à votre mémoire / RAM GPU.
Cette réponse affirme que pour certains packages, une puissance de 2 est meilleure comme taille de lot. Quelqu'un peut-il fournir une explication détaillée / un lien vers une explication détaillée à ce sujet? Est-ce vrai pour tous les algorithmes d'optimisation (descente de gradient, rétropropagation, etc.) ou seulement pour certains d'entre eux?
la source