Dans le cadre général de l'algorithme de descente de gradient, nous avons où x n est le point courant, η est la taille du pas et g r a d i e n t x n est le gradient évalué à x n .
J'ai vu dans un algorithme, les gens utilisent un gradient normalisé au lieu d'un gradient . Je voulais savoir quelle est la différence dans l'utilisation du dégradé normalisé et simplement du dégradé .
algorithms
optimization
Apprenant
la source
la source
Réponses:
3] Si vous voulez laisser l'amplitude du gradient dicter la taille du pas, vous utiliserez une descente de gradient non normalisée. Il existe plusieurs autres variantes, comme vous pouvez laisser l'amplitude du dégradé décider de la taille du pas, mais vous mettez un plafond dessus, etc.
Maintenant, la taille des pas a clairement une influence sur la vitesse de convergence et de stabilité. La taille des étapes ci-dessus qui fonctionne le mieux dépend uniquement de votre application (c'est-à-dire de la fonction objective). Dans certains cas, la relation entre la vitesse de convergence, la stabilité et la taille des pas peut être analysée. Cette relation peut alors indiquer si vous souhaitez opter pour une descente de gradient normalisée ou non normalisée.
Pour résumer, il n'y a pas de différence entre la descente de gradient normalisée et non normalisée (en ce qui concerne la théorie derrière l'algorithme). Cependant, il a un impact pratique sur la vitesse de convergence et de stabilité. Le choix de l'un par rapport à l'autre est uniquement basé sur l'application / l'objectif en question.
la source
la source
la source