Selon Wikipedia, le taux de convergence est exprimé comme un rapport spécifique de normes vectorielles. J'essaie de comprendre la différence entre les taux "linéaires" et "quadratiques", à différents moments (en gros, "au début" de l'itération et "à la fin"). Pourrait-on dire que:
avec convergence quadratique, la norme de l'erreur de l'itération est bornée par
Une telle interprétation signifierait que, avec quelques (petit nombre) itérations de l'algorithme de convergence linéaire A1 (initialisation aléatoire supposée), une erreur plus petite serait obtenue qu'avec quelques itérations de l'algorithme de convergence quadratical A2. Cependant, puisque l'erreur diminue, et en raison de la quadrature, des itérations ultérieures signifieraient une erreur plus petite avec A2.
L'interprétation ci-dessus est-elle valable? Notez qu'il ne tient pas compte du coefficient de taux .
Réponses:
En pratique, oui. Alors que est encore grand, le coefficient de taux dominera l'erreur plutôt que le q-rate. (Notez que ce sont des taux asymptotiques , donc les instructions que vous avez liées ne valent que pour la limite .)ek λ k → ∞
Par exemple, pour les méthodes d'optimisation du premier ordre, vous observez souvent une diminution d'erreur rapide au départ, qui se stabilise ensuite. Pour la méthode de Newton, en revanche, cela peut prendre un certain temps avant que la convergence superlinéaire (ou quadratique) ne se déclenche (elle n'est finalement que localement superlinéaire convergente). Pour cette raison, il est courant de commencer par quelques étapes de gradient pour commencer avant de passer à une méthode de Newton, ou d'utiliser des méthodes d'homotopie ou de quasi-Newton qui se comportent initialement comme des méthodes de premier ordre et de se transformer en une méthode de Newton à l'approche de la cible.
la source
En plus de la réponse de Christian, il convient également de noter que pour la convergence linéaire, vous avez où vous avez si la méthode converge. En revanche, pour la convergence quadratique, vous avez et le fait qu'une méthode converge n'implique pas nécessairement que doit être inférieur à un. La condition de convergence est plutôt queek + 1≤ λ1ek λ1< 1 ek + 1≤ λ2e2k λ2 λ2e1< 1 - c'est-à-dire que votre supposition de départ est suffisamment proche. Ceci est un comportement couramment observé: les algorithmes quadrastiquement convergents doivent être démarrés "assez près" de la solution pour converger alors que les algorithmes linéairement convergents sont généralement plus robustes. C'est une autre raison pour laquelle on commence souvent par quelques étapes d'un algorithme de convergence linéaire (par exemple, la méthode de descente la plus raide) avant de passer à des plus efficaces (par exemple, la méthode de Newton).
la source
L'interprétation est qualitativement correcte.
Notez que la convergence linéaire et quadratique concerne le pire des cas, la situation dans un algorithme particulier peut être meilleure que ce que vous obtenez de l'analyse du pire cas donnée par Wolfgang Bangerth, bien que la situation qualitative corresponde généralement à cette analyse.
Dans les algorithmes concrets (par exemple, en optimisation), il est souvent judicieux d'itérer d'abord avec une méthode convergente bon marché mais uniquement linéaire jusqu'à ce que les progrès ralentissent, puis de terminer avec une méthode convergente quadratique (ou au moins superlinéaire). En pratique, la convergence superlinéaire a tendance à être aussi bonne que la convergence quadratique simplement parce que la partie initiale qui converge lentement a tendance à dominer le travail global.
la source