Fisher Scoring descente de coordonnées v / s pour MLE en R

11

La fonction de base R glm()utilise Fishers Scoring pour MLE, tandis que le glmnetsemble utiliser la méthode de descente de coordonnées pour résoudre la même équation. La descente de coordonnées est plus efficace en temps que Fisher Scoring, car Fisher Scoring calcule la matrice dérivée de second ordre, en plus de certaines autres opérations matricielles. ce qui est coûteux à réaliser, tandis que la descente de coordonnées peut faire la même tâche en temps O (np).

Pourquoi la fonction de base R utiliserait-elle le scoring Fisher? Cette méthode a-t-elle un avantage sur les autres méthodes d'optimisation? Comment la descente coordonnée et le score de Fisher se comparent-ils? Je suis relativement nouveau dans ce domaine, donc toute aide ou ressource sera utile.

Gol
la source

Réponses:

1

La seule façon de s'en assurer est de procéder à des analyses comparatives, mais pour glm, le score de Fisher devrait être plus rapide que la descente coordonnée. Le score de Fisher est un cas particulier de Newton Raphson, qui a un taux de convergence plus rapide que la descente de coordonnées (Newton-Raphson est quadratique convergente, tandis que la descente de coordonnées est linéairement convergente.) Ainsi, alors que le calcul des informations dérivées secondes signifie que chaque étape prend plus temps, il peut nécessiter beaucoup moins d'étapes que la descente coordonnée.

Pour le lasso, la forme spéciale du terme de pénalité en fait un cas très spécial (et en fait, la valeur absolue n'est pas différenciable de toute façon, bien que parfois vous puissiez affiner cela). Pour ce problème particulier, la descente coordonnée s'avère particulièrement rapide. Il existe de nombreux autres problèmes d'optimisation où, dans la pratique, Newton-Raphson est plus rapide.

arsmath
la source