Quels sont les avantages et les inconvénients des deux méthodes?
maximum-likelihood
predictive-models
optimization
gradient-descent
GeorgeOfTheRF
la source
la source
Réponses:
L'estimation du maximum de vraisemblance est une approche générale d'estimation des paramètres dans les modèles statistiques en maximisant lafonction de vraisemblance définie comme
La descente de gradient est un algorithme d'optimisation . Vous pouvez utiliser cet algorithme pour trouver le minimum (ou le maximum, puis il est appelé ascension en gradient ) de nombreuses fonctions différentes. L'algorithme ne se soucie pas vraiment de la fonction qu'il minimise, il fait juste ce qu'on lui a demandé. Donc, en utilisant l'algorithme d'optimisation, vous devez savoir d'une manière ou d'une autre comment savoir si une valeur du paramètre d'intérêt est "meilleure" que l'autre. Vous devez fournir à votre algorithme une fonction pour minimiser et l'algorithme s'occupera de trouver son minimum.
Vous pouvez obtenir des estimations du maximum de vraisemblance en utilisant différentes méthodes et en utilisant un algorithme d'optimisation en fait partie. D'autre part, la descente de gradient peut également être utilisée pour maximiser les fonctions autres que la fonction de vraisemblance.
la source
f
Mais la probabilité de régression logistique ne fonctionne pas de cette manière sous une forme fermée . Nous devons donc utiliser une autre méthode, comme
gradient descent
.la source
likelihood function
+gradient descent
(pour obtenir la solution de la fonction de vraisemblance) est toujours un moyen de faire MLE.Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.
de Machine Learning: a Probabilistic Perspective, Kevin Murphy.