Vous confondez des pommes avec des oranges. Ce n'est pas grave, car ils sont tous les deux délicieux.
L'estimation du maximum de vraisemblance concerne ce que vous minimisez, la descente de gradient concerne la façon dont vous le minimisez.
Pourquoi pas MLE pour la régression linéaire?
En fait, la régression linéaire est résolue avec une estimation du maximum de vraisemblance. La méthode standard "minimiser la somme des erreurs quadratiques" est exactement mathématiquement équivalente à l'estimation du maximum de vraisemblance utilisant une distribution normale conditionnelle.
Pourquoi pas une descente de gradient pour une régression logistique?
Vous pouvez résoudre totalement la régression logistique en minimisant la fonction de vraisemblance en utilisant la descente de gradient. C'est un excellent exercice en fait, et je recommanderais à tout le monde de le faire au moins une fois.
La descente en pente n'est cependant pas la méthode standard. Ce prix revient à la méthode des moindres carrés repondérés itérativement / Newton , qui est une amélioration de la descente de gradient qui prend également en compte la dérivée seconde. Cette méthode s'avère juste avoir de bien meilleures propriétés que la descente de gradient, mais est plus difficile à comprendre et à mettre en œuvre.