Pourquoi les coefficients de régression linéaire et logistique ne peuvent-ils pas être estimés en utilisant la même méthode?

9

J'ai lu dans un livre d'apprentissage automatique que les paramètres de régression linéaire peuvent être estimés (entre autres méthodes) par descente de gradient, tandis que les paramètres de régression logistique sont généralement estimés par estimation de vraisemblance maximale.

Est-il possible d'expliquer à un novice (moi) pourquoi nous avons besoin de différentes méthodes de régression linéaire / logistique. alias pourquoi pas MLE pour la régression linéaire et pourquoi pas la descente de gradient pour la régression logistique?

Victor
la source

Réponses:

19

Vous confondez des pommes avec des oranges. Ce n'est pas grave, car ils sont tous les deux délicieux.

L'estimation du maximum de vraisemblance concerne ce que vous minimisez, la descente de gradient concerne la façon dont vous le minimisez.

Pourquoi pas MLE pour la régression linéaire?

En fait, la régression linéaire est résolue avec une estimation du maximum de vraisemblance. La méthode standard "minimiser la somme des erreurs quadratiques" est exactement mathématiquement équivalente à l'estimation du maximum de vraisemblance utilisant une distribution normale conditionnelle.

Pourquoi pas une descente de gradient pour une régression logistique?

Vous pouvez résoudre totalement la régression logistique en minimisant la fonction de vraisemblance en utilisant la descente de gradient. C'est un excellent exercice en fait, et je recommanderais à tout le monde de le faire au moins une fois.

La descente en pente n'est cependant pas la méthode standard. Ce prix revient à la méthode des moindres carrés repondérés itérativement / Newton , qui est une amélioration de la descente de gradient qui prend également en compte la dérivée seconde. Cette méthode s'avère juste avoir de bien meilleures propriétés que la descente de gradient, mais est plus difficile à comprendre et à mettre en œuvre.

Matthew Drury
la source
2
Merci. La méthode de Newton est-elle la même que celle de Newton Raphson? Ou est-ce quelque chose de différent?
Victor
2
Oui, je pense que cela fait référence au même concept.
Matthew Drury