J'apprends actuellement moi-même comment faire la classification, et plus précisément, j'examine trois méthodes: les machines à vecteurs de support, les réseaux de neurones et la régression logistique. Ce que j'essaie de comprendre, c'est pourquoi la régression logistique fonctionnerait mieux que les deux autres.
D'après ma compréhension de la régression logistique, l'idée est d'adapter une fonction logistique à l'ensemble des données. Donc, si mes données sont binaires, toutes mes données avec l'étiquette 0 doivent être mappées à la valeur 0 (ou à proximité), et toutes mes données avec la valeur 1 doivent être mappées à la valeur 1 (ou à proximité). Maintenant, parce que la fonction logistique est continue et lisse, effectuer cette régression nécessite toutes mes données pour s'adapter à la courbe; il n'y a pas de plus grande importance appliquée aux points de données près de la frontière de décision, et tous les points de données contribuent à la perte de montants différents.
Cependant, avec les machines à vecteurs de support et les réseaux de neurones, seuls les points de données proches de la frontière de décision sont importants; tant qu'un point de données reste du même côté de la frontière de décision, il contribuera à la même perte.
Par conséquent, pourquoi la régression logistique surpasserait-elle jamais les machines à vecteurs de support ou les réseaux de neurones, étant donné qu'elle "gaspille des ressources" en essayant d'ajuster une courbe à beaucoup de données sans importance (facilement classifiables), plutôt que de se concentrer uniquement sur les données difficiles autour de la décision frontière?
Réponses:
Certains analystes pensent que la régression logistique suppose la linéarité des effets des prédicteurs sur l'échelle des cotes logarithmiques. Cela n'était vrai que lorsque DR Cox a inventé le modèle logistique en 1958 à une époque où l'informatique n'était pas disponible pour étendre le modèle à l'aide d'outils tels que les splines de régression. La seule véritable faiblesse de la régression logistique est que vous devez spécifier les interactions que vous souhaitez autoriser dans le modèle. Pour la plupart des ensembles de données, cela devient une force car les effets principaux additifs sont généralement des prédicteurs beaucoup plus forts que les interactions, et les méthodes d'apprentissage automatique qui accordent une priorité égale aux interactions peuvent être instables, difficiles à interpréter et nécessitent des tailles d'échantillon plus grandes que la régression logistique pour prédire bien.
la source
Vous avez raison, la régression logistique fait souvent mal en tant que classificateur (surtout par rapport à d'autres algorithmes). Cependant, cela ne signifie pas que la régression logistique doit être oubliée et jamais étudiée car elle présente deux grands avantages:
Résultats probabilistes. Frank Harrell (+1) l'a très bien expliqué dans sa réponse.
la source