Pourquoi la régression logistique n'est-elle pas appelée classification logistique?

75

Étant donné que la régression logistique est un statistique modèle de classification prises avec des variables dépendantes, pourquoi pas appelé Classification logistique ? Le nom "Régression" ne devrait-il pas être réservé aux modèles traitant des variables dépendantes continues?

Ismael Ghalimi
la source
5
La régression logistique appartient à la famille de modèles GLM.
Stéphane Laurent
10
Vous pouvez l'utiliser pour régresser les probabilités.
Emre
25
Bien que la régression logistique puisse certainement être utilisée pour la classification en introduisant un seuil sur les probabilités qu'elle retourne, ce n’est pas son seul usage - ni même son usage principal. Il a été développé pour - et continue d’être utilisé - à des fins de régression qui n’ont rien à voir avec la classification. Je dirais que c'est toujours facilement ce à quoi il est principalement utilisé, mais je suppose que cela dépend de ce que vous regardez.
Glen_b
6
Cet article sur le développement de la régression logistique pourrait vous intéresser, en particulier parce qu’il donne une idée du type de problèmes pour lequel il est utilisé comme technique de régression.
Glen_b

Réponses:

102

La régression logistique n'est absolument pas un algorithme de classification. Il s’agit uniquement d’un algorithme de classification associé à une règle de décision qui rend dichotomiques les probabilités prédites du résultat. La régression logistique est un modèle de régression car il estime la probabilité d'appartenance à une classe comme une (transformation d'une) fonction multilinéaire des caractéristiques.

Frank Harrell a publié un certain nombre de réponses sur ce site Web en énumérant les pièges de la régression logistique en tant qu'algorithme de classification. Parmi eux:

Si je me souviens bien, il m'a déjà signalé son livre sur les stratégies de régression pour approfondir ces points (et d'autres!), Mais je n'arrive pas à trouver cet article en particulier.

Rétablir Monica
la source
1
Si tel est le cas, tous (ou presque) les classificateurs prédisent les probabilités d'appartenir à une classe en premier (pour autant que je sache), puis transforment ce problème en classes .. N'est-ce pas?
Outlier
9
Contre-exemple @Outlier: SVM ne calcule pas du tout les probabilités de classe, il mesure simplement la distance entre une observation et un hyperplan.
Rétablir Monica
@Outlier in ML on les appelle des classificateurs probabilistes; les arbres et les forêts aléatoires ne le sont pas, xgboost est - au moins avec logloss)
seanv507
12

E[Y|X=x]

  • En supposant que (Y | X = x) soit normalement distribué, les rendements sont obtenus avec la régression linéaire classique.
  • En supposant une distribution de Poisson, on obtient une régression de Poisson.
  • En supposant une distribution de Bernoulli, on obtient une régression logistique.

(Y|X=x)

Chad Scherrer
la source
-3

Outre les bonnes réponses déjà fournies, un autre point de vue est que la régression logistique prédit des probabilités (qui sont des valeurs continues ) qui vont de 0 à 1.

entrez la description de l'image ici

krish___na
la source