L'intuition derrière la régression logistique

25

Récemment, j'ai commencé à étudier l'apprentissage automatique, mais je n'ai pas réussi à saisir l'intuition derrière la régression logistique .

Voici les faits sur la régression logistique que je comprends.

  1. Comme base d'hypothèse, nous utilisons la fonction sigmoïde . Je comprends pourquoi c'est un bon choix, mais pourquoi c'est le seul choix que je ne comprends pas. L'hypothèse représente la probabilité que la sortie appropriée soit 1 , donc le domaine de notre fonction devrait être [0,1] , c'est la seule propriété de la fonction sigmoïde que j'ai trouvée utile et appropriée ici, cependant de nombreuses fonctions satisfont cette propriété. De plus, la fonction sigmoïde a une dérivée sous cette forme f(x)(1f(x)), mais je ne vois pas l'utilité de cette forme spéciale dans la régression logistique.

    Question : quoi de si spécial à propos de la fonction sigmoïde, et pourquoi nous ne pouvons utiliser aucune autre fonction avec le domaine [0,1] ?

  2. La fonction de coût se compose de deux paramètres Cost(hθ(x),y)=log(hθ(x)) si y=1,Cost(hθ(x),y)=log(1hθ(x)) si y=0 . De la même manière que ci-dessus, je comprends pourquoi c'est correct, mais pourquoi est-ce le seul formulaire? Par exemple, pourquoi ne pouvait-il pas|hθ(x)y|être un bon choix pour la fonction de coût?

    Question : quelle est la particularité de la forme de fonction de coût ci-dessus; pourquoi ne pouvons-nous pas utiliser un autre formulaire?

Je vous serais reconnaissant de bien vouloir partager votre compréhension de la régression logistique.

user16168
la source
5
La fonction logit / logistique n'est pas la seule fonction qui peut être utilisée comme fonction de lien pour les modèles de régression lorsque la réponse est distribuée sous forme de binôme. En ce qui concerne ce point, cela peut vous aider à lire ma réponse ici: modèles de différence entre logit et probit .
gung - Rétablir Monica
4
Ma réponse ici: la fonction logit est-elle toujours la meilleure pour la modélisation de régression des données binaires , peut également être utile pour réfléchir à différentes possibilités.
gung - Réintégrer Monica
1
@AdamO fournit un excellent aperçu ci-dessous. Si vous souhaitez des informations plus détaillées sur ce que signifie que le logit est la `` fonction de lien canonique '', vous pouvez lire la réponse de Momo ici: différence entre la fonction de lien et la fonction de lien canonique pour glm .
gung - Rétablir Monica
1
Un exemple illustré travaillé de (1) où un "sigmoïde" n'est pas utilisé apparaît sur stats.stackexchange.com/a/70922 . Cette réponse comprend une explication de (2). Un autre exemple apparaît sur stats.stackexchange.com/questions/63978/… . Une discussion plus banale (mais moins technique) a lieu sur stats.stackexchange.com/a/69873 , en se concentrant sur le problème (2).
whuber

Réponses:

7

Le modèle de régression logistique est le maximum de vraisemblance utilisant le paramètre naturel (le log-odds ratio) pour contraster les changements relatifs du risque de différence de résultat par unité dans le prédicteur. Cela suppose, bien sûr, un modèle de probabilité binomiale pour le résultat. Cela signifie que les propriétés de cohérence et de robustesse de la régression logistique s'étendent directement du maximum de vraisemblance: robustesse à absence de données aléatoires, cohérence racine-n, et existence et unicité des solutions d'estimation des équations. Cela suppose que les solutions ne se trouvent pas aux limites de l'espace des paramètres (où les rapports de cotes logarithmiques sont ). La régression logistique étant le maximum de vraisemblance, la fonction de perte est liée à la vraisemblance, car ce sont des problèmes d'optimisation équivalents.±

Avec la quasi-vraisemblance ou les équations d'estimation (inférence semi-paramétrique), l'existence, les propriétés d'unicité sont toujours valables mais l'hypothèse selon laquelle le modèle moyen est valable n'est pas pertinente et l'inférence et les erreurs standard sont cohérentes indépendamment des erreurs de spécification du modèle. Donc, dans ce cas, il ne s'agit pas de savoir si le sigmoïde est la fonction correcte, mais celle qui nous donne une tendance en laquelle nous pouvons croire et qui est paramétrée par des paramètres qui ont une interprétation extensible.

Le sigmoïde, cependant, n'est pas la seule fonction de modélisation binaire de ce type. La fonction probit la plus souvent contrastée a des propriétés similaires. Il n'évalue pas les log-odds ratios, mais fonctionnellement, ils semblent très similaires et ont tendance à donner des approximations très similaires à la même chose . Il n'est pas nécessaire non plus d'utiliser des propriétés de limite dans la fonction de modèle moyen. La simple utilisation d'une courbe logarithmique avec une fonction de variance binomiale donne une régression du risque relatif, un lien d'identité avec la variance binomiale donne des modèles de risque additifs. Tout cela est déterminé par l'utilisateur. La popularité de la régression logistique est, malheureusement, pourquoi elle est si couramment utilisée. Cependant, j'ai mes raisons (celles que j'ai énoncées) pourquoi je pense que c'est bien justifié pour son utilisation dans la plupart des circonstances de modélisation de résultats binaires.

Dans le monde de l'inférence, pour les résultats rares, le rapport de cotes peut être interprété grossièrement comme un «risque relatif», c'est-à-dire un «changement relatif en pourcentage du risque de résultat comparant X + 1 à X». Ce n'est pas toujours le cas et, en général, un rapport de cotes ne peut et ne doit pas être interprété comme tel. Cependant, le fait que les paramètres aient une interprétation et puissent être facilement communiqués à d'autres chercheurs est un point important, quelque chose qui manque tristement au matériel didactique des machine learning.

Le modèle de régression logistique fournit également les fondements conceptuels d'approches plus sophistiquées telles que la modélisation hiérarchique, ainsi que la modélisation mixte et les approches de vraisemblance conditionnelle qui sont cohérentes et robustes à un nombre exponentiellement croissant de paramètres de nuisance. Les GLMM et la régression logistique conditionnelle sont des concepts très importants dans les statistiques de haute dimension.

AdamO
la source
1
Merci beaucoup pour votre réponse! Il semble que j'ai un énorme manque de fond.
user16168
Je pense que le livre de McCullough et Nelder, Generalized Linear Models, serait une excellente ressource de base pour une perspective plus statistique.
AdamO
En général, quel manuel conseillez-vous en Machine Learning avec un contenu descriptif très détaillé?
user16168
Éléments d'apprentissage statistique par Hastie, Tibshirani, Friedman.
AdamO
2
@ user48956 Analyse statistique avec Missing Dada, Little & Rubin 2e éd. Les données manquantes ne sont pas "représentées" en soi, mais "gérées" par omission. Ce n'est pas particulier à la régression logistique: c'est l'approche naïve utilisée par tous les modèles statistiques. Lorsque les données sont formatées dans un tableau rectangulaire, les lignes avec des valeurs manquantes sont omises. C'est ce qu'on appelle une analyse de cas complète. Les GLM et GLMMS résistent aux données manquantes dans le sens où les analyses de cas complètes sont généralement impartiales et peu efficaces.
AdamO
6

YXYYXYi=Xiβ+ϵi

YYY

Yi=Xiβ+ϵiYi=0ifYi<0Yi=1ifYi>0
X

YXYY

βϵFP{Yi=1}=F(Xiβ)

P{Yi=1}=1F(Xiβ) .

ϵF

F

Facture
la source
Ce que vous avez décrit est exactement la motivation du modèle probit, pas la régression logistique.
AdamO
6
ϵi
Cela semble être une hypothèse très sensible et difficile à tester. Je pense que la régression logistique peut être motivée lorsque de telles distributions d'erreur ne tiennent pas.
AdamO
2
@AdamO, quelle que soit la motivation de la régression logistique, elle est toujours mathématiquement équivalente à un modèle de régression linéaire à seuil où les erreurs ont une distribution logistique. Je suis d'accord que cette hypothèse peut être difficile à tester, mais elle existe quelle que soit la façon dont vous motivez le problème. Je me souviens d'une réponse précédente sur CV (je ne peux pas la placer pour le moment) qui montrait avec une étude de simulation qu'essayer de dire si un modèle logistique ou probit "convenait mieux" était fondamentalement un jeu de pièces, quel que soit le véritable modèle de génération de données . Je soupçonne que la logistique est plus populaire en raison de l'interprétation pratique.
Macro
2
P(Yi=1)=exp(Xiβ)1+exp(Xiβ)