Récemment, j'ai commencé à étudier l'apprentissage automatique, mais je n'ai pas réussi à saisir l'intuition derrière la régression logistique .
Voici les faits sur la régression logistique que je comprends.
Comme base d'hypothèse, nous utilisons la fonction sigmoïde . Je comprends pourquoi c'est un bon choix, mais pourquoi c'est le seul choix que je ne comprends pas. L'hypothèse représente la probabilité que la sortie appropriée soit , donc le domaine de notre fonction devrait être , c'est la seule propriété de la fonction sigmoïde que j'ai trouvée utile et appropriée ici, cependant de nombreuses fonctions satisfont cette propriété. De plus, la fonction sigmoïde a une dérivée sous cette forme , mais je ne vois pas l'utilité de cette forme spéciale dans la régression logistique.
Question : quoi de si spécial à propos de la fonction sigmoïde, et pourquoi nous ne pouvons utiliser aucune autre fonction avec le domaine ?
La fonction de coût se compose de deux paramètres si si . De la même manière que ci-dessus, je comprends pourquoi c'est correct, mais pourquoi est-ce le seul formulaire? Par exemple, pourquoi ne pouvait-il pasêtre un bon choix pour la fonction de coût?
Question : quelle est la particularité de la forme de fonction de coût ci-dessus; pourquoi ne pouvons-nous pas utiliser un autre formulaire?
Je vous serais reconnaissant de bien vouloir partager votre compréhension de la régression logistique.
la source
Réponses:
Le modèle de régression logistique est le maximum de vraisemblance utilisant le paramètre naturel (le log-odds ratio) pour contraster les changements relatifs du risque de différence de résultat par unité dans le prédicteur. Cela suppose, bien sûr, un modèle de probabilité binomiale pour le résultat. Cela signifie que les propriétés de cohérence et de robustesse de la régression logistique s'étendent directement du maximum de vraisemblance: robustesse à absence de données aléatoires, cohérence racine-n, et existence et unicité des solutions d'estimation des équations. Cela suppose que les solutions ne se trouvent pas aux limites de l'espace des paramètres (où les rapports de cotes logarithmiques sont ). La régression logistique étant le maximum de vraisemblance, la fonction de perte est liée à la vraisemblance, car ce sont des problèmes d'optimisation équivalents.±∞
Avec la quasi-vraisemblance ou les équations d'estimation (inférence semi-paramétrique), l'existence, les propriétés d'unicité sont toujours valables mais l'hypothèse selon laquelle le modèle moyen est valable n'est pas pertinente et l'inférence et les erreurs standard sont cohérentes indépendamment des erreurs de spécification du modèle. Donc, dans ce cas, il ne s'agit pas de savoir si le sigmoïde est la fonction correcte, mais celle qui nous donne une tendance en laquelle nous pouvons croire et qui est paramétrée par des paramètres qui ont une interprétation extensible.
Le sigmoïde, cependant, n'est pas la seule fonction de modélisation binaire de ce type. La fonction probit la plus souvent contrastée a des propriétés similaires. Il n'évalue pas les log-odds ratios, mais fonctionnellement, ils semblent très similaires et ont tendance à donner des approximations très similaires à la même chose . Il n'est pas nécessaire non plus d'utiliser des propriétés de limite dans la fonction de modèle moyen. La simple utilisation d'une courbe logarithmique avec une fonction de variance binomiale donne une régression du risque relatif, un lien d'identité avec la variance binomiale donne des modèles de risque additifs. Tout cela est déterminé par l'utilisateur. La popularité de la régression logistique est, malheureusement, pourquoi elle est si couramment utilisée. Cependant, j'ai mes raisons (celles que j'ai énoncées) pourquoi je pense que c'est bien justifié pour son utilisation dans la plupart des circonstances de modélisation de résultats binaires.
Dans le monde de l'inférence, pour les résultats rares, le rapport de cotes peut être interprété grossièrement comme un «risque relatif», c'est-à-dire un «changement relatif en pourcentage du risque de résultat comparant X + 1 à X». Ce n'est pas toujours le cas et, en général, un rapport de cotes ne peut et ne doit pas être interprété comme tel. Cependant, le fait que les paramètres aient une interprétation et puissent être facilement communiqués à d'autres chercheurs est un point important, quelque chose qui manque tristement au matériel didactique des machine learning.
Le modèle de régression logistique fournit également les fondements conceptuels d'approches plus sophistiquées telles que la modélisation hiérarchique, ainsi que la modélisation mixte et les approches de vraisemblance conditionnelle qui sont cohérentes et robustes à un nombre exponentiellement croissant de paramètres de nuisance. Les GLMM et la régression logistique conditionnelle sont des concepts très importants dans les statistiques de haute dimension.
la source
la source