Prenons et et supposons que nous modélisons la tâche de prédire y étant donné x en utilisant la régression logistique. Quand les coefficients de régression logistique peuvent-ils être écrits sous forme fermée? y ∈ { 0 , 1 }
Un exemple est lorsque nous utilisons un modèle saturé.
Autrement dit, définissez , où indexe les ensembles dans le jeu de puissance de et renvoie 1 si toutes les variables du ème ensemble sont 1, sinon 0. Ensuite, vous pouvez exprimer chaque dans ce modèle de régression logistique comme un logarithme d'une fonction rationnelle des statistiques des données.i { x 1 , … , x d } f i i w i
Y a-t-il d'autres exemples intéressants lorsqu'il existe un formulaire fermé?
logistic
generalized-linear-model
Yaroslav Bulatov
la source
la source
Réponses:
Comme l'a souligné kjetil b halvorsen, c'est, à sa manière, un miracle que la régression linéaire admette une solution analytique. Et cela ne l'est que grâce à la linéarité du problème (par rapport aux paramètres). Dans OLS, vous avez qui a les conditions de premier ordre pour un problème avec variables (y compris constante, si nécessaire - il y a aussi une régression à travers les problèmes d'origine), c'est un système avec équations et inconnues. Plus important encore, c'est un système linéaire, vous pouvez donc trouver une solution en utilisant la théorie et la pratique de l'algèbre linéaire standard
Maintenant, avec la régression logistique, les choses ne sont plus aussi faciles. Notez la fonction log-vraisemblance, et en prenant sa dérivée pour trouver le MLE, nous obtenons Les paramètres entrent ceci de manière très non linéaire: pour chaque , il y a une fonction non linéaire, et ils sont additionnés. Il n'y a pas de solution analytique (sauf probablement dans une situation triviale avec deux observations, ou quelque chose comme ça), et vous devez utiliser
Un examen un peu plus approfondi du problème (en prenant la dérivée seconde) révèle qu'il s'agit d'un problème d'optimisation convexe de la recherche d'un maximum d'une fonction concave (une parabole multivariée glorifiée), donc l'une ou l'autre existe, et tout algorithme raisonnable devrait la trouver plutôt rapidement, ou les choses explosent à l'infini. Ce dernier arrive à la régression logistique lorsque pour certains , c'est-à-dire que vous avez une prédiction parfaite. C'est un artefact plutôt désagréable: on pourrait penser que lorsque vous avez une prédiction parfaite, le modèle fonctionne parfaitement, mais curieusement, c'est l'inverse.Prob[Yi=1|x′iβ>c]=1 c
la source
Ce message était à l'origine destiné à être un long commentaire plutôt qu'une réponse complète à la question posée.
De la question, il est un peu difficile de savoir si l'intérêt réside uniquement dans le cas binaire ou, peut-être, dans des cas plus généraux où ils peuvent être continus ou prendre d'autres valeurs discrètes.
Un exemple qui ne répond pas tout à fait à la question, mais qui est lié et que j'aime, concerne les classements de préférence d'objet obtenus via des comparaisons par paires. Le modèle Bradley-Terry peut être exprimé comme une régression logistique où et est une "affinité", une "popularité", ou paramètre "force" de l'élément avec indiquant que l'élément était préféré à l'élément dans une comparaison par paires.α i i Y i j = 1 i j
Si un tour complet de comparaisons est effectué (c'est-à-dire qu'une préférence par paire est enregistrée pour chaque paire non ordonnée ), il s'avère que l'ordre de classement des MLE correspond à la ordre de de , la somme totale des fois où chaque objet a été préféré à un autre.α i S i = Σ j ≠ i Y i j(i,j) α^i Si=∑j≠iYij
Pour interpréter cela, imaginez un tournoi à la ronde complet dans votre sport de compétition préféré. Ensuite, ce résultat indique que le modèle Bradley-Terry classe les joueurs / équipes selon leur pourcentage de victoires. Que ce soit un résultat encourageant ou décevant dépend de votre point de vue, je suppose.
NB Ce résultat de classement ne tient pas, en général, quand un tournoi à la ronde complet n'est pas joué.
la source