Ma question est: quelle est la relation mathématique entre la distribution bêta et les coefficients du modèle de régression logistique ?
Pour illustrer: la fonction logistique (sigmoïde) est donnée par
et il est utilisé pour modéliser les probabilités dans le modèle de régression logistique. Soit un résultat dichotomique et une matrice de conception. Le modèle de régression logistique est donné par
Remarque a une première colonne de constante (interception) et est un vecteur colonne de coefficients de régression. Par exemple, lorsque nous avons un régresseur (standard-normal) et choisissons (interception) et , nous pouvons simuler la «distribution des probabilités» qui en résulte.
Ce graphique rappelle la distribution bêta (tout comme les graphiques pour d'autres choix de ) dont la densité est donnée par
En utilisant le maximum de vraisemblance ou des méthodes de moments, il est possible d'estimer et partir de la distribution de . Ainsi, ma question se résume à: quelle est la relation entre les choix de et et ? Ceci, pour commencer, répond au cas bivarié donné ci-dessus.
Réponses:
La version bêta est une distribution de valeurs dans la plage qui est très flexible dans sa forme, donc pour presque toute distribution empirique unimodale de valeurs dans vous pouvez facilement trouver des paramètres d'une telle distribution bêta qui "ressemble" à la forme de la distribution.(0,1) (0,1)
Notez que la régression logistique vous fournit des probabilités conditionnelles , tandis que sur votre graphique, vous nous présentez la distribution marginale des probabilités prédites. Ce sont deux choses différentes dont il faut parler.Pr(Y=1∣X)
Il n'y a pas de relation directe entre les paramètres de régression logistique et les paramètres de distribution bêta lorsque l'on regarde la distribution des prédictions du modèle de régression logistique. Ci-dessous, vous pouvez voir des données simulées à l'aide de distributions normales, exponentielles et uniformes transformées à l'aide de la fonction logistique. En plus d'utiliser exactement les mêmes paramètres de régression logistique (c'est-à-dire ), les distributions des probabilités prédites sont très différentes. La distribution des probabilités prédites dépend donc non seulement des paramètres de régression logistique, mais aussi des distributions des et il n'y a pas de relation simple entre eux.β0=0,β1=1 X
Étant donné que la bêta est une distribution de valeurs dans , elle ne peut pas être utilisée pour modéliser des données binaires comme le fait la régression logistique. Il peut être utilisé pour modéliser les probabilités , de cette manière, nous utilisons la régression bêta (voir également ici et ici ). Donc, si vous êtes intéressé par le comportement des probabilités (comprises comme variables aléatoires), vous pouvez utiliser la régression bêta à cette fin.(0,1)
la source
La régression logistique est un cas particulier d'un modèle linéaire généralisé (GLM). Dans ce cas particulier des données binaires, la fonction logistique est la fonction de lien canonique qui transforme le problème de régression non linéaire en question en un problème linéaire. Les GLM sont quelque peu spéciaux, en ce sens qu'ils ne s'appliquent qu'aux distributions de la famille exponentielle (comme la distribution binomiale).
Dans l'estimation bayésienne, la distribution bêta est le conjugué avant la distribution binomiale, ce qui signifie qu'une mise à jour bayésienne vers un avant bêta, avec des observations binomiales, se traduira par une postérieure bêta. Donc, si vous avez des comptages pour les observations de données binaires, vous pouvez obtenir une estimation bayésienne analytique des paramètres de la distribution binomiale en utilisant un a priori bêta.
Donc, dans le sens de ce qui a été dit par d'autres, je ne pense pas qu'il y ait une relation directe, mais la distribution bêta et la régression logistique ont des relations étroites avec l'estimation des paramètres de quelque chose qui suit une distribution binomiale.
la source
Peut-être qu'il n'y a pas de connexion directe? La distribution de dépend en grande partie de votre simulation de X . Si vous avez simulé X avec N ( 0 , 1 ) , exp ( - X β ) aura une distribution log-normale avec μ = - 1 étant donné β 0 = β 1 = 1 . La distribution de P ( A = 1 | XP(A=1|X) X X N(0,1) exp(−Xβ) μ=−1 β0= β1= 1 peut alors être trouvée explicitement: avec cdf F ( x ) = 1 - Φ [ ln ( 1P( A = 1 | X) cdf inverseQ(x)=1
Vous pouvez vérifier les résultats ci-dessus dans R :
la source