Propriétés des régressions logistiques

Nous travaillons avec quelques régressions logistiques et nous avons réalisé que la probabilité moyenne estimée est toujours égale à la proportion de celles de l'échantillon; c'est-à-dire que la moyenne des valeurs ajustées est égale à la moyenne de l'échantillon.

Quelqu'un peut-il m'expliquer la raison ou me donner une référence où je peux trouver cette démonstration?

regression logistic modeling generalized-linear-model maximum-likelihood Gabi Foix
la source

La raison en est que la régression logistique essaie d'atteindre exactement cela: modéliser la distribution des données, y compris les probabilités antérieures ("moyennes"). Ce comportement est-il indésirable?

bayerj

@bayer La non-linéarité de la fonction de lien indique que ce phénomène est plus profond que votre caractérisation. Il y a vraiment quelque chose à démontrer ici.

whuber

Cette propriété est parfois appelée étalonnage à grande échelle lorsque la régression logistique est utilisée pour estimer le risque.

juillet 2018

Le comportement que vous observez est le cas «typique» de régression logistique, mais n'est pas toujours vrai. Il est également beaucoup plus général (voir ci-dessous). C'est la conséquence de la confluence de trois faits distincts.

Le choix de modéliser les log-odds en fonction linéaire des prédicteurs,
L'utilisation du maximum de vraisemblance pour obtenir des estimations des coefficients dans le modèle de régression logistique, et
L'inclusion d'un terme d'interception dans le modèle.

Si l'un des éléments ci-dessus n'est pas présent, les probabilités moyennes estimées ne correspondent généralement pas à la proportion de celles de l'échantillon.

Cependant, (presque) tous les logiciels statistiques utilisent l'estimation du maximum de vraisemblance pour de tels modèles, donc, dans la pratique, les éléments 1 et 2 sont essentiellement toujours présents, et l'élément 3 est généralement présent, sauf dans des cas particuliers.

Quelques détails

Dans le cadre de régression logistique typique, nous observons le résultat d'essais binomiaux indépendants avec une probabilité . Soit les réponses observées. Alors la vraisemblance totale est $p_i$ $y_i$ et donc la log-vraisemblance est

L = \prod_{je = 1}^{n} p_{je}^{y_{je}} (1 - p_{je})^{1 - y_{je}} = \prod_{je = 1}^{n} \exp (y_{je} Journal (p_{je} / (1 - p_{je})) + Journal (1 - p_{je})),

$\mathcal L = \prod_{i=1}^n p_i^{y_i} (1-p_i)^{1 - y_i} = \prod_{i=1}^n \exp( y_i \log(p_i/(1-p_i)) + \log(1-p_i)) \>,$

ℓ = \sum_{je = 1}^{n} y_{je} Journal (p_{je} / (1 - p_{je})) + \sum_{je = 1}^{n} Journal (1 - p_{je}) .

$\ell = \sum_{i=1}^n y_i \log(p_i / (1-p_i)) + \sum_{i=1}^n \log(1-p_i) \> .$

Maintenant, nous avons un vecteur de prédicteurs pour chaque observation et d'après le fait 1 ci-dessus, le modèle de régression logistique postule que $\newcommand{\x}{\mathbf x}\x_i$

Journal \frac{p_{je}}{1 - p_{je}} = β^{T} X_{je},

$\log \frac{p_i}{1-p_i} = \beta^T \x_i \>,$

β

$\beta$

p_{i} = 1 / (1 + e^{- β^{T} x_{i}})

$p_i = 1/(1+e^{-\beta^T \x_i})$

$\partial \ell / \partial \beta = 0$

\frac{\partial ℓ}{\partial β} = \sum_{je} y_{je} X_{je} - \sum_{je} \frac{X_{je}}{1 + \exp (- β^{T} X_{je})} = \sum_{je} y_{je} X_{je} - \sum_{je} p_{je} X_{je},

$\frac{\partial \ell}{\partial \beta} = \sum_i y_i \x_i - \sum_i \frac{\x_i}{1+\exp(-\beta^T \x_i)} = \sum_i y_i \x_i - \sum_i p_i \x_i \>,$

\sum_{je} y_{je} X_{je} = \sum_{je} {\hat{p}}_{je} X_{je},

$\sum_i y_i \x_i = \sum_i \hat{p}_i \x_i \>,$

{\hat{p}}_{i} = (1 + \exp (- {\hat{β}}^{T} x_{i}))^{- 1}

$\hat{p}_i = (1+\exp(-\hat{\beta}^T \x_i))^{-1}$

$\x_i$ $j$ $i$ $\sum_i y_i x_{ij} = \sum_i y_i = \sum_i \hat{p}_i$

Une simulation

$R$

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Cas général : Comme mentionné ci-dessus, la propriété selon laquelle la réponse moyenne est égale à la moyenne prédite moyenne est beaucoup plus générale pour la classe des modèles linéaires généralisés ajustés par maximum de vraisemblance, en utilisant la fonction de lien canonique et en incluant une interception dans le modèle.

Les références

Quelques bonnes références pour la théorie associée sont les suivantes.

A. Agresti (2002), Categorical Data Analysis , 2e éd., Wiley.
P. McCullagh et JA Nelder (1989), Generalized Linear Models , 2e éd., Chapman & Hall. (Texte des auteurs originaux des méthodes générales.)

cardinal
la source

+1 Cette démonstration (spécifique au modèle de régression logistique, sans essayer de généraliser à tous les GLM) est également donnée dans Maddala (1983) Limited Dependent and Qualitative Variables in Econometrics , pp. 25-26.

StasK

@StasK: Merci pour la référence supplémentaire, que je ne connais pas. À votre santé.

cardinal

@cardinal: Je ne me souviens pas qu'Agresti en ait discuté. Est-ce discuté dans McCullagh et Nelder?

juillet 2018 à 20h42

Propriétés des régressions logistiques

Réponses: