Pourquoi la régression logistique est-elle bien calibrée et comment ruiner sa calibration?

9

Dans le scikit, apprendre des documents sur l'étalonnage des probabilités, ils comparent la régression logistique avec d'autres méthodes et remarquent que la forêt aléatoire est moins bien étalonnée que la régression logistique.

Pourquoi la régression logistique est-elle bien calibrée? Comment pourrait-on ruiner l'étalonnage d'une régression logistique (pas que l'on voudrait jamais - tout comme un exercice)?

user0
la source

Réponses:

4

Bien que cette question et sa première réponse semblent se concentrer sur les questions théoriques de l'étalonnage du modèle de régression logistique, la question de:

Comment ruiner l'étalonnage d'une régression logistique ...?

mérite une certaine attention en ce qui concerne les applications du monde réel, pour les futurs lecteurs de cette page. Il ne faut pas oublier que le modèle de régression logistique doit être bien spécifié et que ce problème peut être particulièrement gênant pour la régression logistique.

Premièrement, si le log-odds d'appartenance à une classe n'est pas lié de façon linéaire aux prédicteurs inclus dans le modèle, il ne sera pas bien calibré. Le chapitre 10 de Harrell sur la régression logistique binaire consacre environ 20 pages à l '"évaluation de l'ajustement du modèle" afin que l'on puisse tirer parti de "l'impartialité asymptotique de l'estimateur du maximum de vraisemblance", comme le dit @whuber, dans la pratique.

Deuxièmement, la spécification du modèle est un problème particulier dans la régression logistique, car elle a un biais variable omis inhérent qui peut surprendre ceux qui ont des antécédents en régression linéaire ordinaire. Comme le dit cette page:

Les variables omises biaiseront les coefficients des variables incluses même si les variables omises ne sont pas corrélées avec les variables incluses.

Cette page contient également une explication utile des raisons pour lesquelles ce comportement est à prévoir, avec une explication théorique pour les modèles probit apparentés, exploitables analytiquement. Donc, à moins que vous ne sachiez que vous avez inclus tous les prédicteurs liés à l'appartenance à une classe, vous risquez de vous heurter à des erreurs de spécification et à un mauvais étalonnage dans la pratique.

En ce qui concerne la spécification du modèle, il est tout à fait possible que les méthodes basées sur des arbres comme la forêt aléatoire, qui n'assument pas de linéarité sur toute une gamme de valeurs de prédicteurs et offrent intrinsèquement la possibilité de trouver et d'inclure des interactions entre les prédicteurs, aboutiront à une meilleure- un modèle calibré en pratique qu'un modèle de régression logistique qui ne prend pas suffisamment en compte les termes d'interaction ou de non-linéarité. En ce qui concerne le biais de variable omise, il n'est pas clair pour moi si une méthode d'évaluation des probabilités d'appartenance à une classe peut traiter ce problème de manière adéquate.

EdM
la source
5

La régression logistique est une méthode de classification qui apprend essentiellement une fonction de probabilité sur l'espace d'entrée en ajustant les paramètres . Si les probabilités prédites sont apprises avec la fonction de perte appropriée, la régression logistique a le potentiel d'apprendre une estimation non biaisée des probabilités d'événement binaire, chaque fois que sa capacité est suffisante (caractéristiques d'entrée).πθ(x)θ

La perte de log permet une telle estimation non biaisée. Considérez le fait que la fonction de perte de log est simplement la probabilité log négative d'une distribution de Bernoulli . L'estimation du maximum de vraisemblance pour est sans biais étant donné un ensemble d'observations pour la variable . Dans le cas d'une classification sur un espace d'entrée , on peut imaginer avoir une distribution de Bernoulli pour tous les points dans . Le plus souvent, vous n'aurez qu'une seule observation par distribution de Bernoulli, qui est située à . Application conjointe de l'estimation du maximum de vraisemblance pour toutes les distributions de Bernoulli observéeszBer(p)pzXXyixiyiBer(π(xi))appliquera plusieurs contraintes à . Étant donné que toutes ces contraintes conduisent à des estimations non biaisées, et tant que la fonction est suffisamment flexible pour s'adapter à la véritable fonction de probabilité sous-jacente , la procédure d'apprentissage est cohérente et convergera vers le modèle optimal au fur et à mesure que vous obtenez plus de données. Ainsi, la limitation de la capacité du modèle (moins de fonctionnalités par exemple) peut entraver l'étalonnage d'une régression logistique en augmentant la distance entre le meilleur modèle apprenable et le vrai modèle.πθπθπ

L'utilisation d'un modèle d'observation incorrect avec la régression logistique conduira à des probabilités non calibrées. La modélisation d'événements binaires avec une distribution normale est inappropriée et ne doit pas être utilisée en combinaison avec une régression logistique. La fonction de perte correspondant au modèle d'observation de distribution normale est l'erreur quadratique moyenne. Ainsi, l'utilisation d'une perte MSE entraverait à coup sûr son étalonnage.

cortax
la source
2
La régression logistique d'appel prudent une méthode de classification sur ce site! Merci pour la réponse - il semble que vous sous-entendez que l'objectif de perte de journal est la raison de l'étalonnage (en supposant que le modèle est suffisamment flexible)?
user0
1
Un suivi - vous dites que l'étalonnage nécessite une estimation impartiale de la probabilité - d'où la pénalisation ruine l'étalonnage?
user0
«LogisticRegression retourne des prédictions bien calibrées par défaut car il optimise directement la perte de log» - scikit-learn.org/stable/modules/calibration.html
cortax
Par définition, la pénalisation ou la régularisation est une injection de biais qui cherche souvent à réduire la variance de l'estimateur. Une régularisation massive peut dominer la partie données de la fonction objectif et ruiner définitivement l'étalonnage.
cortax
2
La citation de scikit-learn sur "optimise la perte de journal" n'est pas une explication efficace, car il n'y a pas de lien nécessaire entre cela et le fait d'être impartial. À moins que je ne me trompe, la bonne réponse à la question devra invoquer l' impartialité asymptotique de l' estimateur du maximum de vraisemblance généralement utilisé dans les procédures de régression logistique.
whuber