Pourquoi la régression logistique produit-elle des modèles bien calibrés?

13

Je comprends que l'une des raisons pour lesquelles la régression logistique est fréquemment utilisée pour prédire les taux de clics sur le Web est qu'elle produit des modèles bien calibrés. Y a-t-il une bonne explication mathématique à cela?

lsankar4033
la source
2
régression logistique faite pour prédire les probabilités -> qui conduisent à des prédictions calibrées sinon sur-ajustées. alors que la plupart des modèles d'apprentissage automatique ne prédisent pas les probabilités, mais plutôt des classes - et il y a une certaine contorsion aux pseudo-probabilités dérivées de ces prédictions -> d'où une note bien calibrée
charles
2
J'aurais dû clarifier la question, mais ma question portait davantage sur la raison pour laquelle LR est si utile pour prédire les probabilités.
lsankar4033
Il convient de noter que vous pouvez simplement ajuster une régression logistique à la sortie d'un classificateur mal calibré pour obtenir un modèle calibré. Cela s'appelle Platt Scaling en.wikipedia.org/wiki/Platt_scaling
generic_user

Réponses:

14

Oui.

Le vecteur de probabilité prédit de la régression logistique satisfait l'équation de la matricep

Xt(py)=0

est la matrice de conception etX est le vecteur de réponse. Ceci peut être considéré comme un ensemble d'équations linéaires, une provenant de chaque colonne de la matrice de plan X .yX

Spécialisée dans la colonne d'interception (qui est une ligne de la matrice transposée), l'équation linéaire associée est

i(piyi)=0

la probabilité globale prédite moyenne est donc égale à la moyenne de la réponse.

Plus généralement, pour une colonne d' entité binaire xij , l'équation linéaire associée est

ixij(piyi)=ixij=1(piyi)=0

la somme (et donc la moyenne) des probabilités prédites est égale à la somme de la réponse, même en se spécialisant dans les enregistrements pour lesquels .xij=1

Matthew Drury
la source
1
@MatthewDrury comment puis-je interpréter votre première équation? est de la forme 1 / ( 1 + exp ( - x ) ) ? Néanmoins cette relation linéaire est vraie? Je vous remercie! p1/(1+exp(x))
Ric
1
Oui, p est de cette forme. La première équation vient de la mise à zéro de la dérivée de la fonction de perte.
Matthew Drury
1
Cela ne concerne que l'étalonnage dans le grand qui n'est pas ce que nous voulons: l'étalonnage dans le petit.
Frank Harrell
1
@FrankHarrell Vous voulez élaborer? Je n'ai jamais entendu ces termes auparavant.
Matthew Drury
3
Il y a une longue histoire dans la littérature sur les prévisions de probabilité datant du US Weather Service 1950 - c'est là que le score Brier a été utilisé pour la première fois. L'étalonnage dans le petit signifie que si l'on examine les risques prévus de 0,01, 0,02, ..., 0,99, chacun d'eux est exact, c'est-à-dire que pour toutes les périodes où le risque prévu était de 0,4, le résultat est arrivé à environ 0,4 de le temps. J'appelle "l'étalonnage dans le minuscule" l'étape suivante: pour les hommes où la prédiction était de 0,4, le résultat était présent 0,4 du temps, puis pour les femmes.
Frank Harrell
2

Je pense que je peux vous fournir une explication facile à comprendre comme suit:

On sait que sa fonction de perte peut s'exprimer comme la fonction suivante:

J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

mreprésente le nombre de tous les échantillons d'apprentissage,y(i)l'étiquette du ième échantillon,hθ(x(i)) la probabilité prédite du ième échantillon:11+exp[αjθjxj(i)] . (remarquez le biaisαici)

Le but de la formation étant de minimiser la fonction de perte, évaluons sa dérivée partielle par rapport à chaque paramètre θj (la dérivation détaillée se trouve ici ):

J(θ)θj=1mi=1m[hθ(x(i))y(i)]xj(i)

Et le mettre à zéro yeils:
i=1mhθ(x(i))xj(i)=i=1my(i)xj(i)

Cela signifie que si le modèle est entièrement formé, les probabilités prédites que nous obtenons pour l'ensemble d'apprentissage se répartissent de sorte que pour chaque caractéristique, la somme des valeurs pondérées (toutes) de cette caractéristique soit égale à la somme des valeurs de cette caractéristique des échantillons positifs.

Ce qui précède s'adapte à toutes les fonctionnalités afin que le biais α . Fixer x0 à 1 et α à θ0 yeilds:

i=1mhθ(x(i))x0(i)=i=1my(i)x0(i)
i=1mhθ(x(i))=i=1my(i)
hθ(x(i))
i=1mp(i)=i=1my(i)

On voit bien que la régression logistique est bien calibrée.

Référence: modèles log-linéaires et champs aléatoires conditionnels par Charles Elkan

Lerner Zhang
la source