Je comprends que l'une des raisons pour lesquelles la régression logistique est fréquemment utilisée pour prédire les taux de clics sur le Web est qu'elle produit des modèles bien calibrés. Y a-t-il une bonne explication mathématique à cela?
regression
logistic
lsankar4033
la source
la source
Réponses:
Oui.
Le vecteur de probabilité prédit de la régression logistique satisfait l'équation de la matricep
Où est la matrice de conception etX est le vecteur de réponse. Ceci peut être considéré comme un ensemble d'équations linéaires, une provenant de chaque colonne de la matrice de plan X .y X
Spécialisée dans la colonne d'interception (qui est une ligne de la matrice transposée), l'équation linéaire associée est
la probabilité globale prédite moyenne est donc égale à la moyenne de la réponse.
Plus généralement, pour une colonne d' entité binairexij , l'équation linéaire associée est
la somme (et donc la moyenne) des probabilités prédites est égale à la somme de la réponse, même en se spécialisant dans les enregistrements pour lesquels .xij=1
la source
Je pense que je peux vous fournir une explication facile à comprendre comme suit:
On sait que sa fonction de perte peut s'exprimer comme la fonction suivante:
J(θ)=−1m∑i=1m[y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))] y(i) l'étiquette du ième échantillon,hθ(x(i)) la probabilité prédite du ième échantillon:11+exp[−α−∑jθjx(i)j] . (remarquez le biaisα ici)
Où
m
représente le nombre de tous les échantillons d'apprentissage,Le but de la formation étant de minimiser la fonction de perte, évaluons sa dérivée partielle par rapport à chaque paramètreθj (la dérivation détaillée se trouve ici ):
∂J(θ)∂θj=1m∑i=1m[hθ(x(i))−y(i)]x(i)j
∑i=1mhθ(x(i))x(i)j=∑i=1my(i)x(i)j
Et le mettre à zéro yeils:
Cela signifie que si le modèle est entièrement formé, les probabilités prédites que nous obtenons pour l'ensemble d'apprentissage se répartissent de sorte que pour chaque caractéristique, la somme des valeurs pondérées (toutes) de cette caractéristique soit égale à la somme des valeurs de cette caractéristique des échantillons positifs.
Ce qui précède s'adapte à toutes les fonctionnalités afin que le biaisα . Fixer x0 à 1 et α à θ0 yeilds:
∑i=1mhθ(x(i))x(i)0=∑i=1my(i)x(i)0 ∑i=1mhθ(x(i))=∑i=1my(i) hθ(x(i)) ∑i=1mp(i)=∑i=1my(i)
On voit bien que la régression logistique est bien calibrée.
Référence: modèles log-linéaires et champs aléatoires conditionnels par Charles Elkan
la source