Pourquoi existe-t-il deux formules / notations de pertes logistiques différentes?

23

J'ai vu deux types de formulations de pertes logistiques. On peut facilement montrer qu'ils sont identiques, la seule différence est la définition de l'étiquette y .

Formulation / notation 1, y{0,+1} :

L(y,βTx)=ylog(p)(1y)log(1p)

p=11+exp(βTx) , où la fonction logistique mappe un nombre réelβTx à 0,1 intervalle.

Formulation / notation 2, y{1,+1} :

L(y,βTx)=log(1+exp(yβTx))

Choisir une notation, c'est comme choisir une langue, il y a des avantages et des inconvénients à utiliser l'une ou l'autre. Quels sont les avantages et les inconvénients de ces deux notations?


Mes tentatives pour répondre à cette question est qu'il semble que la communauté des statistiques aime la première notation et la communauté informatique aime la deuxième notation.

  • La première notation peut être expliquée par le terme "probabilité", car la fonction logistique transforme un nombre réel βTx en intervalle 0,1.
  • Et la deuxième notation est plus concise et plus facile à comparer avec une perte de charnière ou une perte de 0-1.

Ai-je raison? D'autres idées?

Haitao Du
la source
4
Je suis sûr que cela a déjà dû être demandé plusieurs fois. Par exemple, stats.stackexchange.com/q/145147/5739
StasK
1
Pourquoi dites-vous que la deuxième notation est plus facile à comparer à la perte de charnière? Tout simplement parce qu'il est défini sur au lieu de { 0 , 1 } , ou autre chose? {1,1}{0,1}
shadowtalker
1
J'aime un peu la symétrie de la première forme, mais la partie linéaire est enterrée assez profondément, donc il peut être difficile de travailler avec.
Matthew Drury
@ssdecontrol veuillez vérifier cette figure, cs.cmu.edu/~yandongl/loss.html où l'axe x est , et l'axe y est la valeur de perte. Une telle définition est pratique à comparer avec une perte de 01, une perte de charnière, etc.yβTX
Haitao Du

Réponses:

12

La version courte

  • Oui
  • Oui

La version longue

La bonne chose à propos de la modélisation mathématique est qu'elle est flexible. Ce sont en effet des fonctions de perte équivalentes, mais elles dérivent de modèles sous-jacents très différents des données.

Formule 1

La première notation dérive d'un modèle de probabilité de Bernoulli pour , qui est conventionnellement défini sur { 0 , 1 } . Dans ce modèle, le résultat / étiquette / classe / prédiction est représenté par une variable aléatoire Y qui suit une distribution B e r n o u l l i ( p ) . Par conséquent, sa probabilité est: P ( Y = y | p ) = L ( p ; y ) = p yy{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

pour . L'utilisation de 0 et 1 comme valeurs d'indicateur nous permet de réduire la fonction par morceaux à l'extrême droite à une expression concise.p[0,1]

Comme vous l'avez souligné, vous pouvez ensuite lier à une matrice de données d'entrée x en laissant logit p = β T x . De là, une manipulation algébrique simple révèle que log L ( p ; y ) est le même que le premier L ( y , β T x ) dans votre question (indice: ( y - 1 ) = - ( 1 - y ) ). Donc, minimiser la perte de journal sur { 0 ,Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y) équivaut à l'estimation du maximum de vraisemblance d'un modèle de Bernoulli.{0,1}

Cette formulation est également un cas particulier du modèle linéaire généralisé , qui est formulé comme pour une fonction g inversible et différenciable et une distribution D dans la famille exponentielle .YD(θ), g(Y)=βTxgD

Formule 2

En fait .. Je ne connais pas la Formule 2. Cependant, définir sur { - 1 , 1 } est standard dans la formulation d'une machine à vecteurs de support . Le montage d'un SVM correspond à la maximisation de max ( { 0 , 1 - y β T x } ) + λ β 2 .y{1,1}

max({0,1yβTx})+λβ2.

Il s'agit de la forme lagrangienne d'un problème d'optimisation contraint. C'est aussi un exemple d'un problème d'optimisation régularisé avec la fonction objectif Pour une certaine fonction de perte et un hyperparamètre scalaire λ qui contrôle la quantité de régularisation (également appelée "rétrécissement") appliquée à β . La perte de charnière n'est qu'une des nombreuses possibilités de chute pour , qui incluent également le deuxième L ( y , β T x

(y,β)+λβ2
λβ dans votre question.L(y,βTx)
shadowtalker
la source
En Formule 1, ne devrait-il pas être:
py(1p)1y1y
glebm
7

Je pense que @ssdecontrol a eu une très bonne réponse. Je veux juste ajouter quelques commentaires sur la formule 2 pour ma propre question.

L(y,y^)=log(1+exp(yy^))

La raison pour laquelle les gens aiment cette formulation est qu'elle est très concise et qu'elle supprime les "détails d'interprétation des probabilités".

y^yy^ est un nombre réel ici. Par rapport à la formulation 1, nous avons besoin de deux étapes supplémentaires pour passer à l'étiquette discrète, étape 1. fonction sigmod étape 2. appliquer un seuil de 0,5.

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

entrez la description de l'image ici

yy^y^ est un nombre réel, et ce nombre peut provenir d'une forme linéaire βTXou d'autres formes. Une telle notation cache les détails de probabilité.

Haitao Du
la source
Je vois ce que vous entendez par comparaison facile
shadowtalker