J'ai du mal à dériver la Hesse de la fonction objectif, , en régression logistique où est:
est une fonction logistique. Le Hessian est . J'ai essayé de le dériver en calculant , mais il n'était pas évident pour moi comment accéder à la notation matricielle à partir de .
Quelqu'un connaît-il un moyen propre et facile de dériver ?
Réponses:
Ici, je dérive toutes les propriétés et identités nécessaires pour que la solution soit autonome, mais à part cela, cette dérivation est propre et facile. Formalisons notre notation et écrivons la fonction de perte un peu plus compacte. Considéronsm échantillons {xi,yi} de telle sorte que xi∈Rd et yi∈R . Rappelons que dans la régression logistique binaire, nous avons généralement la fonction d'hypothèse hθ être la fonction logistique. Officiellement
oùω∈Rd et zi=ωTxi . La fonction de perte (à laquelle je pense qu'il manque un signe négatif à OP) est alors définie comme suit:
Il y a deux propriétés importantes de la fonction logistique que je dérive ici pour référence future. Tout d'abord, notez que1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z) .
Notez également que
Au lieu de prendre des dérivées par rapport aux composants, nous travaillerons ici directement avec des vecteurs (vous pouvez revoir les dérivés avec des vecteurs ici ). La Hesse de la fonction de pertel(ω) est donnée par ∇⃗ 2l(ω) , mais rappelons d'abord que ∂z∂ω=xTω∂ω=xT et∂z∂ωT=∂ωTx∂ωT=x .
Soitli(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi)) . En utilisant les propriétés que nous avons dérivées ci-dessus et la règle de chaîne
Il est désormais trivial de montrer que
ouf!
Notre dernière étape consiste à calculer la Hesse
Pourm échantillons, nous avons ∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi)) . Cela équivaut à concaténer des vecteurs colonnes xi∈Rd en une matrice X de taille d×m telle que ∑mi=1xixTi=XXT . Les termes scalaires sont combinés dans une matrice diagonaleD telle queDii=σ(zi)(1−σ(zi)) . Enfin, nous concluons que
Une approche plus rapide peut être dérivée en considérant tous les échantillons à la fois depuis le début et en utilisant plutôt des dérivés matriciels. En plus, avec cette formulation, il est trivial de montrer quel(ω) est convexe. Soit δ tout vecteur tel que δ∈Rd . alors
sinceD>0 and ∥δTX∥≥0 . This implies H is positive-semidefinite and therefore l is convex (but not strongly convex).
la source