Hesse de la fonction logistique

Ici, je dérive toutes les propriétés et identités nécessaires pour que la solution soit autonome, mais à part cela, cette dérivation est propre et facile. Formalisons notre notation et écrivons la fonction de perte un peu plus compacte. Considérons $m$ échantillons $\{x_i,y_i\}$ de telle sorte que $x_i\in\mathbb{R}^d$ et $y_i\in\mathbb{R}$ . Rappelons que dans la régression logistique binaire, nous avons généralement la fonction d'hypothèse $h_\theta$ être la fonction logistique. Officiellement

h_{θ} (x_{i}) = σ (ω^{T} x_{i}) = σ (z_{i}) = \frac{1}{1 + e^{- z_{i}}},

$h_\theta(x_i)=\sigma(\omega^Tx_i)=\sigma(z_i)=\frac{1}{1+e^{-z_i}},$

où $\omega\in\mathbb{R}^d$ et $z_i=\omega^Tx_i$ . La fonction de perte (à laquelle je pense qu'il manque un signe négatif à OP) est alors définie comme suit:

l (ω) = \sum_{i = 1}^{m} - (y_{i} \log σ (z_{i}) + (1 - y_{i}) \log (1 - σ (z_{i})))

$l(\omega)=\sum_{i=1}^m -\Big( y_i\log\sigma(z_i)+(1-y_i)\log(1-\sigma(z_i))\Big)$

Il y a deux propriétés importantes de la fonction logistique que je dérive ici pour référence future. Tout d'abord, notez que $1-\sigma(z)=1-1/(1+e^{-z})=e^{-z}/(1+e^{-z})=1/(1+e^z)=\sigma(-z)$ .

Notez également que

\begin{aligned} \frac{\partial}{\partial z} σ (z) = \frac{\partial}{\partial z} (1 + e^{- z})^{- 1} = e^{- z} (1 + e^{- z})^{- 2} & = \frac{1}{1 + e^{- z}} \frac{e^{- z}}{1 + e^{- z}} = σ (z) (1 - σ (z)) \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial}{\partial z}\sigma(z)=\frac{\partial}{\partial z}(1+e^{-z})^{-1}=e^{-z}(1+e^{-z})^{-2}&=\frac{1}{1+e^{-z}}\frac{e^{-z}}{1+e^{-z}} =\sigma(z)(1-\sigma(z)) \end{aligned} \end{equation}$

Au lieu de prendre des dérivées par rapport aux composants, nous travaillerons ici directement avec des vecteurs (vous pouvez revoir les dérivés avec des vecteurs ici ). La Hesse de la fonction de perte $l(\omega)$ est donnée par $\vec{\nabla}^2l(\omega)$ , mais rappelons d'abord que $\frac{\partial z}{\partial \omega} = \frac{x^T\omega}{\partial \omega}=x^T$ et $\frac{\partial z}{\partial \omega^T}=\frac{\partial \omega^Tx}{\partial \omega ^T} = x$ .

Soit $l_i(\omega)=-y_i\log\sigma(z_i)-(1-y_i)\log(1-\sigma(z_i))$ . En utilisant les propriétés que nous avons dérivées ci-dessus et la règle de chaîne

\begin{aligned} \frac{\partial \log σ (z_{i})}{\partial ω^{T}} & = \frac{1}{σ (z_{i})} \frac{\partial σ (z_{i})}{\partial ω^{T}} = \frac{1}{σ (z_{i})} \frac{\partial σ (z_{i})}{\partial z_{i}} \frac{\partial z_{i}}{\partial ω^{T}} = (1 - σ (z_{i})) x_{i} \\ \frac{\partial \log (1 - σ (z_{i}))}{\partial ω^{T}} & = \frac{1}{1 - σ (z_{i})} \frac{\partial (1 - σ (z_{i}))}{\partial ω^{T}} = - σ (z_{i}) x_{i} \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial \log\sigma(z_i)}{\partial \omega^T} &= \frac{1}{\sigma(z_i)}\frac{\partial\sigma(z_i)}{\partial \omega^T} = \frac{1}{\sigma(z_i)}\frac{\partial\sigma(z_i)}{\partial z_i}\frac{\partial z_i}{\partial \omega^T}=(1-\sigma(z_i))x_i\\ \frac{\partial \log(1-\sigma(z_i))}{\partial \omega^T}&= \frac{1}{1-\sigma(z_i)}\frac{\partial(1-\sigma(z_i))}{\partial \omega^T} =-\sigma(z_i)x_i \end{aligned} \end{equation}$

Il est désormais trivial de montrer que

\vec{\nabla} l_{i} (ω) = \frac{\partial l_{i} (ω)}{\partial ω^{T}} = - y_{i} x_{i} (1 - σ (z_{i})) + (1 - y_{i}) x_{i} σ (z_{i}) = x_{i} (σ (z_{i}) - y_{i})

$\vec{\nabla}l_i(\omega)=\frac{\partial l_i(\omega)}{\partial \omega^T} =-y_ix_i(1-\sigma(z_i))+(1-y_i)x_i\sigma(z_i)=x_i(\sigma(z_i)-y_i)$

ouf!

Notre dernière étape consiste à calculer la Hesse

{\vec{\nabla}}^{2} l_{i} (ω) = \frac{\partial l_{i} (ω)}{\partial ω \partial ω^{T}} = x_{i} x_{i}^{T} σ (z_{i}) (1 - σ (z_{i}))

$\vec{\nabla}^2l_i(\omega)=\frac{\partial l_i(\omega)}{\partial \omega\partial \omega^T}=x_ix_i^T\sigma(z_i)(1-\sigma(z_i))$

Pour $m$ échantillons, nous avons $\vec{\nabla}^2l(\omega)=\sum_{i=1}^m x_ix_i^T\sigma(z_i)(1-\sigma(z_i))$ . Cela équivaut à concaténer des vecteurs colonnes $x_i\in\mathbb{R}^d$ en une matrice $X$ de taille $d\times m$ telle que $\sum_{i=1}^m x_ix_i^T=XX^T$ . Les termes scalaires sont combinés dans une matrice diagonale $D$ telle que $D_{ii}=\sigma(z_i)(1-\sigma(z_i))$ . Enfin, nous concluons que

\vec{H} (ω) = {\vec{\nabla}}^{2} l (ω) = X D X^{T}

$\vec{H}(\omega)=\vec{\nabla}^2l(\omega)=XDX^T$

Une approche plus rapide peut être dérivée en considérant tous les échantillons à la fois depuis le début et en utilisant plutôt des dérivés matriciels. En plus, avec cette formulation, il est trivial de montrer que $l(\omega)$ est convexe. Soit $\delta$ tout vecteur tel que $\delta\in\mathbb{R}^d$ . alors

δ^{T} \vec{H} (ω) δ = δ^{T} {\vec{\nabla}}^{2} l (ω) δ = δ^{T} X D X^{T} δ = δ^{T} X D (δ^{T} X)^{T} = ‖ δ^{T} D X ‖^{2} \geq 0

$\delta^T\vec{H}(\omega)\delta = \delta^T\vec{\nabla}^2l(\omega)\delta = \delta^TXDX^T\delta = \delta^TXD(\delta^TX)^T = \|\delta^TDX\|^2\geq 0$

since $D>0$ and $\|\delta^TX\|\geq 0$ . This implies $H$ is positive-semidefinite and therefore $l$ is convex (but not strongly convex).

Manuel Morales
la source

In the last equation, shouldn't it be

| | δ D^{1 / 2} X | |

$||\delta D^{1/2}X||$ since

X D X^{⊤}

$XDX^\top$ =

X D^{1 / 2} (X D^{1 / 2})^{⊤}

$XD^{1/2}(XD^{1/2})^\top$ ?

appletree

Shouldn't it be

X^{T} D X

$X^T D X$ ?

Chintan Shah

Hesse de la fonction logistique

Réponses: