Est-il acceptable d'utiliser la fonction de perte d'entropie croisée avec des étiquettes souples?

J'ai un problème de classification où les pixels seront étiquetés avec des étiquettes souples (qui dénotent des probabilités) plutôt qu'avec des étiquettes rigides 0,1. Auparavant, avec un étiquetage dur de 0,1 pixel, la fonction de perte d'entropie croisée (sigmoidCross entropyLossLayer de Caffe) donnait des résultats décents. Est-il acceptable d'utiliser la couche de perte d'entropie croisée sigmoïde (de Caffe) pour ce problème de classification souple?

classification loss-functions saikat
la source

Je recherche une fonction d'entropie croisée capable de traiter des étiquettes à valeur réelle. S'il vous plaît laissez-moi savoir si vous connaissez une réponse ici

Amir

La réponse est oui, mais vous devez la définir correctement.

L'entropie croisée est définie sur des distributions de probabilité, et non sur des valeurs uniques. Pour les distributions discrètes $p$ et $q$ , c'est:

H (p, q) = - \sum_{y} p (y) \log q (y)

$H(p, q) = -\sum_y p(y) \log q(y)$

Lorsque la perte d'entropie croisée est utilisée avec des étiquettes de classe «dures», cela revient vraiment à traiter $p$ comme la distribution empirique conditionnelle sur les étiquettes de classe. Il s'agit d'une distribution où la probabilité est 1 pour l'étiquette de classe observée et 0 pour toutes les autres. $q$ est la distribution conditionnelle (probabilité d'étiquette de classe, entrée donnée) apprise par le classificateur. Pour un seul point de données observé avec entrée $x_0$ et classe $y_0$ , nous pouvons voir que l'expression ci-dessus se réduit à la perte de journal standard (qui serait moyenne sur tous les points de données):

- \sum_{y} I {y = y_{0}} \log q (y ∣ x_{0}) = - \log q (y_{0} ∣ x_{0})

$-\sum_y I\{y = y_0\} \log q(y \mid x_0) = -\log q(y_0 \mid x_0)$

Ici, $I\{\cdot\}$ est la fonction d'indicateur, qui est 1 lorsque son argument est vrai ou 0 sinon (c'est ce que fait la distribution empirique). La somme est prise sur l'ensemble des étiquettes de classe possibles.

Dans le cas des étiquettes «souples» comme vous le mentionnez, les étiquettes ne sont plus des identités de classe elles-mêmes, mais des probabilités sur deux classes possibles. Pour cette raison, vous ne pouvez pas utiliser l'expression standard pour la perte de journal. Mais, le concept d'entropie croisée s'applique toujours. En fait, cela semble encore plus naturel dans ce cas.

Appelons la classe $y$ , qui peut être 0 ou 1. Et, disons que le soft label $s(x)$ donne la probabilité que la classe soit 1 (étant donné l'entrée correspondante $x$ ). Ainsi, le soft label définit une distribution de probabilité:

p (y ∣ x) = {\begin{array}{cl} s (x) & If y = 1 \\ 1 - s (x) & If y = 0 \end{array}

$p(y \mid x) = \left \{ \begin{array}{cl} s(x) & \text{If } y = 1 \\ 1-s(x) & \text{If } y = 0 \end{array} \right .$

Le classificateur donne également une distribution sur les classes, étant donné l'entrée:

q (y ∣ x) = {\begin{array}{cl} c (x) & If y = 1 \\ 1 - c (x) & If y = 0 \end{array}

$q(y \mid x) = \left \{ \begin{array}{cl} c(x) & \text{If } y = 1 \\ 1-c(x) & \text{If } y = 0 \end{array} \right .$

Ici, $c(x)$ est la probabilité estimée du classificateur que la classe soit 1, étant donné l'entrée $x$ .

La tâche consiste maintenant à déterminer la différence entre ces deux distributions en utilisant l'entropie croisée. Branchez ces expressions pour $p$ et $q$ dans la définition de l'entropie croisée ci-dessus. La somme est reprise sur l'ensemble des classes possibles $\{0, 1\}$ :

\begin{array}{ccl} H (p, q) & = & - p (y = 0 ∣ x) \log q (y = 0 ∣ x) - p (y = 1 ∣ x) \log q (y = 1 ∣ x) \\ = & - (1 - s (x)) \log (1 - c (x)) - s (x) \log c (x) \end{array}

$\begin{array}{ccl} H(p, q) & = & - p(y=0 \mid x) \log q(y=0 \mid x) - p(y=1 \mid x) \log q(y=1 \mid x)\\ & = & -(1-s(x)) \log (1-c(x)) - s(x) \log c(x) \end{array}$

C'est l'expression d'un seul point de données observé. La fonction de perte serait la moyenne sur tous les points de données. Bien sûr, cela peut également être généralisé à la classification multiclasse.

user20160
la source

Je reviens toujours à la lucidité de cette réponse.

auro

Est-il acceptable d'utiliser la fonction de perte d'entropie croisée avec des étiquettes souples?

Réponses: