Quels sont les impacts du choix de différentes fonctions de perte dans la classification pour approcher la perte 0-1

27

Nous savons que certaines fonctions objectives sont plus faciles à optimiser et certaines sont difficiles. Et il existe de nombreuses fonctions de perte que nous voulons utiliser mais difficiles à utiliser, par exemple une perte de 0-1. Nous trouvons donc des fonctions de perte de proxy pour faire le travail. Par exemple, nous utilisons la perte de charnière ou la perte logistique pour "approximer" la perte 0-1.

L'intrigue suivante vient du livre PRML de Chris Bishop . La perte de charnière est tracée en bleu, la perte de journal en rouge, la perte carrée en vert et l'erreur 0/1 en noir.

entrez la description de l'image ici

Je comprends que la raison pour laquelle nous avons une telle conception (pour les charnières et les pertes logistiques) est que nous voulons que la fonction objective soit convexe.

En examinant la perte de charnière et la perte logistique, cela pénalise davantage les instances fortement mal classées et, ce qui est intéressant, cela pénalise également les instances correctement classées si elles sont faiblement classées . C'est un design vraiment étrange.

Ma question est quels sont les prix que nous devons payer en utilisant différentes "fonctions de perte de proxy", telles que la perte de charnière et la perte logistique?

Haitao Du
la source
En régression, le choix de la perte quadratique est plus facile à faire que l'optimisation par rapport à la perte de valeur absolue. Mais la perte au carré est plus sensible aux valeurs aberrantes. Donc, il devrait également être sensible à certains types de données?
Haitao Du
4
Une solution plus simple consiste à développer des probabilités prédites optimales qui ne nécessitent pas de fonction d'utilité. La fonction utilité / perte peut être appliquée ultérieurement par le décideur lui-même. La classification équivaut à prendre la décision pour le décideur et nécessite trop de connaissances à l'avance.
Frank Harrell
@FrankHarrell Merci, et j'utilise l'approche que vous avez mentionnée au travail, où nous séparons les prévisions et les opérations commerciales. Cependant, ce n'est pas encore optimisé dans son ensemble, mais une solution locale avide de mise en scène, non? Est-ce une "politique d'autruche"?
Haitao Du
2
Cela peut ne pas conduire à des décisions optimales. La fonction perte / utilité / coût ne provient pas des prédicteurs du modèle.
Frank Harrell
1
+1. Minimiser la perte logistique correspond à maximiser la vraisemblance binomiale. Minimiser la perte d'erreur quadratique correspond à maximiser la probabilité gaussienne (c'est juste une régression OLS; pour une classification à 2 classes, c'est en fait équivalent à LDA). Savez-vous si minimiser la perte de charnière correspond à maximiser une autre probabilité? Existe-t-il un modèle probabiliste correspondant à la perte de charnière?
amibe dit Réintégrer Monica

Réponses:

16

Certaines de mes pensées, cependant, peuvent ne pas être correctes.

Je comprends que la raison pour laquelle nous avons une telle conception (pour les charnières et les pertes logistiques) est que nous voulons que la fonction objective soit convexe.

La convexité est certainement une belle propriété, mais je pense que la raison la plus importante est que nous voulons que la fonction objective ait des dérivées non nulles , afin que nous puissions utiliser les dérivées pour la résoudre. La fonction objectif peut être non convexe, auquel cas nous nous arrêtons souvent à certains points d'optima ou de selle locaux.

et, fait intéressant, cela pénalise également les instances correctement classées si elles sont faiblement classées. C'est un design vraiment étrange.

Je pense qu'une telle conception conseille au modèle non seulement de faire les bonnes prédictions, mais aussi d'avoir confiance en ces prédictions. Si nous ne voulons pas que les instances correctement classées soient punies, nous pouvons par exemple déplacer la perte de charnière (bleue) vers la gauche de 1, afin qu'elles ne subissent plus de perte. Mais je crois que cela conduit souvent à un pire résultat dans la pratique.

Quels sont les prix que nous devons payer en utilisant différentes "fonctions de perte de proxy", telles que la perte de charnière et la perte logistique?

OMI en choisissant différentes fonctions de perte, nous apportons différentes hypothèses au modèle. Par exemple, la perte de régression logistique (rouge) suppose une distribution de Bernoulli, la perte MSE (verte) suppose un bruit gaussien.


En suivant l'exemple des moindres carrés vs régression logistique dans PRML, j'ai ajouté la perte de charnière pour comparaison. entrez la description de l'image ici

Comme le montre la figure, la perte de charnière et la régression logistique / entropie croisée / log-vraisemblance / softplus ont des résultats très proches, car leurs fonctions objectives sont proches (figure ci-dessous), tandis que MSE est généralement plus sensible aux valeurs aberrantes. La perte de charnière n'a pas toujours une solution unique car elle n'est pas strictement convexe.

entrez la description de l'image ici

Cependant, une propriété importante de la perte de charnière est que les points de données éloignés de la limite de décision ne contribuent en rien à la perte, la solution sera la même avec ces points supprimés.

Les points restants sont appelés vecteurs de support dans le contexte de SVM. Alors que SVM utilise un terme régularisateur pour garantir la propriété de marge maximale et une solution unique.

dontloo
la source
Merci d'avoir répondu. Est-il possible de créer des démos pour montrer intuitivement l'impact de différentes pertes? Tout comme nous montrons l'impact des valeurs aberrantes de la régression en utilisant la perte au carré par rapport à la perte la moins absolue.
Haitao Du
@ hxd1011 vous êtes les bienvenus, je vais essayer d'ajouter quelques démos plus tard.
dontloo
2
La perte de charnière est convexe ...
Mustafa S Eisa
1
@ MustafaM.Eisa à droite, merci, je voulais dire pas strictement convexe ..
dontloo
@dontloo grande simulation! Merci. J'essaierai également de télécharger certaines de mes simulations plus tard.
Haitao Du
6

Publier une réponse tardive, car il existe une réponse très simple qui n'a pas encore été mentionnée.

Quels sont les prix que nous devons payer en utilisant différentes "fonctions de perte de proxy", telles que la perte de charnière et la perte logistique?

Lorsque vous remplacez la fonction de perte non convexe 0-1 par un substitut convexe (par exemple, perte de charnière), vous résolvez maintenant un problème différent de celui que vous aviez l'intention de résoudre (qui est de minimiser le nombre d'erreurs de classification). Vous gagnez donc en facilité de calcul (le problème devient convexe, ce qui signifie que vous pouvez le résoudre efficacement en utilisant des outils d'optimisation convexe), mais dans le cas général, il n'y a en fait aucun moyen de relier l'erreur du classificateur qui minimise une perte "proxy" et le erreur du classificateur qui minimise la perte 0-1 . Si ce qui vous tenait vraiment à cœur était de minimiser le nombre d'erreurs de classification, je soutiens que c'est vraiment un gros prix à payer.

Je dois mentionner que cette déclaration est le pire des cas , dans le sens qu'il détient pour toute distribution . Pour certaines "belles" distributions, il existe des exceptions à cette règle. L'exemple clé est celui des distributions de données qui ont de grandes marges par rapport à la frontière de décision - voir Théorème 15.4 dans Shalev-Shwartz, Shai et Shai Ben-David. Comprendre l'apprentissage automatique: de la théorie aux algorithmes. Cambridge University Press, 2014.

galoosh33
la source
1

Idéalement, votre fonction de perte devrait refléter la perte réelle subie par l'entreprise. Par exemple, si vous classifiez des marchandises endommagées, la perte de classification erronée pourrait être la suivante:

  • marquage des marchandises endommagées qui n'étaient pas: perte de profit sur une vente potentielle
  • ne pas marquer les marchandises endommagées qui ont été endommagées: frais de traitement de retour
Aksakal
la source