J'ai eu récemment une discussion rapide avec un ami bien informé qui a mentionné que les SVM sont la limite de température zéro de la régression logistique. La justification impliquait des polytopes marginaux et la dualité fenchel. Je n'ai pas pu suivre.
Cette affirmation selon laquelle les SVM sont la limite de température zéro de la régression logistique est-elle vraie? Et si oui, quelqu'un peut-il décrire l'argument?
Réponses:
Dans le cas du SVM à marge dure et des données séparables linéairement, cela est vrai.
Une esquisse intuitive: la perte de chaque point de données dans la régression logistique s'éteint presque comme une courbe de décroissance exponentielle lorsque vous vous éloignez de la frontière de décision (dans la bonne direction, bien sûr). Cette décroissance exponentielle signifie que les points les plus proches de la frontière subissent beaucoup plus de pertes. Lorsque la température tombe à 0, les points les plus proches de la frontière dominent complètement la perte, et la perte est déterminée par la proximité exacte des points les plus proches.
La régression logistique binaire a la perte d'entropie croisée: où est l'étiquette et est la probabilité prédite en .−ylogp−(1−y)log(1−p) y p (0,1)
Typiquement, où est la fonction sigmoïde. Sur la base du paramètre de température introduit dans cet article , je soupçonne que la température fait référence à une modification de la formulation: , où est la température et I ' ai abandonné le terme de biais pour simplifier.p=σ(wTx+b) σ p=σ(wTxτ) τ
En considérant uniquement le premier terme de la perte, . Supposons que tout , car toute autre chose signifierait que est du mauvais côté de la frontière de décision et entraînerait une perte infinie comme . Puisque le terme exponentiel devient très petit dans la limite, nous utilisons l'expansion de premier ordre de taylor pour pour écrire−ylogp=ylog(1+exp(−wTxτ)) wTx>0 x τ→0 log(1+z) −ylogp≈yexp(−wTxτ)
Jusqu'à présent, nous n'utilisions que la perte pour un seul point de données, mais la perte réelle est . Considérez uniquement les étiquettes positives ( ). Cette somme est alors dominée par le terme où est le plus petit (le plus proche de la frontière de décision).∑iyiexp(−wTxiτ) yi=1 wTxi
Cela peut être vu parce que le rapport entre le terme et le terme est qui va à l'infini ou à 0 comme , donc seul le plus grand terme importe.i j exp(−wTxi/τ)exp(−wTxj/τ)=exp(wTxj−wTxiτ) τ→0 wTxi
Un argument symétrique peut être utilisé sur le deuxième terme de la perte.
Par conséquent, la perte du problème de régression logistique lorsque la température passe à 0 est minimisée en maximisant la distance minimale à la frontière de décision.
la source