Biais de régression Softmax et probabilités a priori pour des classes inégales

8

J'utilise la régression Softmax pour un problème de classification multi-classes. Je n'ai pas de probabilités antérieures égales pour chacune des classes.

Je sais par régression logistique (régression softmax avec 2 classes) que les probabilités antérieures des classes sont implicitement ajoutées au biais ( ).log(p0/p1)

Habituellement, ce que je fais est de supprimer manuellement ce terme du biais.

Ma question est, quel est le terme correspondant dans le biais de régression softmax?

Merci.

Ran
la source

Réponses:

2

Pour autant que je sache, la justification de l'initialisation du biais softmax est un peu ondulée à la main. La régression softmax de rappel est une estimation de vraisemblance maximale (log) pour , le modèle étant le suivant: Avec l'initialisation du biais, notre intention est de trouver une bonne valeur avec laquelle commence haut. Sous l'hypothèse que nous initialisons avec de petites valeurs proches de 0 et queW,b

yCat(σ(Wx+b));σi(z)=expzijexpzj.
bp(x,y|W,b)p(y|W,b,x)Wy est une étiquette dans , donc: Addition des log-probabilités pour tous les exemples indépendants supposés , a une bonne initialisation pour minimiserait la probabilité totale approximative du journal de données: Le gradient du wrt ci-dessus est , avec le vecteur de comptage de chaque classe. La fonction ci-dessus est également concave,[K]Wx0
logp(y|W,b,x)=k=1K1y=klogσk(Wx+b)logσy(b)
{(xi,yi)}i=1nb
i=1nlogσyi(b)=i=1nbyinlogk=1Kexpbk
bcnσ(b)cNKvoir la question ici sur smooth max pour une preuve.

Les deux faits ci-dessus impliquent qu'un maximum est disponible chaque fois que . Ceci, à son tour, suggère une initialisation viable pour le ème terme du biais est en effet , la proportion d' exemples étiquetés dans l'ensemble d'apprentissage (alias les statistiques marginales). Vous pouvez voir que vous pouvez ajouter n'importe quelle constante à et obtenir également un autre biais de maximisation de vraisemblance; Cependant, une grande échelle obtiendrait la manière d'apprendre . La relation avec le biais logistique n'est pas une coïncidence --- ce tutoriel discute de la similitude.σ(b)=c/nibiblogpiibW

VF1
la source