Comment dérive l'unité softmax et quelle en est l'implication?

8

J'essaie de comprendre pourquoi la fonction softmax est définie comme telle:

ezjΣk=1Kezk=σ(z)

Je comprends comment cela normalise les données et correspond correctement à une certaine plage (0, 1), mais la différence entre les probabilités de poids varie de manière exponentielle plutôt que linéaire. Y a-t-il une raison pour laquelle nous voulons ce comportement?

De plus, cette équation semble plutôt arbitraire et je pense qu’une grande famille d’équations pourrait satisfaire nos exigences. Je n'ai vu aucune dérivation en ligne, donc je suppose que ce n'est qu'une définition. Pourquoi ne pas choisir une autre définition qui réponde aux mêmes exigences?

Dr.Knowitall
la source
2
Vous pourriez vouloir Google régression logistique et régression multinomiale
seanv507
Recherchez également ce site!
kjetil b halvorsen

Réponses:

5

La distribution catégorique est la distribution hypothétique minimale sur le support "d'un ensemble fini de résultats mutuellement exclusifs" étant donné la statistique suffisante de "quel résultat s'est produit". En d'autres termes, l'utilisation de toute autre distribution serait une hypothèse supplémentaire. Sans aucune connaissance préalable, vous devez supposer une distribution catégorique de ce support et des statistiques suffisantes. C'est une famille exponentielle. (Toutes les distributions hypothétiques minimales pour un support donné et des statistiques suffisantes sont des familles exponentielles.)

La bonne façon de combiner deux croyances basées sur des informations indépendantes est le produit ponctuel de densités en veillant à ne pas compter deux fois les informations antérieures contenues dans les deux croyances. Pour une famille exponentielle, cette combinaison est l'addition de paramètres naturels.

Les paramètres d'attente sont les valeurs attendues de xkxk sont le nombre de fois que vous avez observé le résultat k. Il s'agit de la bonne paramétrisation pour convertir un ensemble d'observations en une distribution de vraisemblance maximale. Vous moyenne simplement dans cet espace. C'est ce que vous voulez lorsque vous modélisez des observations.

La fonction logistique multinomiale est la conversion des paramètres naturels en paramètres d'attente de la distribution catégorielle. Vous pouvez dériver cette conversion comme le gradient du log-normalisateur par rapport aux paramètres naturels.

En résumé, la fonction logistique multinomiale découle de trois hypothèses: un support, une statistique suffisante et un modèle dont la croyance est une combinaison d'informations indépendantes.

Neil G
la source
2

Je sais que c'est un message tardif, mais je pense qu'il serait toujours utile de fournir une justification à ceux qui arrivent ici.

Tu n'as pas tout à fait tort. C'est arbitraire dans une certaine mesure, mais peut-être arbitraire est le mauvais mot. Cela ressemble plus à un choix de conception. Laisse-moi expliquer.

Il s'avère que le Softmax est en fait la généralisation de la fonction Sigmoïde, qui est une unité de sortie Bernoulli (sortie 0 ou 1):

[1+exp(z)]1

Mais d'où vient la fonction sigmoïde, vous pourriez vous demander.

Eh bien, il s'avère que de nombreuses distributions de probabilités différentes, y compris le Bernoulli, la distribution de Poisson, la gaussienne, etc. suivent quelque chose appelé un modèle linéaire généralisé (GLM). Autrement dit, ils peuvent être exprimés en termes de:

P(y;η)=b(y)exp[ηTT(y)a(η)]

Je ne couvrirai pas tous ces paramètres, mais vous pouvez certainement faire des recherches à ce sujet.

Observez l'exemple suivant de la répartition d'une distribution de Bernoulli dans la famille GLM:

P(y=1)=ϕP(y=0)=1ϕP(y)=ϕy(1ϕ)1y=exp(ylog(ϕ)+(1y)log(1ϕ))=exp(ylog(ϕ)+log(1ϕ)ylog(1ϕ))=exp(ylog(ϕ1ϕ)+log(1ϕ))

Vous pouvez voir que dans ce cas,

b(y)=1T(y)=yη=log(ϕ1ϕ)a(η)=log(1ϕ)

Remarquez ce qui se passe lorsque nous résolvons ϕ en terme de η:

η=log(ϕ1ϕ)eη=ϕ1ϕeη=1ϕϕ=1ϕ1eη+1=1ϕϕ=[exp(η)+1]1

Donc pour ϕ=P(y=1), nous prenons le sigmoïde de η. Le choix de conception entre en jeu lorsque nous supposons queη=wTx, où w sont vos poids et x sont vos données, que nous supposons toutes deux être Rn. En faisant cette hypothèse, nous pouvons adapterw approximer ϕ.

Si vous deviez suivre ce même processus pour une distribution Multinoulli, vous finiriez par dériver la fonction softmax.

samuel schreiber
la source