Régression logistique pour multiclasse

10

J'ai obtenu le modèle de régression logistique pour multiclasses qui est donné par

P(Y=j|X(i))=exp(θjTX(i))1+m=1kexp(θmTX(i))

où k est le nombre de classes thêta est le paramètre à estimer j est la jième classe Xi est les données d'entraînement

Eh bien, je n'ai pas compris comment le dénominateur partie normalisé le modèle. Je veux dire que la probabilité reste entre 0 et 1.

1+m=1kexp(θmTX(i))

Je veux dire que je suis habitué à la régression logistique étant

P(Y=1|X(i))=1/(1+exp(θTX(i)))

En fait, je suis confus avec la question de la nomination. Dans ce cas, car il s'agit d'une fonction sigmoïde, elle ne laisse jamais la valeur inférieure à 0 ou supérieure à 1. Mais je suis confus dans le cas de plusieurs classes. Pourquoi en est-il ainsi?

Ceci est ma référence https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-F February/ 029738.html . Je pense que cela aurait dû être de normaliser

P(Y=j|X(i))=exp(θjTX(i))m=1kexp(θmTX(i))
user34790
la source
2
Astuce: Dans la régression logistique, il y a implicitement deux probabilités à traiter: la probabilité et la probabilité . Ces probabilités doivent totaliser . Y = 0 1Y=1Y=01
whuber
1
Sur la base de certains de vos autres articles, vous savez comment baliser les équations. Les équations de texte ici sont difficiles à lire et les (indices?) Prêtent à confusion - pouvez-vous les marquer avec ? LATEX
Macro
2
Parce que vous postez tellement de questions ici, veuillez faire une pause et lire notre FAQ sur la façon de poser de bonnes questions. Lisez l'aide pour balisage afin de rendre vos équations lisibles. TEX
whuber
J'ai édité l'équation. @ Whuber En fait, je suis confus lié à la régression logistique multiclasse non binaire. Je me demande comment se fait-il que lorsque j'ajoute tous les éléments dans le donominateur a normalisé la probabilité
user34790
@ user34790, lorsque vous divisez chaque terme par la somme, les probabilités de classe individuelles sont égales à 1. Qu'est-ce que au fait? X(i)
Macro

Réponses:

13

Votre formule est fausse (la limite supérieure de la somme). Dans la régression logistique avec classes ( ), vous créez essentiellement des modèles de régression logistique binaire où vous choisissez une classe comme référence ou pivot. Habituellement, la dernière classe est sélectionnée comme référence. Ainsi, la probabilité de la classe de référence peut être calculée parLa forme générale de la probabilité estComme la -ième classe est votre référence et doncK > 2 K - 1 K P ( y i = K | x i ) = 1 - K - 1 k = 1 P ( y i = k | x i ) . P ( y i = k | x i ) = exp ( θ T i x i )KK>2K1K

P(yi=K|xi)=1k=1K1P(yi=k|xi).
KθK=(0,,0)TK i=1exp(θ T i xi)=exp(0)+ K - 1 i=1exp(θ T i xi)
P(yi=k|xi)=exp(θiTxi)i=1Kexp(θiTxi).
KθK=(0,,0)Tk < K P ( y i = k | x i ) = exp ( θ T i x i )
i=1Kexp(θiTxi)=exp(0)+i=1K1exp(θiTxi)=1+i=1K1exp(θiTxi).
Au final, vous obtenez la formule suivante pour tous les : k<K
P(yi=k|xi)=exp(θiTxi)1+i=1K1exp(θiTxi)
sebp
la source
4
notez que le choix de la classe de référence n'est pas important, si vous faites le maximum de vraisemblance. Mais si vous faites une probabilité maximale pénalisée ou une inférence bayésienne, il peut souvent être plus utile de laisser les probabilités sur-paramétrisées et de laisser la pénalité choisir un moyen de gérer la sur-paramétrisation. En effet, la plupart des fonctions de pénalité / a priori ne sont pas invariantes en ce qui concerne le choix de la classe de référence
probabilités
@sebp, il semble que sois un peu déroutant; il serait préférable d'utiliser pour l'observation et une autre lettre pour l' itération de la catégorie . i kiik
garej
4

Je pense que vous êtes confus par une faute de frappe: votre devrait être dans la première équation. Les 1 que vous voyez dans le cas logistique sont en fait s, par exemple, quand il y a un th . k - 1 exp ( 0 ) k θ = 0kk1exp(0)kθ=0

Supposons que . Notez maintenant que vous pouvez passer de la dernière formulation à la version de régression logistique comme Pour plusieurs classes, remplacez simplement le dénominateur dans les deux premières quantités par une somme sur les prédicteurs linéaires exponentiels. exp ( b )θ1X=b

exp(b)exp(0)+exp(b)=exp(0)exp(0)+exp(b)=11+exp(b)
conjugateprior
la source