Régression logistique pour multiclasse

J'ai obtenu le modèle de régression logistique pour multiclasses qui est donné par

P (Y = j | X^{(i)}) = \frac{\exp (θ_{j}^{T} X^{(i)})}{1 + \sum_{m = 1}^{k} \exp (θ_{m}^{T} X^{(i)})}

$P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^TX^{(i)})}{1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})}$

où k est le nombre de classes thêta est le paramètre à estimer j est la jième classe Xi est les données d'entraînement

Eh bien, je n'ai pas compris comment le dénominateur partie normalisé le modèle. Je veux dire que la probabilité reste entre 0 et 1.

1 + \sum_{m = 1}^{k} \exp (θ_{m}^{T} X^{(i)})

$1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})$

Je veux dire que je suis habitué à la régression logistique étant

P (Y = 1 | X^{(i)}) = 1 / (1 + \exp (- θ^{T} X^{(i)}))

$P(Y=1|X^{(i)}) = 1/ (1 + \exp(-\theta^T X^{(i)}))$

En fait, je suis confus avec la question de la nomination. Dans ce cas, car il s'agit d'une fonction sigmoïde, elle ne laisse jamais la valeur inférieure à 0 ou supérieure à 1. Mais je suis confus dans le cas de plusieurs classes. Pourquoi en est-il ainsi?

Ceci est ma référence https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-F February/ 029738.html . Je pense que cela aurait dû être de normaliser

P (Y = j | X^{(i)}) = \frac{\exp (θ_{j}^{T} X^{(i)})}{\sum_{m = 1}^{k} \exp (θ_{m}^{T} X^{(i)})}

$P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^T X^{(i)})}{\sum_{m=1}^{k} \exp(\theta_m^T X^{(i)})}$

logistic multinomial user34790
la source

Astuce: Dans la régression logistique, il y a implicitement deux probabilités à traiter: la probabilité et la probabilité . Ces probabilités doivent totaliser .

Y = 1

$Y=1$

Y = 0

$Y=0$

1

$1$

whuber

Sur la base de certains de vos autres articles, vous savez comment baliser les équations. Les équations de texte ici sont difficiles à lire et les (indices?) Prêtent à confusion - pouvez-vous les marquer avec ?

L A T E X

$\LaTeX$

Macro

Parce que vous postez tellement de questions ici, veuillez faire une pause et lire notre FAQ sur la façon de poser de bonnes questions. Lisez l'aide pour balisage afin de rendre vos équations lisibles.

T E X

$\TeX$

whuber

J'ai édité l'équation. @ Whuber En fait, je suis confus lié à la régression logistique multiclasse non binaire. Je me demande comment se fait-il que lorsque j'ajoute tous les éléments dans le donominateur a normalisé la probabilité

user34790

@ user34790, lorsque vous divisez chaque terme par la somme, les probabilités de classe individuelles sont égales à 1. Qu'est-ce que au fait?

X^{(i)}

$X^{(i)}$

Macro

Réponses:

Votre formule est fausse (la limite supérieure de la somme). Dans la régression logistique avec classes ( ), vous créez essentiellement des modèles de régression logistique binaire où vous choisissez une classe comme référence ou pivot. Habituellement, la dernière classe est sélectionnée comme référence. Ainsi, la probabilité de la classe de référence peut être calculée parLa forme générale de la probabilité estComme la -ième classe est votre référence et donc $K$ $K> 2$ $K-1$ $K$

P (y_{i} = K | x_{i}) = 1 - \sum_{k = 1}^{K - 1} P (y_{i} = k | x_{i}) .

$P(y_i = K | x_i) = 1 - \sum_{k=1}^{K-1} P(y_i = k | x_i) .$

P (y_{i} = k | x_{i}) = \frac{\exp (θ_{i}^{T} x_{i})}{\sum_{i = 1}^{K} \exp (θ_{i}^{T} x_{i})} .

$P(y_i = k | x_i) = \frac{\exp(\theta_i^T x_i)}{\sum_{i=1}^K \exp(\theta_i^T x_i)} .$

K

$K$

θ_{K} = (0, \dots, 0)^{T}

$\theta_K = (0, \ldots, 0)^T$

\sum_{i = 1}^{K} \exp (θ_{i}^{T} x_{i}) = \exp (0) + \sum_{i = 1}^{K - 1} \exp (θ_{i}^{T} x_{i}) = 1 + \sum_{i = 1}^{K - 1} \exp (θ_{i}^{T} x_{i}) .

$\sum_{i=1}^K \exp(\theta_i^T x_i) = \exp(0) + \sum_{i=1}^{K-1} \exp(\theta_i^T x_i) = 1 + \sum_{i=1}^{K-1} \exp(\theta_i^T x_i) .$ Au final, vous obtenez la formule suivante pour tous les :

k < K

$k < K$

P (y_{i} = k | x_{i}) = \frac{\exp (θ_{i}^{T} x_{i})}{1 + \sum_{i = 1}^{K - 1} \exp (θ_{i}^{T} x_{i})}

$P(y_i = k | x_i) = \frac{\exp(\theta_i^T x_i)}{1 + \sum_{i=1}^{K-1} \exp(\theta_i^T x_i)}$

sebp
la source

notez que le choix de la classe de référence n'est pas important, si vous faites le maximum de vraisemblance. Mais si vous faites une probabilité maximale pénalisée ou une inférence bayésienne, il peut souvent être plus utile de laisser les probabilités sur-paramétrisées et de laisser la pénalité choisir un moyen de gérer la sur-paramétrisation. En effet, la plupart des fonctions de pénalité / a priori ne sont pas invariantes en ce qui concerne le choix de la classe de référence

probabilités

@sebp, il semble que sois un peu déroutant; il serait préférable d'utiliser pour l'observation et une autre lettre pour l' itération de la catégorie .

i

$i$

i

$i$

k

$k$

garej

Je pense que vous êtes confus par une faute de frappe: votre devrait être dans la première équation. Les 1 que vous voyez dans le cas logistique sont en fait s, par exemple, quand il y a un th . $k$ $k-1$ $\exp(0)$ $k$ $\theta=0$

Supposons que . Notez maintenant que vous pouvez passer de la dernière formulation à la version de régression logistique comme Pour plusieurs classes, remplacez simplement le dénominateur dans les deux premières quantités par une somme sur les prédicteurs linéaires exponentiels. $\theta_1 X=b$

\frac{\exp (b)}{\exp (0) + \exp (b)} = \frac{\exp (0)}{\exp (0) + \exp (- b)} = \frac{1}{1 + \exp (- b)}

$\frac{\exp(b)}{\exp(0)+\exp(b)} = \frac{\exp(0)}{\exp(0)+\exp(-b)} = \frac{1}{1+\exp(-b)}$

conjugateprior
la source