Comprendre la régression logistique et la probabilité

12

Comment fonctionne réellement l’estimation des paramètres / la formation de la régression logistique? Je vais essayer de mettre ce que j'ai jusqu'à présent.

  1. La sortie est y la sortie de la fonction logistique sous forme d'une probabilité dépendant de la valeur de x:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. Pour une dimension, la soi-disant cote est définie comme suit:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. logAjoutons maintenant la fonction pour obtenir les W_0 et W_1 sous forme linéaire:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. Passons maintenant à la partie problématique Utilisation de la vraisemblance (Big X est y)
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    Quelqu'un peut-il dire pourquoi nous considérons la probabilité de y = 1 deux fois? puisque:
    P(y=0|x)=1P(y=1|x)

et comment en tirer les valeurs de ω?

Moteur
la source

Réponses:

10

Supposons en général que vous avez décidé de prendre un modèle du formulaire

P(y=1|X=x)=h(x;Θ)

pour un paramètre . Ensuite, vous écrivez simplement la probabilité, c'est-à-direΘ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

ce qui est le même que

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

Vous avez maintenant décidé de `` supposer '' (modèle)

P(y=1|X=x)=σ(Θ0+Θ1x)

σ(z)=1/(1+ez)

il vous suffit donc de calculer la formule de la probabilité et de faire une sorte d'algorithme d'optimisation afin de trouver l' , par exemple, la méthode newtons ou toute autre méthode basée sur un gradient.argmaxΘL(Θ)

Notez que parfois, les gens disent que lorsqu'ils effectuent une régression logistique, ils ne maximisent pas une probabilité (comme nous / vous l'avez fait ci-dessus), mais plutôt qu'ils minimisent une fonction de perte

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

mais notez que .log(L(Θ))=l(Θ)

Il s'agit d'un modèle général dans l'apprentissage automatique: le côté pratique (minimiser les fonctions de perte qui mesurent à quel point un modèle heuristique est `` faux '') est en fait égal au `` côté théorique '' (modélisation explicite avec le symbole , maximisant les quantités statistiques comme probabilités) et en fait, de nombreux modèles qui ne ressemblent pas à des probabilistes (SVM par exemple) peuvent être compris de nouveau dans un contexte probabiliste et sont en fait des maximisations de vraisemblances.P

Fabian Werner
la source
@Werner merci pour votre réponse. Mais j'ai encore besoin d'un éclaircissement. Pourriez-vous s'il vous plaît expliquer à quoi servent les 2 dans la définition de L ( θ ), car pour autant que je le comprenne, je suis intéressé par le cas de y i = 1 . et comment obtenir les valeurs de ω 1 et ω 0 merci beaucoup pour votre aide! L(θ)yi=1ω1ω0
Moteur
@Engine: Le grand «pi» est un produit ... comme un grand Sigma est une somme ... comprenez-vous ou avez-vous besoin de plus de précisions à ce sujet également? Sur la deuxième question: Disons que nous voulons minimiser une fonction f ( x ) = x 2 et nous commençons à x = 3 mais supposons que nous ne savons pas / ne pouvons pas exprimer / ne pouvons pas visualiser f car il est trop compliqué . Maintenant, la dérivée de f est f = 2 x . Fait intéressant, si nous avons raison du minimum x = 0Σf(x)=x2x=3fff=2xx=0il pointe vers la droite et si nous sommes à gauche, il pointe vers la gauche. Mathématiquement, la dérivée pointe dans la direction de l'ascension la plus forte
Fabian Werner
x0fxx1x1=x0+f(x0)f(x1)xx2=x1+f(x1)L(Θ)L(ω)ωL
y=1ωωy=1y=1 y=0
Fabian Werner
8

,yi=1,yi=0

ωω

Maarten Buis
la source
yi=0ω
i=1,y=1Ni=1Ny=1
Il existe de nombreux algorithmes possibles pour maximiser la fonction de vraisemblance. La plus courante, la méthode de Newton-Raphson , consiste en effet à calculer les première et seconde dérivées.
Maarten Buis