Analyse discriminante linéaire pour

9

J'étudie «Introduction à l'apprentissage statistique» par James, Witten, Hastie, Tibshirani.

À la page 139 de leur livre, ils ont commencé par présenter le théorème de Bayes . n'est pas une constante mathématique, mais indique la probabilité antérieure. Rien n'est étrange dans cette équation.pk(X)=P(Oui=k|X=X)=πkFk(X)l=1kπlFl(X)π

Le livre prétend qu'il veut obtenir une estimation de qu'il puisse brancher dans l'équation donnée ci-dessus. Pour estimer , il suppose que c'est normal. Dans le cadre unidimensionnel, , où et sont la moyenne et la variance pour la ème classe. On suppose que . (J'ai commencé à me perdre dans la dernière déclaration.)Fk(X)Fk(X)Fk(X)=12πσexp(-12σ2(X-μk)2)μkσk2kσ12=σ22==σK2

En Fk dans pX , vous avez cette équation assez compliquée (1):

pX(k)=πk12πσexp(-12σ2(X-μk)2)l=1Kπl12πσexp(-12σ2(X-μl)2).

Encore une fois, pas de surprise ici car il ne s'agit que de substitution.


Le classificateur de Bayes consiste à attribuer une observation à la classe pour laquelle l'équation (1) est la plus grande. En prenant le log de l'équation (1) et en réarrangeant les termes, il n'est pas difficile de montrer que cela équivaut à attribuer l'observation à la classe pour laquelle ce qui suit est le plus grand:

δk(X)=Xμkσ2-μk22σ2+Journal(πk)

Question: Je ne comprends pas d'où cela vient et ce que cela signifie. J'ai essayé de faire le log de l'équation et ça ne devient pas ça. Prenons-nous la dérivée quelque part ici, puisque c'est la plus grande observation?

cgo
la source

Réponses:

5

Vous pouvez exprimer l'équation (1) jusqu'à une constante de proportionnalité,

pX(k)πk12πσexp(-12σ2(X-μk)2)

donc si vous prenez ensuite des journaux

JournalpX(k)Journalπk-Journal(2πσ)-12σ2(X-μk)2

où va à nouveau dans la constante de proportionnalité car elle ne dépend pas de . Développez ensuite le terme au carré et vous y êtes (notez que l'extension du crochet donnera un autre terme qui disparaîtra dans ).-Journal(2πσ)k

Andy
la source
J'ai ri en lisant ta réponse. C'est aussi simple que ça?! Brillant! Puis-je savoir ce que signifie la quantité (en termes simples)? Mon expérience en statistiques est médiocre, mais je suis capable de suivre les mathématiques. δk(X)
cgo
2
Oui, c'est tout ce qu'il y a à faire. est appelée la fonction discriminante linéaire. C'est juste une façon différente d'écrire la probabilité postérieure qu'une observation appartient à la classe étant donné sa caractéristique . Donc, choisir la classe avec la probabilité postérieure la plus élevée de la règle de Bayes revient à choisir la classe avec la valeur la plus élevée pour la LDA. Vous pouvez définir pour calculer la limite de décision bayésienne (qui donne un seuil pour quand une observation doit être classée comme ou ). δk(X)kXδk(X)=δl(X)kl
Andy