Analyse discriminante linéaire et règle de Bayes: classification

12

Quelle est la relation entre l'analyse discriminante linéaire et la règle de Bayes? Je comprends que la LDA est utilisée dans la classification en essayant de minimiser le rapport entre la variance intra-groupe et entre la variance entre groupes, mais je ne sais pas comment la règle de Bayes l'utilise.

zca0
la source
Les fonctions discriminantes sont extraites de manière à maximiser la variation entre les groupes et le rapport de variation à l'intérieur des groupes. Cela n'a rien à voir avec la classification, qui est la deuxième étape autonome de la LDA.
ttnphns

Réponses:

16

La classification dans la LDA se déroule comme suit (approche de la règle de Bayes). [À propos de l'extraction de discriminants, on pourrait regarder ici .]

Selon le théorème de Bayes, la probabilité recherchée de traiter avec la classe tout en observant actuellement le point x est P ( k | x ) = P ( k ) P ( x | k ) / P ( x ) , oùkxP(k|x)=P(k)P(x|k)/P(x)

- probabilité inconditionnelle (de fond) de classe k ; P ( x ) - probabilité inconditionnelle (de fond) du point x ; P ( x | k ) - probabilité de présence du point x dans la classe k , si la classe traitée est k .P(k)kP(x)xP(x|k)xkk

"Observer actuellement le point " étant la condition de base, P ( x ) = 1 , et donc le dénominateur peut être omis. Ainsi, P ( k | x ) = P ( k ) P ( x | k ) .xP(x)=1P(k|x)=P(k)P(x|k)

est une probabilité antérieure (pré-analytique) que la classe native pour x est k ; P ( k ) est spécifié par l'utilisateur. Habituellement, par défaut, toutes les classes reçoivent P ( k ) = 1 / nombre_de_classeségal. Afin de calculer P ( k | x ) , c'est-à-dire la probabilité postérieure (post-analytique) que la classe native pour x est k , il faut connaître P ( x | k ) .P(k)xkP(k)P(k)P(k|x)xkP(x|k)

- probabilité ensoi- ne peut être trouvée, pour les discriminants, le principal problème de la LDA, ce sont les variables continues et non discrètes. La quantité exprimant P ( x | k ) dans ce cas et proportionnelle à celle-ci est ladensité de probabilité(fonction PDF). Par la présente, nous devons calculer PDF pour le point x dans la classe k , P D F ( x | k ) , dansla distribution normaleà p dimensions formée par les valeurs de pP(x|k)P(x|k)xkPDF(x|k)ppdiscriminants. [Voir Wikipedia Distribution normale multivariée]

PDF(x|k)=ed/2(2π)p/2|S|)

- la distance de Mahalanobis au carré [Voir Wikipedia Mahalanobis distance] dans l'espace des discriminants du point x à un centroïde de classe; S - matrice de covariance entre les discriminants , observée dans cette classe.dxS

Calculez ainsi pour chacune des classes. P ( k ) P D F ( x | k ) pour le point x et la classe k expriment pour nous le P ( k ) P ( x | k ) recherché. Mais avec la réserve ci-dessus que le PDF n'est pas une probabilité en soi, seulement proportionnelle à celle-ci, nous devrions normaliser P ( k ) P DPDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k) , en divisant par la somme de P ( k ) P D F ( x | k ) s sur toutes les classes. Par exemple, s'il y a 3 classes en tout, k , l , m , alorsP(k)PDF(x|k)P(k)PDF(x|k)klm

P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

Le point est attribué par LDA à la classe pour laquelle P ( k | x ) est le plus élevé.xP(k|x)

Remarque. C'était l'approche générale. De nombreux programmes LDA utilisent par défaut la matrice S regroupée au sein d'une classe pour toutes les classes dans la formule PDF ci-dessus. Si tel est le cas, la formule se simplifie considérablement car un tel S dans LDA est une matrice d'identité (voir la note de bas de page ici ), et donc | S | = 1 et d se transforme en distance euclidienne au carré (rappel: le regroupement au sein de la classe S dont nous parlons est des covariances entre les discriminants, - pas entre les variables d'entrée, laquelle matrice est généralement désignée par S w ).SS|S|=1dSSw

Addition . Avant que l' approche de la règle de Bayes ci-dessus ne soit introduite dans la LDA, Fisher, pionnier de la LDA, a proposé de calculer les fonctions de classification linéaires désormais appelées Fisher pour classer les points dans la LDA. Pour le point le score de fonction d'appartenance à la classe k est une combinaison linéaire b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k , où V 1 ,xkbkv1V1x+bkv2V2x+...+Constk sont les variables prédictives de l'analyse.V1,V2,...Vp

Coefficient , g étant le nombre de classes et s v w étant l'élément de la matrice de diffusion groupée intra-classe de p variables V.bkv=(ng)wpsvwV¯kwgsvwp V

.Constk=log(P(k))(vpbkvV¯kv)/2

Le point est attribué à la classe pour laquelle son score est le plus élevé. Les résultats de classification obtenus par cette méthode de Fisher (qui contourne l' extraction des discriminants impliqués dans la composition complexe des eigendes) ne sont identiques à ceux obtenus par la méthode de Bayes que si la matrice de covariance regroupée au sein de la classe est utilisée avec la méthode de Bayes basée sur les discriminants (voir "Remarque" ci-dessus) et tous les discriminants sont utilisés dans la classification. La méthode de Bayes est plus générale, car elle permet également d'utiliser des matrices intra-classe distinctes .x

ttnphns
la source
C'est l'approche bayésienne non? Quelle est l'approche de Fisher pour cela?
zca0
1
Ajouté à la réponse à votre demande
ttnphns
+1 pour faire la distinction entre l'approche de Bayes et Fisher de la LDA. Je suis un nouveau venu en LDA, et les livres que je lis m'enseignent LDA dans l'approche de Bayes, qui classe en classe K avec le p le plus élevé ( K | X ) , donc je dois calculer tous les p ( K | X ) pour chaque classe K , non? Par l'approche de Fisher, j'ai juste besoin de comprendre les discriminants et leurs coefs correspondants, et pas besoin de calculer le postérieur pour chaque classe, non? XKp(K|X)p(K|X)K
avocat
Et je pense que l'approche des Bayes est plus compréhensible, et pourquoi devons-nous utiliser l'approche de Fisher?
avocat
Nous n'en avons pas besoin. Juste pour une question historique.
ttnphns
1

xf1(x)f2(x)xf1(x)f2(x)f1f2

Michael R. Chernick
la source