Quelle est la relation entre l'analyse discriminante linéaire et la règle de Bayes? Je comprends que la LDA est utilisée dans la classification en essayant de minimiser le rapport entre la variance intra-groupe et entre la variance entre groupes, mais je ne sais pas comment la règle de Bayes l'utilise.
12
Réponses:
La classification dans la LDA se déroule comme suit (approche de la règle de Bayes). [À propos de l'extraction de discriminants, on pourrait regarder ici .]
Selon le théorème de Bayes, la probabilité recherchée de traiter avec la classe tout en observant actuellement le point x est P ( k | x ) = P ( k ) ∗ P ( x | k ) / P ( x ) , oùk X P( k | x ) = P( k ) ∗ P( x | k ) / P( x )
- probabilité inconditionnelle (de fond) de classe k ; P ( x ) - probabilité inconditionnelle (de fond) du point x ; P ( x | k ) - probabilité de présence du point x dans la classe k , si la classe traitée est k .P( k ) k P( x ) X P( x | k ) X k k
"Observer actuellement le point " étant la condition de base, P ( x ) = 1 , et donc le dénominateur peut être omis. Ainsi, P ( k | x ) = P ( k ) ∗ P ( x | k ) .X P( x ) = 1 P(k|x)=P(k)∗P(x|k)
est une probabilité antérieure (pré-analytique) que la classe native pour x est k ; P ( k ) est spécifié par l'utilisateur. Habituellement, par défaut, toutes les classes reçoivent P ( k ) = 1 / nombre_de_classeségal. Afin de calculer P ( k | x ) , c'est-à-dire la probabilité postérieure (post-analytique) que la classe native pour x est k , il faut connaître P ( x | k ) .P(k) x k P(k) P(k) P(k|x) x k P(x|k)
- probabilité ensoi- ne peut être trouvée, pour les discriminants, le principal problème de la LDA, ce sont les variables continues et non discrètes. La quantité exprimant P ( x | k ) dans ce cas et proportionnelle à celle-ci est ladensité de probabilité(fonction PDF). Par la présente, nous devons calculer PDF pour le point x dans la classe k , P D F ( x | k ) , dansla distribution normaleà p dimensions formée par les valeurs de pP(x|k) P(x|k) x k PDF(x|k) p p discriminants. [Voir Wikipedia Distribution normale multivariée]
où - la distance de Mahalanobis au carré [Voir Wikipedia Mahalanobis distance] dans l'espace des discriminants du point x à un centroïde de classe; S - matrice de covariance entre les discriminants , observée dans cette classe.d x S
Calculez ainsi pour chacune des classes. P ( k ) ∗ P D F ( x | k ) pour le point x et la classe k expriment pour nous le P ( k ) ∗ P ( x | k ) recherché. Mais avec la réserve ci-dessus que le PDF n'est pas une probabilité en soi, seulement proportionnelle à celle-ci, nous devrions normaliser P ( k ) ∗ P DPDF(x|k) P(k)∗PDF(x|k) x k P(k)∗P(x|k) , en divisant par la somme de P ( k ) ∗ P D F ( x | k ) s sur toutes les classes. Par exemple, s'il y a 3 classes en tout, k , l , m , alorsP(k)∗PDF(x|k) P(k)∗PDF(x|k) k l m
Le point est attribué par LDA à la classe pour laquelle P ( k | x ) est le plus élevé.x P(k|x)
Remarque. C'était l'approche générale. De nombreux programmes LDA utilisent par défaut la matrice S regroupée au sein d'une classe pour toutes les classes dans la formule PDF ci-dessus. Si tel est le cas, la formule se simplifie considérablement car un tel S dans LDA est une matrice d'identité (voir la note de bas de page ici ), et donc | S | = 1 et d se transforme en distance euclidienne au carré (rappel: le regroupement au sein de la classe S dont nous parlons est des covariances entre les discriminants, - pas entre les variables d'entrée, laquelle matrice est généralement désignée par S w ).S S |S|=1 d S Sw
Addition . Avant que l' approche de la règle de Bayes ci-dessus ne soit introduite dans la LDA, Fisher, pionnier de la LDA, a proposé de calculer les fonctions de classification linéaires désormais appelées Fisher pour classer les points dans la LDA. Pour le point le score de fonction d'appartenance à la classe k est une combinaison linéaire b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k , où V 1 ,x k bkv1V1x+bkv2V2x+...+Constk sont les variables prédictives de l'analyse.V1,V2,...Vp
Coefficient , g étant le nombre de classes et s v w étant l'élément de la matrice de diffusion groupée intra-classe de p variables V.bkv=(n−g)∑pwsvwV¯kw g svw p V
.Constk=log(P(k))−(∑pvbkvV¯kv)/2
Le point est attribué à la classe pour laquelle son score est le plus élevé. Les résultats de classification obtenus par cette méthode de Fisher (qui contourne l' extraction des discriminants impliqués dans la composition complexe des eigendes) ne sont identiques à ceux obtenus par la méthode de Bayes que si la matrice de covariance regroupée au sein de la classe est utilisée avec la méthode de Bayes basée sur les discriminants (voir "Remarque" ci-dessus) et tous les discriminants sont utilisés dans la classification. La méthode de Bayes est plus générale, car elle permet également d'utiliser des matrices intra-classe distinctes .x
la source
la source