Approches bayésiennes et de Fisher de l'analyse discriminante linéaire

10

Je connais 2 approches pour faire du LDA, l' approche bayésienne et l' approche de Fisher .

Supposons que nous ayons les données , où est le prédicteur à dimensions et est la variable dépendante des classes(x,y)xpyK

Par approche bayésienne , nous calculons le postérieur , et comme dit dans les livres, supposons que soit gaussien, nous avons maintenant la fonction discriminante pour la ème classe comme , je peux voir que est linéaire fonction de , donc pour toutes les classes , nous avons fonctions discriminantes linéaires.

p(yk|x)=p(x|yk)p(yk)p(x)p(x|yk)p(yk)
p(x|yk)k
fk(x)=lnp(x|yk)+lnp(yk)=ln[1(2π)p/2|Σ|1/2exp(12(xμk)TΣ1(xμk))]+lnp(yk)=xTΣ1μk12μkTΣ1μk+lnp(yk)
fk(x)xKKK

Cependant, par l'approche de Fisher , nous essayons de projeter à l'espace dimensionnel pour extraire les nouvelles fonctionnalités qui minimisent la variance intra-classe et maximisent la variance inter -classe , disons que la matrice de projection est avec chaque colonne étant une projection direction. Cette approche ressemble plus à une technique de réduction de dimension .( K - 1 ) Wx(K1)W

Mes questions sont

(1) Peut-on faire une réduction de dimension en utilisant l'approche bayésienne? Je veux dire, nous pouvons utiliser l'approche bayésienne pour faire une classification en trouvant les fonctions discriminantes qui donne la plus grande valeur pour les nouveaux , mais ces fonctions discriminantes peuvent-elles être utilisées pour projeter vers un sous-espace dimensionnel inférieur ? Tout comme l'approche de Fisher .x f k ( x ) xfk(x)xfk(x)x

(2) Est-ce que et comment les deux approches sont liées l'une à l'autre? Je ne vois aucune relation entre eux, car l'un semble juste être capable de faire une classification avec la valeur , et l'autre vise principalement la réduction de dimension.fk(x)

METTRE À JOUR

Grâce à @amoeba, selon le livre ESL, j'ai trouvé ceci: entrez la description de l'image ici

et ceci est la fonction discriminante linéaire, dérivée via le théorème de Bayes plus en supposant toutes les classes ayant la même matrice de covariance . Et cette fonction discriminante est la MÊME que celle j'ai écrite ci-dessus.f k ( x )Σfk(x)

Puis-je utiliser comme direction sur laquelle projeter , afin de réduire les dimensions? Je ne suis pas sûr de cela, puisque AFAIK, la réduction de dimension est obtenue en faisant l' analyse de la variance entre les deux . xΣ1μkx

MISE À JOUR ENCORE

De la section 4.3.3, voici comment ces projections ont dérivé:

entrez la description de l'image ici

, et bien sûr, il suppose une covariance partagée entre les classes, c'est-à-dire la matrice de covariance commune (pour la covariance intra-classe)W , n'est-ce pas? Mon problème est de savoir comment calculer ce partir des données? Puisque j'aurais différentes matrices de covariance intra-classe si j'essayais de calculer partir des données. Dois-je donc regrouper toutes les covariances de classe pour en obtenir une commune?K WWKW

Avocat
la source
1
Votre question mêle deux choses. Je pense que vous n'avez pas digéré notre conversation sur votre question précédente . Ce que vous décrivez en premier est l'approche bayésienne de la classification (et non "l'approche bayésienne de la LDA"). Cette approche peut être utilisée (1) avec des variables originales comme classificateurs ou (2) avec des discriminants obtenus en LDA comme classificateurs. Quelle est alors l'approche de Fisher?
ttnphns
1
(Suite) Eh bien, "LDA de Fisher" est simplement LDA avec K = 2. Lors de la classification dans une telle LDA, Fisher a inventé ses propres formules pour effectuer la classification. Ces formules peuvent également fonctionner pour K> 2. Sa méthode de classification est peu utilisée de nos jours car l'approche bayésienne est plus générale.
ttnphns
1
@ttnphns, la raison pour laquelle je suis confus est parce que presque chaque livre auquel j'ai fait référence parle de LDA en utilisant cette approche bayésienne, donnant la LDA comme modèle génératif, ils ne mentionnent pas le rapport de variance entre les groupes et au sein du groupe. .
avocat
1
@loganecolss: Avez-vous vu ma réponse ci-dessous? Avez-vous des questions à ce sujet? Je suis un peu confus, car je pensais avoir expliqué ce que vous demandez à nouveau dans les commentaires. L'approche de la "variance inter-intra" est mathématiquement équivalente à "l'approche bayésienne" avec une hypothèse de covariances égales. Vous pouvez penser à cela comme un théorème mathématique surprenant, si vous le souhaitez. La preuve en est donnée dans le livre de Hastie qui est disponible gratuitement en ligne, ainsi que dans certains autres manuels d'apprentissage automatique. Je ne sais donc pas ce que "la seule façon authentique de faire de l'ADL" pourrait signifier; ces deux façons identiques.
amoeba
1
@loganecolss: Croyez-moi, ils sont équivalents :) Oui, vous devriez pouvoir dériver les projections, mais vous avez besoin d'une hypothèse supplémentaire de matrices de covariance égales (comme je l'ai écrit dans ma réponse). Voir mon commentaire ci-dessous.
amoeba

Réponses:

11

Je ne fournirai qu'une brève réponse informelle et je vous renvoie à la section 4.3 des Éléments de l'apprentissage statistique pour les détails.

Mise à jour: "Les Éléments" couvrent précisément les questions que vous posez ici, y compris ce que vous avez écrit dans votre mise à jour. La section pertinente est 4.3, et en particulier 4.3.2-4.3.3.

(2) Est-ce que et comment les deux approches sont liées l'une à l'autre?

Ils le font certainement. Ce que vous appelez l'approche "bayésienne" est plus général et ne suppose que des distributions gaussiennes pour chaque classe. Votre fonction de vraisemblance est essentiellement la distance de Mahalanobis entre et le centre de chaque classe.x

Vous avez bien sûr raison de dire que pour chaque classe, c'est une fonction linéaire de . Cependant, notez que le rapport des probabilités pour deux classes différentes (que vous allez utiliser pour effectuer une classification réelle, c'est-à-dire choisir entre les classes) - ce rapport ne va pas être linéaire en si différentes classes ont différentes matrices de covariance. En fait, si l'on établit des limites entre les classes, elles se révèlent être quadratiques, c'est pourquoi on l'appelle également analyse discriminante quadratique , QDA.xxx

Un aperçu important est que les équations se simplifient considérablement si l'on suppose que toutes les classes ont une covariance identique [ Mise à jour: si vous l'avez supposée tout au long, cela pourrait avoir fait partie du malentendu] . Dans ce cas, les frontières de décision deviennent linéaires, et c'est pourquoi cette procédure est appelée analyse discriminante linéaire, LDA.

Il faut quelques manipulations algébriques pour réaliser que dans ce cas les formules deviennent en fait exactement équivalentes à ce que Fisher a élaboré en utilisant son approche. Considérez cela comme un théorème mathématique. Voir le manuel de Hastie pour tous les calculs.

(1) Peut-on faire une réduction de dimension en utilisant l'approche bayésienne?

Si par «approche bayésienne» vous entendez traiter différentes matrices de covariance dans chaque classe, alors non. Au moins, ce ne sera pas une réduction de dimensionnalité linéaire (contrairement à LDA), à cause de ce que j'ai écrit ci-dessus.

Cependant, si vous êtes heureux de supposer la matrice de covariance partagée, alors oui, certainement, car "l'approche bayésienne" est tout simplement équivalente à LDA. Cependant, si vous cochez Hastie 4.3.3, vous verrez que les projections correctes ne sont pas fournies parΣ - 1 M M μ kΣ1μkkΣ1MMμk

amibe
la source
1
+1. Je pourrais également créer un lien vers ma propre réponse mentionnant QDA stats.stackexchange.com/a/71571/3277 .
ttnphns
+1 pour la partie de répondre à ma question 2). Je sais qu'en faisant l' analyse de la variance inter -intra , je pourrais trouver les meilleures directions pour projeter la variable et obtenir ces discriminants. Ce avec quoi je me bats actuellement, est -ce que je pourrais trouver ces directions de projection en utilisant le bayésien, sans faire référence au rapport de variance inter-intra ? X
avocat
@loganecolss: Comme je l'ai dit, vous devez en outre supposer que toutes les classes ont la même matrice de covariance! Ensuite, en commençant par votre approche bayésienne + cette hypothèse, vous pouvez dériver les projections LDA standard. L'idée est de diagonaliser . Ceci est écrit en détail dans Les éléments de l'apprentissage statistique, section 4.3. Σ
amoeba
Je vais lire cette section plus tard. Comme vous l'avez dit, en supposant que toutes les classes ont la même matrice de covariance, je peux dériver une fonction qui est celle que j'ai écrite dans mon post , non? Et est en effet une fonction linéaire de , et selon votre commentaire, devrait être la matrice de projection LDA? f k ( x ) x Σ - 1 μ kfk(x)fk(x)xΣ1μk
avocat
Je mets à jour mon post, en ajoutant un clip de la section 4.3
avocat