Je connais 2 approches pour faire du LDA, l' approche bayésienne et l' approche de Fisher .
Supposons que nous ayons les données , où est le prédicteur à dimensions et est la variable dépendante des classes
Par approche bayésienne , nous calculons le postérieur , et comme dit dans les livres, supposons que soit gaussien, nous avons maintenant la fonction discriminante pour la ème classe comme , je peux voir que est linéaire fonction de , donc pour toutes les classes , nous avons fonctions discriminantes linéaires.
Cependant, par l'approche de Fisher , nous essayons de projeter à l'espace dimensionnel pour extraire les nouvelles fonctionnalités qui minimisent la variance intra-classe et maximisent la variance inter -classe , disons que la matrice de projection est avec chaque colonne étant une projection direction. Cette approche ressemble plus à une technique de réduction de dimension .( K - 1 ) W
Mes questions sont
(1) Peut-on faire une réduction de dimension en utilisant l'approche bayésienne? Je veux dire, nous pouvons utiliser l'approche bayésienne pour faire une classification en trouvant les fonctions discriminantes qui donne la plus grande valeur pour les nouveaux , mais ces fonctions discriminantes peuvent-elles être utilisées pour projeter vers un sous-espace dimensionnel inférieur ? Tout comme l'approche de Fisher .x ∗ f k ( x ) x
(2) Est-ce que et comment les deux approches sont liées l'une à l'autre? Je ne vois aucune relation entre eux, car l'un semble juste être capable de faire une classification avec la valeur , et l'autre vise principalement la réduction de dimension.
METTRE À JOUR
Grâce à @amoeba, selon le livre ESL, j'ai trouvé ceci:
et ceci est la fonction discriminante linéaire, dérivée via le théorème de Bayes plus en supposant toutes les classes ayant la même matrice de covariance . Et cette fonction discriminante est la MÊME que celle j'ai écrite ci-dessus.f k ( x )
Puis-je utiliser comme direction sur laquelle projeter , afin de réduire les dimensions? Je ne suis pas sûr de cela, puisque AFAIK, la réduction de dimension est obtenue en faisant l' analyse de la variance entre les deux . x
MISE À JOUR ENCORE
De la section 4.3.3, voici comment ces projections ont dérivé:
, et bien sûr, il suppose une covariance partagée entre les classes, c'est-à-dire la matrice de covariance commune (pour la covariance intra-classe) , n'est-ce pas? Mon problème est de savoir comment calculer ce partir des données? Puisque j'aurais différentes matrices de covariance intra-classe si j'essayais de calculer partir des données. Dois-je donc regrouper toutes les covariances de classe pour en obtenir une commune?K W
la source
Réponses:
Je ne fournirai qu'une brève réponse informelle et je vous renvoie à la section 4.3 des Éléments de l'apprentissage statistique pour les détails.
Mise à jour: "Les Éléments" couvrent précisément les questions que vous posez ici, y compris ce que vous avez écrit dans votre mise à jour. La section pertinente est 4.3, et en particulier 4.3.2-4.3.3.
Ils le font certainement. Ce que vous appelez l'approche "bayésienne" est plus général et ne suppose que des distributions gaussiennes pour chaque classe. Votre fonction de vraisemblance est essentiellement la distance de Mahalanobis entre et le centre de chaque classe.x
Vous avez bien sûr raison de dire que pour chaque classe, c'est une fonction linéaire de . Cependant, notez que le rapport des probabilités pour deux classes différentes (que vous allez utiliser pour effectuer une classification réelle, c'est-à-dire choisir entre les classes) - ce rapport ne va pas être linéaire en si différentes classes ont différentes matrices de covariance. En fait, si l'on établit des limites entre les classes, elles se révèlent être quadratiques, c'est pourquoi on l'appelle également analyse discriminante quadratique , QDA.xx x
Un aperçu important est que les équations se simplifient considérablement si l'on suppose que toutes les classes ont une covariance identique [ Mise à jour: si vous l'avez supposée tout au long, cela pourrait avoir fait partie du malentendu] . Dans ce cas, les frontières de décision deviennent linéaires, et c'est pourquoi cette procédure est appelée analyse discriminante linéaire, LDA.
Il faut quelques manipulations algébriques pour réaliser que dans ce cas les formules deviennent en fait exactement équivalentes à ce que Fisher a élaboré en utilisant son approche. Considérez cela comme un théorème mathématique. Voir le manuel de Hastie pour tous les calculs.
Si par «approche bayésienne» vous entendez traiter différentes matrices de covariance dans chaque classe, alors non. Au moins, ce ne sera pas une réduction de dimensionnalité linéaire (contrairement à LDA), à cause de ce que j'ai écrit ci-dessus.
Cependant, si vous êtes heureux de supposer la matrice de covariance partagée, alors oui, certainement, car "l'approche bayésienne" est tout simplement équivalente à LDA. Cependant, si vous cochez Hastie 4.3.3, vous verrez que les projections correctes ne sont pas fournies parΣ - 1 M M μ kΣ−1μk k Σ−1M M μk
la source