"Fisher's Discriminant Analysis" est simplement LDA dans une situation de 2 classes. Lorsqu'il n'y a que 2 classes, les calculs manuels sont réalisables et l'analyse est directement liée à la régression multiple. LDA est l'extension directe de l'idée de Fisher sur la situation de n'importe quel nombre de classes et utilise des dispositifs d'algèbre matricielle (tels que la composition des eigendes) pour le calculer. Ainsi, le terme «analyse discriminante de Fisher» peut être considéré comme obsolète aujourd'hui. "Analyse discriminante linéaire" doit être utilisée à la place. Voir aussi . L'analyse discriminante avec 2+ classes (multi-classes) est canonique par son algorithme (extrait les dicriminants sous forme de variables canoniques); terme rare "Canonical Discriminant Analysis"
Fisher a utilisé ce que l'on appelait alors les «fonctions de classification de Fisher» pour classer les objets après le calcul de la fonction discriminante. De nos jours, une approche plus générale de Bayes est utilisée dans la procédure LDA pour classer les objets.
A votre demande d'explications de LDA je peux vous envoyer à ces mes réponses: extraction en LDA , classement en LDA , LDA parmi les procédures liées . Aussi ceci , ceci , ces questions et réponses.
Tout comme l'ANOVA nécessite une hypothèse de variances égales, LDA nécessite une hypothèse de matrices de variance-covariance égales (entre les variables d'entrée) des classes. Cette hypothèse est importante pour l'étape de classification de l'analyse. Si les matrices diffèrent sensiblement, les observations auront tendance à être attribuées à la classe où la variabilité est plus grande. Pour surmonter le problème, QDA a été inventé. QDA est une modification de LDA qui permet l'hétérogénéité ci-dessus des matrices de covariance des classes.
Si vous avez l'hétérogénéité (détectée par exemple par le test M de Box) et que vous n'avez pas de QDA à portée de main, vous pouvez toujours utiliser LDA dans le régime d'utilisation de matrices de covariance individuelles (plutôt que la matrice regroupée) des discriminants lors de la classification . Cela résout en partie le problème, quoique moins efficacement que dans QDA, car - comme je viens de le souligner - ce sont les matrices entre les discriminants et non entre les variables d'origine (lesquelles matrices différaient).
Laissez-moi analyser vous-même vos exemples de données.
Répondre à la réponse et aux commentaires de @ zyxue
LDA est ce que vous avez défini comme étant la FDA dans votre réponse. Le LDA extrait d' abord des constructions linéaires (appelées discriminants) qui maximisent l'entre-deux à l'intérieur de la séparation, puis les utilise pour effectuer une classification (gaussienne). Si (comme vous le dites) LDA n'était pas lié à la tâche d'extraire les discriminants LDA semblerait être juste un classificateur gaussien, aucun nom "LDA" ne serait nécessaire du tout.
C'est cette étape de classification où la LDA suppose à la fois la normalité et l' homogénéité de variance-covariance des classes. L' étape d' extraction ou de «réduction de dimensionnalité» de la LDA suppose une homogénéité de linéarité et de variance-covariance , les deux hypothèses ensemble rendent la «séparabilité linéaire» réalisable. (Nous utilisons une seule matrice regroupée pour produire des discriminants qui ont donc une matrice de covariance regroupée au sein d'une même classe, ce qui nous donne le droit d'appliquer le même ensemble de discriminants pour classer toutes les classes. Si tous les s sont les mêmes, les covariances de classe sont toutes identiques, l'identité; ce droit de les utiliser devient absolu.)SwSw
Le classificateur gaussien (la deuxième étape de la LDA) utilise la règle de Bayes pour attribuer des observations aux classes par les discriminants. Le même résultat peut être obtenu via les fonctions de classification linéaire de Fisher qui utilisent directement les caractéristiques originales. Cependant, l'approche de Bayes basée sur les discriminants est un peu générale dans la mesure où elle permettra également d'utiliser des matrices de covariance discriminantes de classe distinctes, en plus de la manière par défaut d'en utiliser une, celle mise en commun. Elle permettra également de baser la classification sur un sous-ensemble de discriminants.
Lorsqu'il n'y a que deux classes, les deux étapes de la LDA peuvent être décrites ensemble en un seul passage car «l'extraction latente» et la «classification des observations» se réduisent alors à la même tâche.
Je trouve difficile de convenir que la FDA est LDA pour deux classes comme l'a suggéré @ttnphns.
Je recommande deux belles conférences très instructives sur ce sujet par le professeur Ali Ghodsi:
Pour moi, LDA et QDA sont similaires car ce sont deux techniques de classification avec des hypothèses gaussiennes. Une différence majeure entre les deux est que LDA suppose que les matrices de covariance des caractéristiques des deux classes sont les mêmes, ce qui se traduit par une frontière de décision linéaire. En revanche, QDA est moins strict et permet différentes matrices de covariance de caractéristiques pour différentes classes, ce qui conduit à une frontière de décision quadratique. Voir la figure suivante de scikit-learn pour une idée de l'apparence de la frontière de décision quadratique.
Quelques commentaires sur les sous-parcelles :
D'un autre côté, la FDA est une espèce très différente, n'ayant rien à voir avec l'hypothèse de Gaussion. Ce que la FDA essaie de faire est de trouver une transformation linéaire pour maximiser la distance moyenne entre les classes tout en minimisant la variance intra-classe . La 2e conférence explique magnifiquement cette idée. Contrairement à LDA / QDA, la FDA ne fait pas de classification, bien que les caractéristiques obtenues après transformation trouvées par la FDA puissent être utilisées pour la classification, par exemple en utilisant LDA / QDA, ou SVM ou autres.
la source
FDA doesn't do classification, although the features obtained after transformation found by FDA could be used for classification
je dirais que c'est ce que j'appelle la "phase d'extraction de la LDA". Bien sûr, ces fonctionnalités extraites (les fonctions discriminantes) - vous pouvez les utiliser comme vous le souhaitez. Dans la classification LDA standard, ils sont utilisés comme classificateurs gaussiens.