Si je comprends bien, une analyse discriminante linéaire (LDA) suppose des données distribuées normales, des caractéristiques indépendantes et des covariances identiques pour chaque classe pour le critère d'optimalité.
Puisque la moyenne et la variance sont estimées à partir des données d'entraînement, n'est-ce pas déjà une violation?
J'ai trouvé une citation dans un article (Li, Tao, Shenghuo Zhu et Mitsunori Ogihara. « Using Discriminant Analysis for Multi-Class Classification: An Experimental Investigation ». Knowledge and Information Systems 10, no. 4 (2006): 453–72 .)
"L'analyse discriminante linéaire obtient fréquemment de bonnes performances dans les tâches de reconnaissance du visage et des objets, même si les hypothèses de matrice de covariance commune entre les groupes et de normalité sont souvent violées (Duda, et al., 2001)"
- malheureusement, je n'ai pas trouvé la section correspondante dans Duda et. Al. "Classification des motifs".
Avez-vous des expériences ou des réflexions sur l'utilisation de la LDA (par rapport à la LDA régularisée ou à la QDA) pour des données non normales dans un contexte de réduction de dimensionnalité?
Réponses:
Voici ce que Hastie et al. avoir à dire à ce sujet (dans le contexte de l'ADL à deux classes) dans Les éléments de l'apprentissage statistique, section 4.3:
Je ne comprends pas bien la dérivation via les moindres carrés auxquels ils se réfèrent, mais en général[Mise à jour: je vais le résumer brièvement à un moment donné] Je pense que ce paragraphe a du sens: même si les données sont très non gaussiennes ou de classe les covariances sont très différentes, l'axe LDA produira probablement encore une certaine discriminabilité. Cependant, le point de coupure sur cet axe (séparant deux classes) donné par LDA peut être complètement décalé. L'optimiser séparément peut améliorer considérablement la classification.Notez que cela se réfère uniquement aux performances de classification. Si tout ce que vous recherchez est la réduction de dimensionnalité, alors l'axe LDA est tout ce dont vous avez besoin. Donc, je suppose que pour la réduction de la dimensionnalité, LDA fera souvent un travail décent même si les hypothèses sont violées.
En ce qui concerne rLDA et QDA: rLDA doit être utilisé s'il n'y a pas suffisamment de points de données pour estimer de manière fiable la covariance intra-classe (et est vital dans ce cas). Et QDA est une méthode non linéaire, donc je ne sais pas comment l'utiliser pour réduire la dimensionnalité.
la source
LDA/FDA can start with n dimensions and end with k dimensions, where k < n
. Est-ce exact? Ou La sortie estc-1 where c is the number of classes and the dimensionality of the data is n with n>c.