Analyse discriminante linéaire et données non distribuées normalement

8

Si je comprends bien, une analyse discriminante linéaire (LDA) suppose des données distribuées normales, des caractéristiques indépendantes et des covariances identiques pour chaque classe pour le critère d'optimalité.

Puisque la moyenne et la variance sont estimées à partir des données d'entraînement, n'est-ce pas déjà une violation?

J'ai trouvé une citation dans un article (Li, Tao, Shenghuo Zhu et Mitsunori Ogihara. « Using Discriminant Analysis for Multi-Class Classification: An Experimental Investigation ». Knowledge and Information Systems 10, no. 4 (2006): 453–72 .)

"L'analyse discriminante linéaire obtient fréquemment de bonnes performances dans les tâches de reconnaissance du visage et des objets, même si les hypothèses de matrice de covariance commune entre les groupes et de normalité sont souvent violées (Duda, et al., 2001)"

- malheureusement, je n'ai pas trouvé la section correspondante dans Duda et. Al. "Classification des motifs".

Avez-vous des expériences ou des réflexions sur l'utilisation de la LDA (par rapport à la LDA régularisée ou à la QDA) pour des données non normales dans un contexte de réduction de dimensionnalité?

amibe
la source
1
Vous posez des questions spécifiques sur le LDA multi-classes. Qu'est-ce qui vous fait penser que les LDA multi-classes et LDA à deux classes se comportent différemment à cet égard (en violation de la normalité et / ou des hypothèses de covariance communes)?
amoeba
Si je ne manque pas quelque chose ici, il devrait être basé sur les mêmes hypothèses, non? Je n'ai tout simplement pas vu d'hypothèses dans le document de Rao concernant la normalité, mais j'ai généralisé la question

Réponses:

12

Voici ce que Hastie et al. avoir à dire à ce sujet (dans le contexte de l'ADL à deux classes) dans Les éléments de l'apprentissage statistique, section 4.3:

Étant donné que cette dérivation de la direction LDA via les moindres carrés n'utilise pas d'hypothèse gaussienne pour les entités, son applicabilité s'étend au-delà du domaine des données gaussiennes. Cependant, la dérivation de l'ordonnée à l'origine ou du point de coupure donné dans (4.11) nécessite des données gaussiennes. Il est donc logique de choisir à la place le point de coupure qui minimise empiriquement l'erreur d'apprentissage pour un ensemble de données donné. C'est quelque chose que nous avons trouvé pour bien fonctionner dans la pratique, mais nous n'avons pas vu cela mentionné dans la littérature.

Je ne comprends pas bien la dérivation via les moindres carrés auxquels ils se réfèrent, mais en général [Mise à jour: je vais le résumer brièvement à un moment donné] Je pense que ce paragraphe a du sens: même si les données sont très non gaussiennes ou de classe les covariances sont très différentes, l'axe LDA produira probablement encore une certaine discriminabilité. Cependant, le point de coupure sur cet axe (séparant deux classes) donné par LDA peut être complètement décalé. L'optimiser séparément peut améliorer considérablement la classification.

Notez que cela se réfère uniquement aux performances de classification. Si tout ce que vous recherchez est la réduction de dimensionnalité, alors l'axe LDA est tout ce dont vous avez besoin. Donc, je suppose que pour la réduction de la dimensionnalité, LDA fera souvent un travail décent même si les hypothèses sont violées.

En ce qui concerne rLDA et QDA: rLDA doit être utilisé s'il n'y a pas suffisamment de points de données pour estimer de manière fiable la covariance intra-classe (et est vital dans ce cas). Et QDA est une méthode non linéaire, donc je ne sais pas comment l'utiliser pour réduire la dimensionnalité.

amibe
la source
Merci encore pour ces commentaires précieux et approfondis! Je vais laisser la question ouverte pendant quelques jours pour recueillir plus d'opinions
Peu de jours se sont écoulés :)
amoeba
Puis-je savoir que dans le contexte de la réduction de la dimensionnalité en utilisant LDA / FDA. LDA/FDA can start with n dimensions and end with k dimensions, where k < n. Est-ce exact? Ou La sortie estc-1 where c is the number of classes and the dimensionality of the data is n with n>c.
aan