Existe-t-il une relation entre la régression et l'analyse discriminante linéaire (LDA)? Quelles sont leurs similitudes et leurs différences? Cela fait-il une différence s'il y a deux classes ou plus de deux classes?
regression
logistic
discriminant-analysis
canonical-correlation
reduced-rank-regression
zca0
la source
la source
Réponses:
Je suppose que la question porte sur la LDA et la régression linéaire (non logistique).
Il existe une relation considérable et significative entre la régression linéaire et l'analyse discriminante linéaire . Dans le cas où la variable dépendante (DV) se compose uniquement de 2 groupes, les deux analyses sont en fait identiques. Malgré le fait que les calculs sont différents et que les résultats - régression et coefficients discriminants - ne sont pas les mêmes, ils sont exactement proportionnels les uns aux autres.
Maintenant pour la situation de plus de deux groupes. Tout d'abord, disons que LDA (son extraction, pas son stade de classification) est équivalent (résultats linéairement liés) à l' analyse de corrélation canonique si vous transformez le regroupement DV en un ensemble de variables fictives (avec une redondante abandonnée) et faites canonique analyse avec les ensembles "IVs" et "dummies". Les variations canoniques du côté de l'ensemble "IV" que vous obtenez sont ce que LDA appelle "fonctions discriminantes" ou "discriminants".
Alors, comment l'analyse canonique est-elle liée à la régression linéaire? L'analyse canonique est par essence une MANOVA (au sens de "régression linéaire multiple multivariée" ou "modèle linéaire général multivarié") approfondie dans la structure latentedes relations entre les DV et les IV. Ces deux variations sont décomposées dans leurs interrelations en "variables canoniques" latentes. Prenons l'exemple le plus simple, Y vs X1 X2 X3. La maximisation de la corrélation entre les deux côtés est une régression linéaire (si vous prédisez Y par Xs) ou - ce qui est la même chose - est MANOVA (si vous prédisez Xs par Y). La corrélation est unidimensionnelle (avec la magnitude R ^ 2 = trace de Pillai) parce que l'ensemble moindre, Y, se compose d'une seule variable. Prenons maintenant ces deux ensembles: Y1 Y2 vs X1 x2 x3. La corrélation maximisée ici est bidimensionnelle car l'ensemble inférieur contient 2 variables. La première et latente dimension latente de la corrélation est appelée la 1ère corrélation canonique, et la partie restante, orthogonale à celle-ci, la 2e corrélation canonique. Alors, MANOVA (ou régression linéaire) demande simplement quels sont les rôles partiels (les coefficients) des variables dans toute la corrélation bidimensionnelle des ensembles; tandis que l'analyse canonique va juste en dessous pour demander quels sont les rôles partiels des variables dans la 1ère dimension corrélationnelle et dans la 2e.
Ainsi, l'analyse de corrélation canonique est une régression linéaire multivariée approfondie dans la structure latente de la relation entre les DV et les IV. L'analyse discriminante est un cas particulier d'analyse de corrélation canonique ( voir exactement comment ). Donc, voici la réponse concernant la relation entre LDA et la régression linéaire dans un cas général de plus de deux groupes.
Notez que ma réponse ne considère pas du tout le LDA comme une technique de classification. Je ne parlais de LDA que comme technique d'extraction des latentes. La classification est la deuxième étape autonome de la LDA (je l'ai décrite ici ). @Michael Chernick se concentrait là-dessus dans ses réponses.
la source
regression formulation of LDA
il est étonnamment difficile de trouver quelque chose - il y a plusieurs articles de recherche publiés après 2000 disant qu'une telle formulation n'existe pas ou essayer d'en suggérer un. Y a-t-il peut-être une bonne [ancienne] référence?Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
.W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
.Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. Si vous ne les trouvez pas sur Internet, je peux vous les envoyer. Si vous trouvez des sources plus nombreuses et meilleures - veuillez nous en informer.Voici une référence à l'un des articles d'Efron: L'efficacité de la régression logistique par rapport à l'analyse discriminante normale , 1975.
Un autre article pertinent est Ng & Jordan, 2001, On Discriminative vs. Generative classifierers: A comparaison of logistic regression and naive Bayes . Et voici un résumé d' un commentaire de Xue & Titterington , 2008, qui mentionne les articles d'O'Neill liés à sa thèse de doctorat:
Il existe de nombreuses autres références à ce sujet que vous pouvez trouver en ligne.
la source
Le but de cette réponse est d'expliquer la relation mathématique exacte entre l'analyse discriminante linéaire (LDA) et la régression linéaire multivariée (MLR). Il s'avérera que le cadre correct est fourni par une régression de rang réduite (RRR).
Nous montrerons que LDA est équivalent à RRR de la matrice d'indicateur de classe blanchie sur la matrice de données.
Notation
Soit la matrice n × d avec les points de données x i en lignes et les variables en colonnes. Chaque point appartient à l'une des k classes ou groupes. Le point x i appartient au numéro de classe g ( i )X n × d xi k xi g(i) .
Soit la matrice indicatrice n × k codant l'appartenance au groupe comme suit: G i j = 1 si x i appartient à la classe j , et G i j = 0 sinon. Il y a n j points de données dans la classe j ; bien sûr ∑ n j = n .G n×k Gij=1 xi j Gij=0 nj j ∑nj=n
Nous supposons que les données sont centrées et que la moyenne globale est donc égale à zéro, . Soit μ j la moyenne de la classe j .μ=0 μj j
LDA
La matrice de diffusion totale peut être décomposée en la somme des matrices de diffusion inter-classe et intra-classe définies comme suit: C bC=X⊤X
On peut vérifier queC=Cb+Cw. LDA recherche des axes discriminants qui ont une variance entre groupes maximale et une variance intra-groupe minimale de la projection. Plus précisément, le premier axe discriminant est le vecteur unitairewmaximisantw⊤Cbw/(w⊤C
En supposant que est de rang complet, la solution LDA W L D A est la matrice des vecteurs propres de C - 1 w C bCw WLDA C−1wCb (ordonnée par les valeurs propres dans l'ordre décroissant).
C'était l'histoire habituelle. Faisons maintenant deux observations importantes.
Régression
Par souci de simplicité, nous commencerons par le cas d'un ensemble de données équilibré.
On peut également montrer que l'ajout de la régularisation des crêtes à la régression de rang réduit équivaut à la LDA régularisée.
Relation entre LDA, CCA et RRR
Bibliographie
Il est difficile de dire qui mérite le mérite de ce qui est présenté ci-dessus.
Il existe un récent document de conférence de Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Regressions qui présente exactement la même preuve que ci-dessus mais donne l'impression d'avoir inventé cette approche. Ce n'est certainement pas le cas. Torre a écrit un traitement détaillé de la façon dont la plupart des méthodes multivariées linéaires courantes peuvent être considérées comme une régression de rang réduite, voir A Least-Squares Framework for Component Analysis , 2009, et un chapitre ultérieur du livre A unification of component analysis methods , 2013; il présente le même argument mais ne donne aucune référence non plus. Ce matériel est également couvert dans le manuel Modern Multivariate Statistical Techniques (2008) par Izenman, qui a introduit le RRR en 1975.
La relation entre LDA et CCA remonte apparemment à Bartlett, 1938, Autres aspects de la théorie de la régression multiple - c'est la référence que je rencontre souvent (mais que je n'ai pas vérifiée). La relation entre le CCA et le RRR est décrite dans Izenman, 1975, régression à rang réduit pour le modèle linéaire multivarié . Donc, toutes ces idées existent depuis un certain temps.
la source
La régression linéaire et l'analyse discriminante linéaire sont très différentes. La régression linéaire relie une variable dépendante à un ensemble de variables prédictives indépendantes. L'idée est de trouver une fonction linéaire dans les paramètres qui correspond le mieux aux données. Elle n'a même pas besoin d'être linéaire dans les covariables. L'analyse discriminante linéaire, d'autre part, est une procédure de classification des objets en catégories. Pour le problème à deux classes, il cherche à trouver le meilleur hyperplan de séparation pour diviser les groupes en deux catégories. Ici, mieux signifie qu'il minimise une fonction de perte qui est une combinaison linéaire des taux d'erreur. Pour trois groupes ou plus, il trouve le meilleur ensemble d'hyperplans (k-1 pour le problème de classe k). Dans l'analyse discriminante, les hypo-avions sont linéaires dans les variables caractéristiques.
La principale similitude entre les deux est le terme linéaire dans les titres.
la source