Dans cet article , l'auteur relie l'analyse discriminante linéaire (LDA) à l'analyse en composantes principales (ACP). Avec mes connaissances limitées, je ne suis pas en mesure de comprendre comment LDA peut être quelque peu similaire à PCA.
J'ai toujours pensé que LDA était une forme d'algorithme de classification, similaire à la régression logistique. J'apprécierai un peu d'aide pour comprendre comment LDA est similaire à PCA, c'est-à-dire en quoi est-ce une technique de réduction de dimensionnalité.
classification
pca
dimensionality-reduction
discriminant-analysis
canonical-correlation
Victor
la source
la source
Réponses:
Comme je l'ai noté dans le commentaire de votre question, l'analyse discriminante est une procédure composite à deux étapes distinctes - la réduction de la dimensionnalité (supervisée) et la phase de classification. À la réduction de dimensionnalité, nous extrayons des fonctions discriminantes qui remplacent les variables explicatives d'origine. Ensuite, nous classons (généralement par l'approche de Bayes) les observations dans les classes en utilisant ces fonctions.
Certaines personnes ont tendance à ne pas reconnaître cette nature claire en deux étapes de la LDA simplement parce qu'elles ne se sont familiarisées qu'avec la LDA avec 2 classes (appelées analyse discriminante de Fisher ). Dans une telle analyse, une seule fonction discriminante existe et la classification est simple, et donc tout peut être expliqué dans un manuel en un seul "passage" sans inviter les concepts de réduction d'espace et de classification de Bayes.
LDA est étroitement liée à MANOVA. Ce dernier est un côté "surface et large" du modèle linéaire (multivarié) tandis que l'image "en profondeur et focalisée" de celui-ci est une analyse de corrélation canonique (CCA). Le fait est que la corrélation entre deux ensembles de variables multivariées n'est pas unidimensionnelle et s'explique par quelques paires de variables "latentes" appelées variables canoniques.
En tant que réduction de dimensionnalité, le LDA est théoriquement un CCA avec deux ensembles de variables, un ensemble étant les variables d'intervalle "explicatives" corrélées et l'autre ensemble étant les variables fictives (ou autres codées par contraste) représentant les kk - 1 k groupes, les classes d'observations.
Dans l'ACC, nous considérons les deux ensembles de variables corrélées X et Y comme égaux en droits. Par conséquent, nous extrayons des variables canoniques des deux côtés, et elles forment des paires: variate 1 de l'ensemble X et variate 1 de l'ensemble Y avec une corrélation canonique entre elles maximale; puis varions 2 de l'ensemble X et varions 2 de l'ensemble Y avec une corrélation canonique plus petite, etc. nous nous intéressons cependant aux variantes canoniques du côté de l'ensemble explicatif. Celles-ci sont appelées fonctions discriminantes canoniques ou discriminantes .
Les discriminants sont ce qui correspond au maximum aux «lignes» de séparation entre les groupes. Discriminant 1 explique la majeure partie de la séparation; le discriminant 2 sélectionne une partie de la séparation laissée inexpliquée en raison de l'orthogonalité de la séparation précédente; descriminat 3 explique encore quelques restes de séparation orthogonaux aux deux précédents, etc. Dans LDA avec variables d'entrée (dimensions) et k classes, le nombre possible de discriminants (dimensions réduites) est m i n (p k m i n ( k - 1 , p ) voir ).
Pour répéter, c'est en fait l'ACC dans sa nature. LDA avec 3+ classes est même appelé "LDA canonique". Malgré le fait que le CCA et le LDA sont généralement implémentés algorithmiquement quelque peu différemment, du point de vue de l'efficacité du programme, ils sont suffisamment "identiques" pour qu'il soit possible de recalculer les résultats (coefficients, etc.) obtenus dans une procédure sur ceux obtenus dans l'autre. L'essentiel de la spécificité LDA réside dans le domaine du codage des variables catégorielles représentant les groupes. C'est ce même dilemme qui est observé dans (M) ANOVA. Différents schémas de codage conduisent à différentes manières d'interpréter les coefficients.
Étant donné que la LDA (en tant que réduction de la dimensionnalité) peut être comprise comme un cas particulier de l'ACC, vous devez certainement explorer cette réponse en comparant l'ACC avec l'APC et la régression. Le point principal est que le CCA est, dans un sens, plus proche de la régression que du PCA parce que le CCA est une technique supervisée (une combinaison linéaire latente est établie pour corréler avec quelque chose d'extérieur) et le PCA ne l'est pas (une combinaison linéaire latente est dessinée pour résumer l'interne). Ce sont deux branches de la réduction de la dimensionnalité.
En ce qui concerne les mathématiques, vous constaterez peut-être que si les variances des principales composantes correspondent aux valeurs propres du nuage de données (la matrice de covariance entre les variables), les variances des discriminants ne sont pas si clairement liées aux valeurs propres qui sont produites dans LDA. La raison en est que dans LDA, les valeurs propres ne résument pas la forme du nuage de données; ils se rapportent plutôt à la quantité abstraite du rapport de la variation entre les classes à la variation à l'intérieur des classes dans le nuage.
Ainsi, les composants principaux maximisent la variance et les discriminants maximisent la séparation des classes; un cas simple où un PC ne parvient pas à faire la distinction entre les classes assez bien mais une boîte discriminante est ces images. Lorsqu'ils sont tracés sous forme de lignes dans l'espace de caractéristique d'origine, les discriminants n'apparaissent généralement pas orthogonaux (étant néanmoins non corrélés), mais les PC le font.
Note de bas de page pour méticuleux. Comment, dans leurs résultats, LDA est exactement lié à l'ACC . Pour répéter: si vous faites LDA avec des
p
variables et desk
classes et que vous faites CCA avec Set1 comme cesp
variables et Set2 commek-1
des variables indicatrices factices représentant des groupes (en fait, pas nécessairement des variables indicatrices - d'autres types de variables de contraste, comme l' écart ou Helmert - feront l'affaire ), alors les résultats sont équivalents en ce qui concerne les variables canoniques extraites pour Set1 - elles correspondent directement aux fonctions discriminantes extraites dans le LDA. Quelle est la relation exacte, cependant?La "variance regroupée dans la classe" est la moyenne pondérée des variances de groupe avec poids =1 (lire dans le lien d'algèbre LDA), et donc le coefficient de proportionnalité pour passer aux résultats CCA à partir des résultats LDA est simplement
n-1
dans un groupe. En discriminant, cette quantité estLa différence entre CCA et LDA est due au fait que LDA "sait" qu'il existe des classes (groupes): vous indiquez directement les groupes pour calculer l'intérieur et entre les matrices de dispersion. Cela rend les calculs plus rapides et les résultats plus pratiques pour une classification ultérieure par discriminants. CCA, d'autre part, n'est pas au courant des classes et traite les données comme si elles étaient toutes des variables continues - ce qui est plus général mais un mode de calcul plus lent. Mais les résultats sont équivalents et j'ai montré comment.
Jusqu'à présent, il a été sous-entendu que les variables muettes
k-1
sont entrées CCA de la manière typique, c'est-à-dire centrées (comme les variables de Set1). On pourrait se demander, est-il possible de saisir tous lesk
nuls et de ne pas les centrer (pour échapper à la singularité)? Oui, c'est possible, mais probablement moins pratique. Il apparaîtra une variable canonique supplémentaire de valeur propre nulle, ses coefficients devraient être jetés. Les autres résultats restent valables. Sauf les df s pour tester la signification des corrélations canoniques. Df pour la 1ère corrélation sera celuip*k
qui est faux et le vrai df, comme dans LDA, l'estp*(k-1)
.la source