J'étudie l'analyse discriminante, mais j'ai du mal à concilier plusieurs explications différentes. Je crois que je dois manquer quelque chose, car je n'ai jamais rencontré ce niveau (apparent) de divergence auparavant. Cela étant dit, le nombre de questions sur l'analyse discriminante sur ce site Web semble être un témoignage de sa complexité.
LDA et QDA pour plusieurs classes
Mon manuel principal est Johnson & Wichern Applied Multivariate Statistical Analysis (AMSA) et les notes de mon professeur basées sur cela. J'ignorerai le paramètre à deux groupes, car je pense que les formules simplifiées de ce paramètre sont à l'origine d'une certaine confusion. Selon cette source, la LDA et la QDA sont définies comme une extension paramétrique (en supposant une normalité multivariée) d'une règle de classification basée sur le coût attendu d'une mauvaise classification (ECM). L'ECM additionne le coût conditionnel prévu pour classer une nouvelle observation x dans n'importe quel groupe (en incorporant les coûts de classification erronée et les probabilités antérieures) et nous choisissons des régions de classification qui minimisent cela. où
Soi-disant, cette règle de classification est équivalente à "celle qui maximise les probabilités postérieures" (sic AMSA), ce que je ne peux que supposer est l'approche des Bayes que j'ai vue mentionnée. Est-ce correct? Et l'ECM est une méthode plus ancienne, car je ne l'ai jamais vue ailleurs.
Pour les populations normales, cette règle se simplifie en un score discriminant quadratique: .
Cela semble équivalent à Les éléments d'apprentissage statistique (ESL) Formule 4.12 à la page 110, bien qu'ils décrivent comme une discriminante quadratique fonction plutôt que d' une partition . De plus, ils arrivent ici grâce au log-ratio des densités multivariées (4,9). Est-ce encore un autre nom pour l'approche de Bayes?
Lorsque nous supposons une covariance égale, la formule se simplifie encore davantage par rapport au score discriminant linéaire .
Cette formule diffère de l'ESL (4.10), où le premier terme est inversé: . La version d'anglais langue seconde est celle qui figure dans l' apprentissage statistique en R . De plus, dans la sortie SAS présentée dans AMSA, une fonction discriminante linéaire est décrite consistant en une constante et un coefficient vecteur , apparemment cohérent avec la version ESL.
Quelle pourrait être la raison de cet écart?
Discriminants et méthode de Fisher
Remarque: si cette question est jugée trop importante, je supprimerai cette section et ouvrirai une nouvelle question, mais elle s'appuie sur la section précédente. Toutes mes excuses pour le mur de texte, j'ai fait de mon mieux pour le structurer quelque peu, mais je suis sûr que ma confusion à propos de cette méthode a conduit à des sauts de logique plutôt étranges.
Le livre de l'AMSA décrit ensuite la méthode du pêcheur, également pour plusieurs groupes. Cependant, ttnphns a souligné à plusieurs reprises que la FDA est simplement LDA avec deux groupes. Qu'est-ce que cette FDA multiclasse alors? Peut-être que la FDA peut avoir plusieurs significations?
L'AMSA décrit les discriminants de Fisher comme les vecteurs propres de qui maximisent le rapport . Les combinaisons linéaires sont alors les discriminants échantillons (dont il y a ). Pour la classification, nous choisissons le groupe k avec la plus petite valeur pour où r est le nombre de discriminants que nous aimerions utiliser. Si nous utilisons tous les discriminants, cette règle serait équivalente à la fonction discriminante linéaire.
De nombreuses explications sur le LDA semblent décrire la méthodologie qui est appelée FDA dans le livre AMSA, c'est-à-dire à partir de cet aspect de variabilité entre / au sein. Qu'entend-on alors par FDA sinon la décomposition des matrices BW?
C'est la première fois que le manuel mentionne l'aspect de réduction de dimension de l'analyse discriminante, alors que plusieurs réponses sur ce site soulignent la nature en deux étapes de cette technique, mais que ce n'est pas clair dans un cadre à deux groupes car il n'y a que 1 discriminant. Compte tenu des formules ci-dessus pour les LDA et QDA multiclasses, il ne me semble toujours pas où les discriminants apparaissent.
Ce commentaire m'a particulièrement laissé perplexe, notant que la classification de Bayes pouvait essentiellement être effectuée sur les variables d'origine. Mais si la FDA et la LDA sont mathématiquement équivalentes comme souligné par le livre et ici , la réduction de dimensionnalité ne devrait-elle pas être inhérente aux fonctions ? Je crois que c'est ce que ce dernier lien aborde, mais je ne suis pas tout à fait sûr.
Les notes de cours de mon professeur continuent d'expliquer que la FDA est essentiellement une forme d'analyse de corrélation canonique. Je n'ai trouvé qu'une autre source qui parle de cet aspect, mais il semble encore une fois être étroitement lié à l'approche de Fisher de décomposer la variabilité entre et à l'intérieur. SAS présente un résultat dans sa procédure LDA / QDA (DISCRIM) qui est apparemment lié à la méthode de Fisher ( https://stats.stackexchange.com/a/105116/62518 ). Cependant, l'option FDA de SAS (CANDISC) effectue essentiellement une corrélation canonique, sans présenter ces soi-disant coefficients de classification de Fisher. Il présente des coefficients canoniques bruts qui, je crois, sont équivalents aux vecteurs propres W-1B de R obtenus par lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Les coefficients de classification semblent être obtenus à partir de la fonction discriminante que j'ai décrite dans ma section LDA et QDA (car il y a 1 fonction par population et nous choisissons la plus grande).
Je serais reconnaissant pour toutes les clarifications ou références à des sources qui pourraient m'aider à voir la forêt à travers les arbres. La principale cause de ma confusion semble être que différents manuels appellent des méthodes sous des noms différents ou présentent une légère variation des mathématiques, sans reconnaître les autres possibilités, bien que je suppose que cela ne devrait pas être une surprise compte tenu de l'âge du livre AMSA .
If we use all the discriminants this rule would be equivalent to the linear discriminant function
Pas clair. «Discriminant» et «fonction discriminante» sont synonymes. Vous pouvez utiliser tous les discriminants ou seulement quelques-uns des plus forts / importants. Je ne me suis pas tourné vers le livre AMSA mais je soupçonne que FDA = LDA, pour les auteurs. En fait, je pense personnellement que «Fisher LDA» serait un terme excédentaire et inutile.Extract the discriminants -> classify by them all (using Bayes approach, as usual)
quand, comme d'habitude par défaut, la matrice de covariance regroupée au sein de la classe des discriminants est utilisée dans la classification.W^-1B
puis faire des "Bayes". Il est équivalent, mais moins flexible (vous ne pouvez pas sélectionner seulement quelques-uns des discriminants, vous ne pouvez pas utiliser des matrices de covariance distinctes lors de la classification, etc.).Réponses:
Je ne m'adresse qu'à un aspect de la question, et je le fais intuitivement sans algèbre.
Si les classes ont les mêmes matrices variance-covariance et ne diffèrent que par le déplacement de leurs centroïdes dans l' espace dimensionnel, alors elles sont complètement linéairement séparables dans le "sous-espace" . C'est ce que fait LDA. Imaginez que vous avez trois ellipsoïdes identiques dans l'espace des variables . Vous devez utiliser les informations de toutes les variables afin de prédire l'appartenance à la classe sans erreur. Mais du fait que ces nuages étaient de taille identique et orientés, il est possible de les redimensionner par une transformation commune en boules de rayon unitaire. Alorsg p q=min(g−1,p) V1,V2,V3 q=g−1=2 des dimensions indépendantes suffiront pour prédire l'appartenance à une classe aussi précisément qu'autrefois. Ces dimensions sont appelées fonctions discriminantes . Ayant 3 boules de points de même taille, vous n'avez besoin que de 2 lignes axiales et de connaître les coordonnées du centre des boules afin d'attribuer correctement chaque point.D1,D2
Les discriminants sont des variables non corrélées, leurs matrices de covariance intra-classe sont idéalement identitaires (les boules). Les discriminants forment un sous-espace de l'espace des variables d'origine - ce sont leurs combinaisons linéaires. Cependant, ce ne sont pas des axes de type rotation (PCA): vu dans l'espace des variables d'origine, les discriminants car les axes ne sont pas mutuellement orthogonaux .
Ainsi, sous l'hypothèse d'homogénéité des variances-covariances intra-classe LDA utilisant pour la classification tous les discriminants existants n'est pas pire que la classification immédiate par les variables d'origine. Mais vous n'êtes pas obligé d'utiliser tous les discriminants. Vous ne pouvez utiliser que premier parmi les plus forts / statistiquement significatifs. De cette façon, vous perdez un minimum d'informations pour la classification et la mauvaise classification sera minimale. Vue sous cet angle, la LDA est une réduction de données similaire à la PCA, uniquement supervisée.m<q
Notez qu'en supposant l'homogénéité (+ normalité multivariée) et à condition que vous envisagiez d'utiliser mais tous les discriminants dans la classification, il est possible de contourner l' extraction des discriminants eux-mêmes - ce qui implique un problème propre généralisé - et de calculer les soi-disant «fonctions de classification de Fisher» à partir des variables directement, afin de classer avec elles , avec le résultat équivalent. Ainsi, lorsque les classes sont de forme identique, nous pourrions considérer les variables d'entrée ou les fonctions de Fisher ou les discriminants comme tous des ensembles équivalents de "classificateurs". Mais les discriminants sont plus pratiques à plusieurs égards.g p g q 1
Puisque généralement les classes ne sont pas des "ellipses identiques" en réalité, la classification par les discriminants est quelque peu plus faible que si vous effectuez la classification de Bayes par toutes les variables d'origine. Par exemple, sur ce tracé, les deux ellipsoïdes ne sont pas parallèles l'un à l'autre; et on peut comprendre visuellement que le seul discriminant existant ne suffit pas pour classer les points aussi précisément que le permettent les deux variables. Une QDA (analyse quadratique discriminante) serait alors une meilleure approximation que la LDA. Une approche pratique à mi-chemin entre LDA et QDA consiste à utiliser des discriminants LDA mais à utiliser leurs matrices de covariance de classes séparées observées lors de la classification ( voir , voirq p ) au lieu de leur matrice regroupée (qui est l'identité).
(Et oui, la LDA peut être considérée comme étroitement liée, même dans un cas spécifique, à la MANOVA et à l'analyse de corrélation canonique ou à la régression multivariée à rang réduit - voir , voir , voir .)
la source