Algèbre de LDA. Pouvoir de discrimination de Fisher d'une variable et analyse discriminante linéaire

13

Apparemment,

l'analyse de Fisher vise à maximiser simultanément la séparation entre les classes, tout en minimisant la dispersion à l'intérieur des classes. Une mesure utile du pouvoir de discrimination d'une variable est donc donnée par la quantité diagonale: .Bii/Wii

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Je comprends que la taille ( p x p) du Between ( B ) et intra-classe ( W matrices) sont données par le nombre de variables d'entrée, p. Dans ces conditions, comment peut-il être une "mesure utile du pouvoir de discrimination" d'une seule variable? Au moins deux variables sont nécessaires pour construire les matrices B et W, de sorte que les traces respectives représenteraient plus d'une variable.Bii/Wii

Mise à jour: Ai-je raison de penser que n'est pas une trace sur une trace, où la somme est implicite, mais l'élément de matrice divisé par ? Actuellement, c'est la seule façon de concilier l'expression avec le concept. B i i W i iBii/WiiBiiWii

Catégorie
la source

Réponses:

23

Voici un court récit sur l'analyse discriminante linéaire (LDA) en réponse à la question.

Lorsque nous avons une variable et groupes (classes) pour la discriminer, c'est ANOVA. La puissance de la discrimination de la variable est S S entre les groupes / S S au sein de groupes , ou B / W .kSSbetween groups/SSwithin groupsB/W

Lorsque nous avons variables, c'est MANOVA. Si les variables ne sont pas corrélées ni dans l'échantillon total ni au sein des groupes, le pouvoir de discrimination ci-dessus, N / B , est calculé de manière analogue et pourrait être écrit comme t r a c e ( S b ) / t r a c e ( S w ) , où S w est la matrice de diffusion groupée au sein du groupe (c'est-à-dire la somme des k matrices SSCP des variables, centrées sur le centre de gravité des groupes respectifs); S bpB/Wtrace(Sb)/trace(Sw)Swk p x p Sbest la matrice de dispersion entre les groupes , où S t est la matrice de dispersion pour l'ensemble des données (matrice SSCP des variables centrées sur le grand centroïde. (Une «matrice de dispersion» n'est qu'une matrice de covariance sans écart) par sample_size-1.)=StSwSt

Lorsqu'il existe une certaine corrélation entre les variables - et généralement il y en a - le N / ci-dessus est exprimé par S - 1B/Wqui n'est plus un scalaire mais une matrice. Ceci simplement parce qu'il y apvariables discriminantes cachées derrière cette discrimination «globale» et partiellement partagée.Sw1Sbp

Maintenant, nous pouvons vouloir plonger en MANOVA et décomposer en nouvelles variables latentes mutuellement orthogonales (leur nombre est m i n (Sw1Sb ) appeléesfonctionsdiscriminantesoudiscriminantes- la 1ère étant la plus forte discriminateur, le 2e étant le suivant, etc. Tout comme nous le faisons dans l'analyse des composants Pricipal. Nous remplaçons les variables corrélées originales par des discriminants non corrélés sans perte de pouvoir discriminant. Parce que chaque discriminant suivant est de plus en plus faible, nous pouvons accepter un petit sous-ensemble du premier mmin(p,k1)mdiscriminants sans grande perte de pouvoir discriminant (encore une fois, semblable à la façon dont nous utilisons PCA). C'est l'essentiel du LDA en tant que technique de réduction de la dimensionnalité (le LDA est également une technique de classification de Bayes, mais c'est un sujet entièrement distinct).

LDA ressemble donc à PCA. L'ACP décompose la "corrélation", la LDA décompose la "séparation". Dans LDA, parce que la matrice ci-dessus exprimant la "séparation" n'est pas symétrique, une astuce algébrique de contournement est utilisée pour trouver ses valeurs propres et ses vecteurs propres . La valeur propre de chaque fonction discriminante (une variable latente) est son pouvoir discriminant N / B dont je parlais dans le premier paragraphe. En outre, il convient de mentionner que les discriminants, bien que non corrélés, ne sont pas géométriquement orthogonaux en tant qu'axestracésdans l'espace variable d'origine.1B/W

Quelques sujets potentiellement liés que vous voudrez peut-être lire:

LDA est MANOVA "approfondi" dans l'analyse de la structure latente et est un cas particulier de l'analyse de corrélation canonique (équivalence exacte entre eux en tant que tels ). Comment LDA classe les objets et quels sont les coefficients de Fisher. (Je ne lie que vers mes propres réponses actuellement, si je me souviens bien, mais il y a aussi beaucoup de bonnes et meilleures réponses d'autres personnes sur ce site).


calculs de la phase d'extraction LDAsont les suivants. Les valeurs propres ( L ) de S - 1 w S b sont les mêmes que celles de la matrice symétrique ( U - 1 ) S b U - 1 , où U est laracinedeCholeskyde S w : une matrice triangulaire supérieure par laquelle U U = S w . Quant aux vecteurs propres de S - 1 w1 LSw1Sb(U1)SbU1USwUU=Sw , ils sont donnés par VSw1Sb , où E sont les vecteurs propres de la matrice ci-dessus ( U - 1 ) S b U - 1 . (Remarque: U , étant triangulaire,peut être inversé- en utilisant un langage de bas niveau - plus rapidement qu'en utilisant une fonction générique standard "inv" de packages.)V=U1EE(U1)SbU1U

La méthode de contournement-composition décomposition-de- décrite est réalisée dans certains programmes (dans SPSS, par exemple), tandis que dans d'autres programmes, il existe une méthode de "blanchiment quasi zca" qui, étant un peu plus lente , donne les mêmes résultats et est décrit ailleurs . Pour résumer ici: obtenir une matrice de blanchiment ZCA pour S w - le carré symétrique racine. S - 1 / 2 w (ce qui est fait par eigendecomposition); puis eigendecomposition de S - une / 2 wSw1SbSwSw1/2 (qui est une matrice symétrique)obtientvaleurs propres discriminantesLet vecteurs propresA,sorteles vecteurs propres discriminantesV=S - une / 2 w A. La méthode "quasi zca-blanchiment" peut être réécrite pour être effectuée via la décomposition en valeurs singulières de l'ensemble de données casewise au lieu de travailler avec lesmatrices de dispersionSwetSb; cela ajoute une précision de calcul (ce qui est important dans une situation de quasi-singularité), mais sacrifie la vitesse.Sw1/2SbSw1/2LAV=Sw1/2ASwSb

OK, passons aux statistiques généralement calculées dans LDA. Les corrélations canoniques correspondant aux valeurs propres sont . Alors que la valeur propre d'un discriminant estN/Bde l'ANOVA de ce discriminant, la corrélation canonique au carré estB/T(T = somme totale des carrés) de cette ANOVA.Γ=L/(L+1)B/WB/T

Si vous normalisez (à SS = 1) des colonnes de vecteurs propres alors ces valeurs peuvent être vues comme les cosinus de direction de la rotation des axes-variables en axes-discriminants; ainsi, avec leur aide, on peut tracer des discriminants en tant qu'axes sur le nuage de points défini par les variables d'origine (les vecteurs propres, en tant qu'axes dans l'espace de ces variables, ne sont pas orthogonaux).V

Les coefficients ou poids discriminants non normalisés sont simplement les vecteurs propres à l'échelle. Ce sont les coefficients de prédiction linéaire des discriminants par les variables d'origine centrées. Les valeurs des fonctions discriminantes elles-mêmes (scores discriminants) sontXC, oùXest les variables originales centrées (données multivariées d'entrée avec chaque colonne centrée). Les discriminants ne sont pas corrélés. Et lorsqu'ils sont calculés par la formule ci-dessus, ils ont également la propriété que leur matrice de covariance intra-classe regroupée est la matrice d'identité.C=Nk VXCX

Termes constants optionnels accompagnant les coefficients non standardisés et permettant de décentrer les discriminants si les variables d'entrée avaient des moyennes non nulles sont , où d i a g ( ˉ X )C0=pdiag(X¯)Cdiag(X¯) est le matrice diagonale des moyennes des p variables et est la somme des variables.p

Dans les coefficients discriminants normalisés , la contribution des variables à un discriminant est ajustée au fait que les variables ont des variances différentes et peuvent être mesurées dans différentes unités;(où diag (Sw) est une matrice diagonale avec la diagonale deK=diag(Sw)V ). Bien qu'ils soient «normalisés», ces coefficients peuvent parfois dépasser 1 (donc ne soyez pas confus). Si les variables d'entrée étaient normalisées z dans chaque classe séparément, les coefficients normalisés = ceux non normalisés. Des coefficients peuvent être utilisés pour interpréter les discriminants.Sw

Les corrélations regroupées au sein d'un groupe ("matrice de structure", parfois appelées chargements) entre les variables et les discriminants sont données par R=diag(Sw)1SwV


Voir la sortie complète de la phase d'extraction de l'analyse discriminante des iris données ici .

Lisez cette belle réponse plus tard qui explique un peu plus formellement et détaille les mêmes choses que moi ici.

Cette question traite de la question de la normalisation des données avant de faire l'ADL.

ttnphns
la source
X
1
Oui. Cependant, le mot «approche de Fisher» est ambigu. Cela peut signifier 2 choses: 1) LDA (pour 2 classes) lui-même ; 2) Fonctions de classification de Fisher dans LDA.
ttnphns