Si une analyse discriminante linéaire multi-classes (ou je lis parfois plusieurs analyses discriminantes) est utilisée pour la réduction de dimensionnalité (ou la transformation après réduction de dimensionnalité via PCA), je comprends qu'en général une "normalisation du score Z" (ou standardisation) de les fonctionnalités ne seront pas nécessaires, même si elles sont mesurées à des échelles complètement différentes, n'est-ce pas? Puisque LDA contient un terme similaire à la distance de Mahalanobis qui implique déjà des distances euclidiennes normalisées?
Donc, non seulement ce ne serait pas nécessaire, mais les résultats après un LDA sur les fonctionnalités standardisées et non standardisées devraient être exactement les mêmes!?
classification
data-transformation
normalization
standardization
discriminant-analysis
amibe
la source
la source
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
Non, cette déclaration est incorrecte. La question de la normalisation avec LDA est la même que dans toute méthode multivariée. Par exemple, PCA. La distance de Mahalanobis n'a rien à voir avec ce sujet.The issue of standardization with LDA is the same as in any multivariate method
. En fait, avec LDA (par opposition à PCA, par exemple), les résultats ne devraient pas différer, que vous ayez uniquement centré (LDA centre toujours les variables, pour extraire les discriminants) ou normalisé z les données.Réponses:
Le mérite de cette réponse revient à @ttnphns qui a tout expliqué dans les commentaires ci-dessus. Je voudrais quand même apporter une réponse détaillée.
À votre question: les résultats LDA sur les fonctionnalités standardisées et non standardisées seront-ils exactement les mêmes? --- la réponse est oui . Je vais d'abord donner un argument informel, puis procéder à quelques calculs.
Imaginez un ensemble de données 2D montré comme un nuage de points sur un côté d'un ballon (image originale du ballon prise à partir d' ici ):
Ici, les points rouges sont une classe, les points verts sont une autre classe et la ligne noire est la limite de la classe LDA. Maintenant, le redimensionnement des axes ou correspond à l'étirement horizontal ou vertical du ballon. Il est intuitivement clair que même si la pente de la ligne noire changera après un tel étirement, les classes seront exactement aussi séparables qu'auparavant et la position relative de la ligne noire ne changera pas. Chaque observation de test sera affectée à la même classe qu'avant l'étirement. On peut donc dire que l'étirement n'influence pas les résultats de la LDA.x y
Maintenant, mathématiquement, LDA trouve un ensemble d'axes discriminants en calculant des vecteurs propres de , où et sont à l'intérieur d'une classe et entre les classes. matrices de dispersion. De manière équivalente, ce sont des vecteurs propres généralisés du problème des valeurs propres généralisées .W−1B W B Bv=λWv
Considérons une matrice de données centrée avec des variables dans les colonnes et des points de données dans les lignes, de sorte que la matrice de dispersion totale soit donnée par . Standardiser les données revient à mettre à l'échelle chaque colonne de par un certain nombre, c'est-à-dire la remplacer par , où est une matrice diagonale avec des coefficients d'échelle (inverses des écarts-types de chaque colonne) sur la diagonale. Après une telle mise à l'échelle, la matrice de dispersion changera comme suit: , et la même transformation se produira avecX T=X⊤X X Xnew=XΛ Λ Tnew=ΛTΛ Wnew et .Bnew
Soit un vecteur propre du problème d'origine, c'est-à-direSi nous multiplions cette équation par à gauche, et insérons deux côtés avant , nous obtenons c'est-à dire ce qui signifie quev
L'axe discriminant (donné par le vecteur propre) changera, mais sa valeur propre, qui montre à quel point les classes sont séparées, restera exactement la même. De plus, la projection sur cet axe, qui était à l'origine donnée par , sera désormais donnée par , c'est-à-dire qu'il restera également exactement le même (peut-être jusqu'à un facteur d'échelle).Xv XΛ(Λ−1v)=Xv
la source