Quel est le lien entre MANOVA et LDA?

En un mot

MANOVA unidirectionnelle et LDA commencent par décomposer la matrice de dispersion totale en matrice de dispersion intra-classe et matrice de dispersion inter-classes , de telle sorte que . On notera que ceci est tout à fait analogue à la façon dont une ANOVA à sens unique se décompose somme des carrés totale en sommes des carrés intra-classe et entre-classe: . En ANOVA, un rapport est ensuite calculé et utilisé pour trouver la valeur de p: plus ce rapport est grand, plus la valeur de p est petite. MANOVA et LDA composent une quantité multivariée analogue . $\mathbf T$ $\mathbf W$ $\mathbf B$ $\mathbf T = \mathbf W + \mathbf B$ $T$ $T=B+W$ $B/W$ $\mathbf W^{-1} \mathbf B$

À partir d'ici, ils sont différents. Le seul but de MANOVA est de tester si les moyens de tous les groupes sont les mêmes; cette hypothèse nulle signifierait que devrait être similaire en taille à . Ainsi, MANOVA effectue une composition propre de et trouve ses valeurs propres . L'idée est maintenant de tester s'ils sont assez grands pour rejeter le null. Il existe quatre façons courantes de former une statistique scalaire à partir de l'ensemble des valeurs propres . Une façon consiste à prendre la somme de toutes les valeurs propres. Une autre façon consiste à prendre la valeur propre maximale. Dans chaque cas, si la statistique choisie est suffisamment grande, l'hypothèse nulle est rejetée. $\mathbf B$ $\mathbf W$ $\mathbf W^{-1} \mathbf B$ $\lambda_i$ $\lambda_i$

En revanche, LDA effectue la composition propre de et examine les vecteurs propres (et non les valeurs propres). Ces vecteurs propres définissent des directions dans l'espace variable et sont appelés axes discriminants . La projection des données sur le premier axe discriminant présente la séparation de classe la plus élevée (mesurée en ); sur le deuxième - deuxième plus haut; etc. Lorsque LDA est utilisé pour la réduction de dimensionnalité, les données peuvent être projetées, par exemple sur les deux premiers axes, et les autres sont ignorés. $\mathbf W^{-1} \mathbf B$ $B/W$

Voir aussi une excellente réponse de @ttnphns dans un autre fil qui couvre presque le même terrain.

Exemple

Considérons un cas unidirectionnel avec variables dépendantes et groupes d'observations (c'est-à-dire un facteur à trois niveaux). Je vais prendre le jeu de données bien connu de Fisher's Iris et ne considérer que la longueur et la largeur du sépale (pour le rendre bidimensionnel). Voici le nuage de points: $M=2$ $k=3$

Diagramme de dispersion de Fisher Iris

Nous pouvons commencer par calculer séparément les ANOVA avec la longueur / largeur des sépales. Imaginez des points de données projetés verticalement ou horizontalement sur les axes x et y, et une ANOVA unidirectionnelle effectuée pour tester si trois groupes ont les mêmes moyens. Nous obtenons et pour la longueur du sépale, et et pour la largeur du sépale. D'accord, donc mon exemple est assez mauvais car trois groupes sont significativement différents avec des valeurs de p ridicules sur les deux mesures, mais je m'en tiendrai quand même. $F_{2,147}=119$ $p=10^{-31}$ $F_{2,147}=49$ $p=10^{-17}$

Nous pouvons maintenant exécuter LDA pour trouver un axe qui sépare au maximum trois clusters. Comme décrit ci-dessus, nous calculons la matrice de dispersion complète , la matrice de dispersion intra-classe et la matrice de dispersion inter-classe et trouvons vecteurs propres de . Je peux tracer les deux vecteurs propres sur le même nuage de points: $\mathbf{T}$ $\mathbf{W}$ $\mathbf{B}=\mathbf{T}-\mathbf{W}$ $\mathbf{W}^{-1}\mathbf{B}$

Fisher Iris LDA

Les lignes pointillées sont des axes discriminants. Je les ai tracées avec des longueurs arbitraires, mais l'axe le plus long montre le vecteur propre avec une valeur propre plus grande (4.1) et le plus court --- celui avec une valeur propre plus petite (0.02). Notez qu'ils ne sont pas orthogonaux, mais les mathématiques de LDA garantissent que les projections sur ces axes ont une corrélation nulle.

Si nous projetons maintenant nos données sur le premier axe discriminant (le plus long) puis exécutons l'ANOVA, nous obtenons et , ce qui est inférieur à ce qui était auparavant, et est la valeur la plus basse possible parmi toutes les linéaires projections (c'était tout l'intérêt de la LDA). La projection sur le deuxième axe ne donne que . $F=305$ $p=10^{-53}$ $p=10^{-5}$

Si nous exécutons MANOVA sur les mêmes données, nous calculons la même matrice et examinons ses valeurs propres afin de calculer la valeur de p. Dans ce cas, la plus grande valeur propre est égale à 4,1, ce qui est égal à pour ANOVA le long du premier discriminant (en effet, , où est le nombre total de points de données et est le nombre de groupes). $\mathbf{W}^{-1}\mathbf{B}$ $B/W$ $F=B/W \cdot (N-k)/(k-1) = 4.1\cdot 147/2 = 305$ $N=150$ $k=3$

Il existe plusieurs tests statistiques couramment utilisés qui calculent la valeur de p à partir du spectre électronique (dans ce cas, et ) et donnent des résultats légèrement différents. MATLAB me donne le test de Wilks, qui rapporte . Notez que cette valeur est inférieure à ce que nous avions auparavant avec n'importe quelle ANOVA, et l'intuition ici est que la valeur de p de MANOVA "combine" deux valeurs de p obtenues avec des ANOVA sur deux axes discriminants. $\lambda_1=4.1$ $\lambda_2=0.02$ $p=10^{-55}$

Est-il possible d'obtenir une situation inverse: une valeur de p plus élevée avec MANOVA? Oui, ça l'est. Pour cela, nous avons besoin d'une situation où un seul axe de discrimination donne un significatif , et le second ne discrimine pas du tout. J'ai modifié le jeu de données ci-dessus en ajoutant sept points de coordonnées à la classe "verte" (le gros point vert représente ces sept points identiques): $F$ $(8,4)$

Fisher Iris LDA modifié

Le deuxième axe discriminant a disparu: sa valeur propre est presque nulle. Les ANOVA sur deux axes discriminants donnent et . Mais maintenant, MANOVA ne rapporte que , ce qui est un peu plus élevé que ANOVA. L'intuition derrière cela est (je crois) que l'augmentation de la valeur de p de MANOVA explique le fait que nous avons ajusté l'axe discriminant pour obtenir la valeur minimale possible et corrige d'éventuels faux positifs. Plus formellement, on dirait que MANOVA consomme plus de degrés de liberté. Imaginez qu'il y ait 100 variables, et seulement le long de directions on obtient $p=10^{-55}$ $p=0.26$ $p=10^{-54}$ $\sim 5$ $p\approx0.05$ importance; il s'agit essentiellement de tests multiples et ces cinq cas sont de faux positifs, donc MANOVA en tiendra compte et signalera un global non significatif . $p$

MANOVA vs LDA comme apprentissage machine vs statistiques

Cela me semble maintenant l'un des cas exemplaires de la façon dont différentes communautés d'apprentissage automatique et communauté de statistiques abordent la même chose. Chaque manuel sur l'apprentissage automatique couvre LDA, montre de belles images, etc., mais il ne mentionnerait même pas MANOVA (par exemple Bishop , Hastie et Murphy ). Probablement parce que les gens s'y intéressent davantage à la précision de la classification LDA (qui correspond à peu près à la taille de l'effet) et n'ont aucun intérêt à la signification statistique de la différence de groupe. D'un autre côté, les manuels sur l'analyse multivariée discuteraient de MANOVA ad nauseam, fourniraient de nombreuses données tabulées (arrrgh) mais mentionneraient rarement LDA et montreraient encore plus rarement des graphiques (par exempleAnderson ou Harris ; cependant, Rencher & Christensen le font et Huberty & Olejnik est même appelé "MANOVA et analyse discriminante").

MANOVA factorielle

La MANOVA factorielle est beaucoup plus déroutante, mais intéressante à considérer car elle diffère de la LDA en ce sens que la "LDA factorielle" n'existe pas vraiment, et la MANOVA factorielle ne correspond directement à aucune "LDA habituelle".

Envisager une MANOVA bidirectionnelle équilibrée avec deux facteurs (ou variables indépendantes, IV). Un facteur (facteur A) a trois niveaux, et un autre facteur (facteur B) a deux niveaux, ce qui fait "cellules" dans la conception expérimentale (en utilisant la terminologie ANOVA). Par souci de simplicité, je ne considérerai que deux variables dépendantes (DV): $3\cdot 2=6$

MANOVA factorielle

Sur cette figure, les six «cellules» (je les appellerai également «groupes» ou «classes») sont bien séparées, ce qui, bien sûr, se produit rarement dans la pratique. Notez qu'il est évident qu'il y a des effets principaux significatifs des deux facteurs ici, et aussi un effet d'interaction significatif (parce que le groupe supérieur droit est décalé vers la droite; si je le déplaçais vers sa position de "grille", alors il n'y aurait pas effet d'interaction).

Comment fonctionnent les calculs MANOVA dans ce cas?

Tout d' abord, MANOVA calcule mis en commun matrice de dispersion au sein de la classe . Mais la matrice de dispersion entre classes dépend de l'effet que nous testons. Considérons la matrice de dispersion entre classes pour le facteur A. Pour le calculer, nous trouvons la moyenne globale (représentée sur la figure par une étoile) et les moyennes conditionnelles aux niveaux du facteur A (représentés sur la figure par trois croix) . Nous calculons ensuite la dispersion de ces moyennes conditionnelles (pondérées par le nombre de points de données à chaque niveau de A) par rapport à la moyenne globale, pour arriver à . Nous pouvons maintenant considérer une matrice , calculer sa composition numérique et exécuter des tests de signification MANOVA basés sur les valeurs propres. $\mathbf W$ $\mathbf B_A$ $\mathbf B_A$ $\mathbf W^{-1} \mathbf B_A$

Pour le facteur B, il y aura une autre matrice de dispersion entre classes , et de manière analogue (un peu plus compliquée, mais simple), il y aura encore une autre matrice de dispersion entre classes pour l'effet d'interaction, de sorte qu'à la fin, la matrice de dispersion totale est décomposée en un [Notez que cette décomposition ne fonctionne que pour un jeu de données équilibré avec le même nombre de points de données dans chaque cluster. Pour un ensemble de données déséquilibré, ne peut pas être décomposé de manière unique en une somme de trois contributions de facteurs car les facteurs ne sont plus orthogonaux; ceci est similaire à la discussion des SS de type I / II / III dans l'ANOVA.] $\mathbf B_B$ $\mathbf B_{AB}$

T = B_{A} + B_{B} + B_{A B} + W .

$\mathbf T = \mathbf B_A + \mathbf B_B + \mathbf B_{AB} + \mathbf W.$ $\mathbf B$

Maintenant, notre principale question ici est de savoir comment MANOVA correspond à LDA. Il n'y a pas de "LDA factorielle". Considérons le facteur A. Si nous voulions exécuter LDA pour classer les niveaux du facteur A (en oubliant le facteur B dans son ensemble), nous aurions la même matrice entre les classes , mais une matrice de dispersion intra-classe différente (pensez à fusionner deux petits ellipsoïdes à chaque niveau du facteur A sur ma figure ci-dessus). Il en va de même pour d'autres facteurs. Il n'y a donc pas de "LDA simple" qui corresponde directement aux trois tests que MANOVA exécute dans ce cas. $\mathbf B_A$ $\mathbf W_A=\mathbf T - \mathbf B_A$

Cependant, bien sûr, rien ne nous empêche de regarder les vecteurs propres de , et de les appeler "axes discriminants" du facteur A en MANOVA. $\mathbf W^{-1} \mathbf B_A$

amibe dit réintégrer Monica
la source

+1, c'était un bon compte rendu. J'ai changé B^-1 Wpour W^-1 B. Votre image avec des discriminants comme axes est similaire à ma propre intrigue , je crois que vous avez utilisé la même approche "rotation non orthogonale selon les vecteurs propres normalisés".

ttnphns

J'ai trouvé un peu flou

MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive

. MANOVA bien sûr ne sait pas que nous faisons de l'ADL. MANOVA consomme simplement plus de df que ANOVA, car il s'agit d'un test bidimensionnel, c'est pourquoi la puissance de la valeur p doit être de -54 au lieu de -55.

ttnphns

Je doute que cela devrait parler en termes de valeurs p. Au lieu de cela, le point clé selon lequel MANOVA analyse la même matrice W^-1 Bque le LDA. LDA en construit des variables latentes (les discriminants). MANOVA ne fait pas; cependant, il étudie la matrice ci-dessus de manière plus complète, en calculant diverses statistiques (telles que la trace de Pillai, la trace de Hotteling) pour en baser les tests.

ttnphns

L'intrigue qui sera la métaphore de MANOVA (et je pense que vous voudrez peut-être l'ajouter à votre réponse) contrairement à LDA (votre 2ème photo) serait l'intrigue sur laquelle les 3 centroïdes sont connectés au grand centroïde par des lignes en pointillés .

ttnphns

Enfin, je ne pense pas que vous ayez une bonne pondération pour la différence de statistiques et d'apprentissage automatique. J'ai appris l'analyse des données statistiques avant d'entendre un mot machine learningla première fois. Et les textes que j'ai lus ont ensuite discuté de LDA, tout comme MANOVA.

ttnphns

Quel est le lien entre MANOVA et LDA?

Réponses:

En un mot

Exemple

MANOVA vs LDA comme apprentissage machine vs statistiques

MANOVA factorielle