Pour une matrice de données donnée (avec des variables dans des colonnes et des points de données dans des lignes), il semble que joue un rôle important dans les statistiques. Par exemple, il s’agit d’une partie importante de la solution analytique des moindres carrés ordinaires. Ou, pour la PCA, ses vecteurs propres sont les principales composantes des données.A T A
Je comprends comment calculer , mais je me demandais s’il existait une interprétation intuitive de ce que cette matrice représente, ce qui conduit à son rôle important?
Réponses:
Géométriquement, la matrice est appelée matrice de produits scalaires (= produits scalaires , = produits internes). Algébriquement, on l'appelle matrice de somme de carrés et de produits croisés ( SSCP ).A′A
Son ème élément diagonal est égal à , où dénote des valeurs dans la ème colonne de et est la somme des lignes. Le -thème élément non diagonal qui s'y trouve est .∑ a 2 ( i ) a ( i ) i A ∑ i j ∑ a ( i ) a ( j )i ∑a2(i) a(i) i A ∑ ij ∑a(i)a(j)
Il existe un certain nombre de coefficients d'association importants et leurs matrices carrées sont appelées similitudes angulaires ou ressemblances de type SSCP:
En divisant la matrice SSCP par , la taille de l’échantillon ou le nombre de lignes de , vous obtenez la matrice MSCP (moyenne-carré-et-produit croisé). La formule paire de cette mesure d'association est donc (avec les vecteurs et étant une paire de colonnes de ).A ∑ x yn A xyA∑xyn x y A
Si vous centrez colonnes (variables) de , puis est la dispersion matrice (ou co-dispersion, si être rigoureux) et est la covariance matrice. La formule de covariance par est avec et désignant des colonnes centrées.A ' A A ' A / ( n - 1 ) Σ c x c yA A′A A′A/(n−1) cxcy∑cxcyn−1 cx cy
Si vous z- standardisez les colonnes de (soustrayez la moyenne de colonne et divisez par l'écart type), alors est la matrice de corrélation de Pearson : la corrélation est la covariance pour les variables normalisées. La formule de corrélation par est avec et désignant des colonnes normalisées. La corrélation est aussi appelée coefficient de linéarité.A ' A / ( n - 1 ) Σ z x z yA A′A/(n−1) zxzy∑zxzyn−1 zx zy
Si vous unitéz les colonnes de échelle (portez leur SS, somme de carrés, à 1), alors est la matrice de similarité cosinus . La formule paire équivalente semble donc être avec et désignant des colonnes normalisées L2 . La similarité des cosinus est également appelée coefficient de proportionnalité.A ' A ∑ u x u y = ∑ x yA A′A uxuy∑uxuy=∑xy∑x2√∑y2√ ux uy
Si vous centrez et unités de compte échelle colonnes , puis est à nouveau la Pearson corrélation matrice, car la corrélation est cosinus pour les variables centrées :A ' A 1 , 2 Σ c u x c u y = Σ c x c yA A′A 1,2 ∑cuxcuy=∑cxcy∑c2x√∑c2y√
A côté de ces quatre mesures d'association principales, citons encore une autre, également basée sur , pour couronner le tout. Elles peuvent être considérées comme des mesures alternatives à la similarité cosinus car elles adoptent une normalisation différente, le dénominateur de la formule:A′A
Le coefficient d' identité [Zegers & ten Berge, 1985] a son dénominateur sous la forme de moyenne arithmétique plutôt que moyenne géométrique: . Il peut être 1 si et seulement si les colonnes comparées de sont identiques. A∑xy(∑x2+∑y2)/2 A
Un autre coefficient utilisable s'appelle le taux de similarité : .∑xy∑x2+∑y2−∑xy=∑xy∑xy+∑(x−y)2
Enfin, si les valeurs dans sont non négatives et que leur somme dans les colonnes est 1 (par exemple, elles sont des proportions), alors est la matrice de fidélité ou le coefficient de Bhattacharyya .√A A−−√′A−−√
la source
La matrice contient tous les produits scalaires de toutes les colonnes . La diagonale contient donc les normes au carré des colonnes. Si vous pensez à la géométrie et aux projections orthogonales sur l'espace des colonnes couvert par les colonnes de rappelez-vous que les normes et les produits internes des vecteurs couvrant cet espace jouent un rôle central dans le calcul de la projection. La régression par les moindres carrés ainsi que les composantes principales peuvent être comprises en termes de projections orthogonales.ATA A A
Notez également que si les colonnes de sont orthonormées, formant ainsi une base orthonormée pour l'espace des colonnes, alors la matrice d'identité.A ATA=I −
la source
@NRH a donné une bonne réponse technique.
Si vous voulez quelque chose de vraiment basique, vous pouvez considérer comme l’équivalent matriciel de pour un scalaire.ATA A2
la source
Une vue importante de la géométrie de est la suivante (le point de vue est fortement souligné dans le livre de Strang sur "l'Algèbre linéaire et ses applications"): Supposons que A soit une du rang k, représentant une carte linéaire . Laissez Col (A) et la ligne (A) la colonne et les espaces mitoyens de . ensuiteA′A m×n A:Rn→Rm A
(a) En tant que vraie matrice symétrique, a une base de vecteurs propres avec des valeurs propres non nulles . Ainsi:(A′A):Rn→Rn {e1,...,en} d1,…,dk
(b) Gamme (A) = Col (A), par définition de Col (A). Donc, A | Row (A) mappe Row (A) en Col (A).
(c) Le noyau (A) est le complément orthogonal de la rangée (A). En effet, la multiplication de matrice est définie en termes de produits scalaires (rangée i) * (col j). (Donc,Av′=0⟺v is in Kernel(A)⟺vis in orthogonal complement of Row(A)
(d) et est un isomorphisme .A(Rn)=A(Row(A)) A|Row(A):Row(A)→Col(A)
[Incidemment, donne la preuve que le rang de la ligne = le rang de la colonne!]
(e) Appliquer (d), est un isomorphismeA′|:Col(A)=Row(A)→Col(A')=Row(A)
(f) En (d) et (e): et A'A mappent la ligne (A) de manière isomorphe sur la ligne (A).A′A(Rn)=Row(A)
la source
Bien qu'il ait déjà été expliqué que a le sens de prendre des produits scalaires, je n’ajouterais qu’une représentation graphique de cette multiplication.ATA
En effet, alors que les lignes de la matrice (et les colonnes de la matrice ) représentent des variables, nous traitons chaque mesure de variable comme un vecteur multidimensionnel. Multiplier la ligne de avec la colonne de équivaut à prendre le produit scalaire de deux vecteurs: - le résultat étant l'entrée à la position à l'intérieur de la matrice .AT A rowp AT colp A dot(rowp,colp) (p,p) ATA
De la même manière, multiplier la ligne de avec la colonne de équivaut au produit du point: , avec le résultat à la position .p AT k A dot(rowp,colk) (p,k)
L'entrée de la matrice résultante a la signification de combien le vecteur est dans la direction du vecteur . Si le produit scalaire des deux vecteurs et est différent de zéro, certaines informations relatives à un vecteur sont portées par un vecteur et inversement.(p,k) ATA rowp colk rowi colj rowi colj
Cette idée joue un rôle important dans l’analyse en composantes principales, dans laquelle nous voulons trouver une nouvelle représentation de notre matrice de données initiale sorte qu’il n’y ait plus d’informations sur une colonne dans une autre colonne . En étudiant PCA plus en profondeur, vous verrez qu’une "nouvelle version" de la matrice de covariance est calculée et qu’elle devient une matrice diagonale que je vous laisse réaliser que ... c’est bien ce que j’ai exprimé dans la phrase précédente.A i j≠i
la source
Il y a des niveaux d'intuition. Pour ceux qui connaissent la notation matricielle instatistique, l’intuition est de la considérer comme un carré de la variable aléatoire: vsx→E[x2] A→ATA
En notation matricielle, un échantillon de la variable aléatoire observations ou une population sont représentés par un vecteur colonne:x xi a=⎡⎣⎢⎢⎢x1x2…xn⎤⎦⎥⎥⎥
Donc, si vous voulez obtenir un échantillon de moyenne du carré de la variable , vous obtenez simplement un produit scalaire , qui est identique à la notation matricielle .x x2¯=a⋅an ATA
Remarquez que si la moyenne d'échantillon de la variable est ZERO, la variance est égale à la moyenne du carré: ce qui est analogue à . C’est la raison pour laquelle, dans l’ACP, vous avez besoin de la moyenne nulle, et pourquoi apparaît, après tout l’ACP consiste à décomposer la matrice de variance de l’ensemble de données.σ2=E[x2] ATA ATA
la source