J'utilise l'ACP pour analyser plusieurs séries temporelles spatialement liées, et il semble que le premier vecteur propre correspond à la dérivée de la tendance moyenne de la série (exemple illustré ci-dessous). Je suis curieux de savoir pourquoi le premier vecteur propre se rapporte à la dérivée de la tendance par opposition à la tendance elle-même?
Les données sont organisées dans une matrice où les lignes sont les séries chronologiques pour chaque entité spatiale et les colonnes (et à leur tour les dimensions dans l'ACP) sont les années (c'est-à-dire dans l'exemple ci-dessous, 10 séries chronologiques chacune de 7 ans). Les données sont également centrées sur la moyenne avant l'ACP.
Stanimirovic et al., 2007 arrivent à la même conclusion, mais leur explication est un peu au-delà de ma compréhension de l'algèbre linéaire.
[Mise à jour] - ajout de données comme suggéré.
[Update2] - RÉPONDU. J'ai trouvé que mon code n'utilisait pas correctement la transposition de la matrice de vecteur propre lors du traçage des résultats ( excel_walkthrough ) (merci @amoeba). Il semble que ce soit juste une coïncidence que la relation vecteur transposition-vecteur propre / dérivée existe pour cette configuration particulière. Comme décrit mathématiquement et intuitivement dans ce post, le premier vecteur propre est en effet lié à la tendance sous-jacente et non à sa dérivée .
la source
Réponses:
Ignorons le centrage moyen pendant un moment. Une façon de comprendre les données consiste à visualiser chaque série chronologique comme étant approximativement un multiple fixe d'une "tendance" globale, qui est elle-même une série chronologique (avec nombre de périodes). J'y ferai référence ci-dessous comme «ayant une tendance similaire».x=(x1,x2,…,xp)′ p=7
En écrivant pour ces multiples (avec le nombre de séries chronologiques), la matrice de données est approximativementϕ=(ϕ1,ϕ2,…,ϕn)′ n=10
Les valeurs propres PCA (sans centrage moyen) sont les valeurs propres de
car n'est qu'un nombre. Par définition, pour toute valeur propre et tout vecteur propre correspondant ,ϕ′ϕ λ β
où encore une fois le nombre peut être commuté avec le vecteur . Soit la plus grande valeur propre, donc (sauf si toutes les séries temporelles sont identiques à zéro à tout moment) .x′β x λ λ>0
Comme le côté droit de est un multiple de et le côté gauche est un multiple non nul de , le vecteur propre doit également être un multiple de .(1) x β β x
En d'autres termes, lorsqu'un ensemble de séries chronologiques est conforme à cet idéal (que toutes sont des multiples d'une série chronologique commune), alors
Il existe une valeur propre positive unique dans l'ACP.
Il existe un espace propre correspondant unique couvert par la série temporelle commune .x
Familièrement, (2) dit "le premier vecteur propre est proportionnel à la tendance".
"Centrage moyen" dans PCA signifie que les colonnes sont centrées. Étant donné que les colonnes correspondent aux temps d'observation des séries chronologiques, cela revient à supprimer la tendance temporelle moyenne en fixant séparément la moyenne de toutes les séries temporelles à zéro à chacun des temps. Ainsi, chaque série temporelle est remplacée par un résiduel , où est la moyenne de . Mais c'est la même situation que précédemment, en remplaçant simplement les par leurs écarts par rapport à leur valeur moyenne.n p ϕix (ϕi−ϕ¯)x ϕ¯ ϕi ϕ
A l' inverse, quand il est unique très grande valeur propre dans l'APC, nous retenons un seul élément principal et une approximation de la matrice près de données d' origine . Ainsi, cette analyse contient un mécanisme pour vérifier sa validité:X
Cette conclusion s'applique à la fois à l'ACP sur les données brutes et à l'ACP sur les données centrées sur la (colonne) moyenne.
Permettez-moi d'illustrer. À la fin de cet article, il y a dux ϕ
R
code pour générer des données aléatoires selon le modèle utilisé ici et analyser leur premier PC. Les valeurs de et sont probablement qualitativement celles indiquées dans la question. Le code génère deux lignes de graphiques: un "tracé d'éboulis" montrant les valeurs propres triées et un tracé des données utilisées. Voici un ensemble de résultats.Les données brutes apparaissent en haut à droite. Le tracé d'éboulis en haut à gauche confirme que la plus grande valeur propre domine toutes les autres. Au-dessus des données, j'ai tracé le premier vecteur propre (premier composant principal) sous la forme d'une ligne noire épaisse et la tendance générale (les moyennes par le temps) sous la forme d'une ligne rouge en pointillés. Ils coïncident pratiquement.
Les données centrées apparaissent en bas à droite. Vous maintenant la "tendance" dans les données est une tendance à la variabilité plutôt qu'au niveau. Bien que le tracé d'éboulis soit loin d'être agréable - la plus grande valeur propre ne prédomine plus - néanmoins le premier vecteur propre fait un bon travail pour retracer cette tendance.
la source
La dérivée des données (~ première différence) supprime les dépendances ponctuelles dans les données qui sont dues à la non-stationnarité (cf. ARIMA). Ce que vous récupérez ensuite est approximativement le signal stationnaire stable, que je suppose que le SVD récupère.
la source