Je comprends que l'analyse en composantes principales (ACP) peut être appliquée essentiellement pour les données transversales. PCA peut-il être utilisé pour les données de séries temporelles efficacement en spécifiant l'année comme variable de série temporelle et en exécutant PCA normalement? J'ai trouvé que l'APC dynamique fonctionne pour les données de panel et le codage dans Stata est conçu pour les données de panel et non pour les séries chronologiques. Existe-t-il un type spécifique d'ACP qui fonctionne sur les données de séries chronologiques?
Mise à jour.Permettez-moi de vous expliquer en détail.
Je construis actuellement un indice pour les infrastructures en Inde avec des variables comme la longueur des routes, la longueur des itinéraires ferroviaires, la capacité de production d'électricité, le nombre d'abonnés au téléphone, etc. J'ai 12 variables sur 22 ans pour 1 pays. Bien que j'aie examiné des articles qui appliquent l'APC sur des séries chronologiques et même des données de panel, l'ACP est conçue pour des données transversales qui supposent une hypothèse. Les données du panneau et des coupes transversales les violent et PCA ne tient pas compte de la dimension des séries temporelles. J'ai vu que l'APC dynamique n'était appliqué qu'aux données du panneau. Je veux savoir s'il existe une PCA spécifique qui est appliquée sur des séries chronologiques ou qui exécute une PCA statique avec une année définie comme variable de série temporelle fera le travail?
la source
Réponses:
Une approche pourrait être de prendre les premières différences de temps de vos 12 variables pour assurer la stationnarité. Calculez ensuite le12×12 matrice de covariance et effectuez l'ACP dessus. Ce sera une sorte de PCA moyenne sur toute la période, et ne dira rien sur la façon dont les différents timelags s'influencent mutuellement. Mais cela pourrait être un bon point de départ.
Si vous souhaitez également décomposer le domaine temporel, je vous invite à consulter SSA comme suggéré dans les commentaires.
Lorsque vos séries sont (supposées) stationnaires, une seule matrice de covariance est significative. Si vos données sont intégrées d'un ordre de 1 ou plus, comme je suppose qu'elles pourraient l'être, l'estimation d'une matrice de covariance unique ne donnera pas de résultats cohérents. Une marche aléatoire est par exemple intégrée d'ordre 1, et la covariance estimée de deux marches aléatoires ne dit rien sur leur co-mouvement, ici la co-intégration analyse de est nécessaire.
Comme suggéré dans les commentaires, le PCA en lui-même ne se soucie pas de la stationnarité, vous pouvez donc alimenter le PCA en n'importe quelle matrice semi-définie positive et la décomposition du PC sera correcte dans un sens PCA.
Mais si votre matrice de covariance estimée ne représente rien de significatif sur les données, alors l'ACP ne le sera bien sûr pas non plus.
la source
Oui, l'ACP sur les séries chronologiques est effectuée tout le temps en ingénierie financière (finance quantitative) et en neurologie.
En neurologie, l'ACP est exécutée sur des séries temporelles pour les potentiels d'action dans différentes bandes de longueurs d'onde obtenues à partir d'un EEG. La transformation des potentiels d'action en vecteurs de score PC orthogonaux (non corrélés) et la saisie des PC dans d'autres analyses est le principal moyen par lequel la puissance statistique a été augmentée dans la modélisation génétique statistique de traits complexes pour la génétique comportementale (puisque les phénotypes pour, par exemple, bipolaire, nouveauté - recherche, schizotypique, schozèphrénie se chevauchent souvent). Les grandes études sur les jumeaux génétiques australiens ont contribué à analyser ces traits qui se chevauchent dans la génétique comportementale, car s'il existe des différences de maladie entre des jumeaux identiques qui sont élevés ensemble (grandissent dans le même ménage), l'inférence causale peut indiquer une exposition dans des environnements différents lorsque ils étaient plus âgés au lieu de leur génétique identique.
la source