Nous utilisons généralement l'ACP comme technique de réduction de la dimensionnalité pour les données où les cas sont supposés être iid
Question: Quelles sont les nuances typiques dans l'application de l'ACP pour des données dépendantes et non iid? Quelles propriétés agréables / utiles de PCA détiennent pour les données iid sont compromises (ou complètement perdues)?
Par exemple, les données pourraient être une série temporelle multivariée, auquel cas on pourrait s'attendre à une autocorrélation ou à une hétéroscédasticité conditionnelle autorégressive (ARCH).
Plusieurs questions connexes sur l'application de l'APC aux données de séries chronologiques ont déjà été posées, par exemple 1 , 2 , 3 , 4 , mais je cherche une réponse plus générale et complète (sans avoir besoin de développer beaucoup sur chaque point individuel).
Edit: Comme indiqué par @ttnphns, PCA lui - même n'est pas une analyse inférentielle. Cependant, on pourrait être intéressé par les performances de généralisation de l'ACP, c'est-à-dire en se concentrant sur la population homologue de l'échantillon d'ACP. Par exemple, comme écrit dans Nadler (2008) :
En supposant que les données données sont un échantillon fini et aléatoire d'une distribution (généralement inconnue), une question théorique et pratique intéressante est la relation entre les résultats de l'échantillon d'ACP calculés à partir de données finies et ceux du modèle de population sous-jacent.
Les références:
- Nadler, Boaz. "Résultats d'approximation d'échantillons finis pour l'analyse en composantes principales: une approche de perturbation matricielle." The Annals of Statistics (2008): 2791-2817.
la source
Réponses:
Vraisemblablement, vous pourriez ajouter le composant temps en tant que fonctionnalité supplémentaire à vos points échantillonnés, et maintenant ils sont iid? Fondamentalement, les points de données d'origine sont conditionnels au temps:
Mais, si nous définissons , alors nous avons:x′i={xi,ti}
... et les échantillons de données sont maintenant mutuellement indépendants.
En pratique, en incluant l'heure en tant qu'entité dans chaque point de données, l'ACP pourrait avoir pour résultat qu'un composant pointe simplement le long de l'axe de l'entité temporelle. Mais si des fonctionnalités sont corrélées avec la fonctionnalité temporelle, un composant peut être constitué d'une ou plusieurs de ces fonctionnalités, ainsi que de la fonctionnalité temporelle.
la source