Propriétés de l'ACP pour les observations dépendantes

Nous utilisons généralement l'ACP comme technique de réduction de la dimensionnalité pour les données où les cas sont supposés être iid

Question: Quelles sont les nuances typiques dans l'application de l'ACP pour des données dépendantes et non iid? Quelles propriétés agréables / utiles de PCA détiennent pour les données iid sont compromises (ou complètement perdues)?

Par exemple, les données pourraient être une série temporelle multivariée, auquel cas on pourrait s'attendre à une autocorrélation ou à une hétéroscédasticité conditionnelle autorégressive (ARCH).

Plusieurs questions connexes sur l'application de l'APC aux données de séries chronologiques ont déjà été posées, par exemple 1 , 2 , 3 , 4 , mais je cherche une réponse plus générale et complète (sans avoir besoin de développer beaucoup sur chaque point individuel).

Edit: Comme indiqué par @ttnphns, PCA lui - même n'est pas une analyse inférentielle. Cependant, on pourrait être intéressé par les performances de généralisation de l'ACP, c'est-à-dire en se concentrant sur la population homologue de l'échantillon d'ACP. Par exemple, comme écrit dans Nadler (2008) :

En supposant que les données données sont un échantillon fini et aléatoire d'une distribution (généralement inconnue), une question théorique et pratique intéressante est la relation entre les résultats de l'échantillon d'ACP calculés à partir de données finies et ceux du modèle de population sous-jacent.

Les références:

Nadler, Boaz. "Résultats d'approximation d'échantillons finis pour l'analyse en composantes principales: une approche de perturbation matricielle." The Annals of Statistics (2008): 2791-2817.

time-series pca non-independent iid Richard Hardy
la source

Juste pour note. L'ACP en soi n'est pas une analyse inférentielle. Il s'agit d'une transformation d'un ensemble de données multivariées de nombres; son noyau est simplement svd ou eigendecomposition. Par conséquent, il ne fait pas d'hypothèse d'indépendance d'observation. Des hypothèses surviennent lorsque nous utilisons l'ACP comme outil statistique pour analyser des échantillons de populations. Mais ce ne sont pas les hypothèses de l'APC. Par exemple, tester la sphéricité pour décider si l'ACP est justifiée pour réduire les données nécessite l'indépendance, et le test peut ressembler à un test d'hypothèse "intra-ACP", mais en réalité il s'agit d'un test "extérieur".

ttnphns

@ttnphns, très bons points, merci. Si vous voyez un bon moyen de modifier mon message, n'hésitez pas à. J'y penserai moi aussi.

Richard Hardy

Richard, votre question est fine et importante (+1). Peut-être que je préfère le reformuler un peu de la manière suivante: "Nous utilisons généralement l'ACP comme une réduction de dimensionnalité pour les données où les cas sont supposés ... Quelles sont les nuances typiques dans l'application de l'APC pour les données de séries chronologiques où les cas (temps points) sont interdépendants ...? "

ttnphns

@amoeba, à droite. Mais nous ne nous arrêtons presque jamais à obtenir les chargements des PC. Dans les étapes qui suivent couramment l'APC, de quoi devrions-nous être conscients en cas de non-iid'ness? J'espère qu'une réponse pourrait être meilleure que la question (dans sa formulation actuelle). Si vous le regardez de manière lâche / créative, vous pourriez peut-être trouver de bons points.

Richard Hardy

L'ACP simple ne respecte que les associations "horizontales" (c'est-à-dire entre les colonnes) et ignore "vertical" (entre les cas): la matrice de covariance des colonnes est la même si vous mélangez l'ordre des cas. Que cela puisse être appelé "aucune hypothèse pour les relations sérielles de cas" ou "hypothèse pour des cas indépendants n'est faite" est une question de goût. L'hypothèse iid est la valeur par défaut dans l'analyse des données, et donc les méthodes qui ne prêtent tout simplement pas une attention particulière à l'ordre des cas, comme l'APC, pourraient être imputées au "support silencieux" de l'hypothèse iid.

ttnphns

Vraisemblablement, vous pourriez ajouter le composant temps en tant que fonctionnalité supplémentaire à vos points échantillonnés, et maintenant ils sont iid? Fondamentalement, les points de données d'origine sont conditionnels au temps:

p (x_{i} ∣ t_{i}) \neq p (x_{i})

$p(\mathbf{x}_i \mid t_i) \ne p(\mathbf{x}_i)$

Mais, si nous définissons , alors nous avons: $\mathbf{x}_i' = \{\mathbf{x}_i, t_i\}$

p (x_{i}^{'} ∣ t_{i}) = p (x_{i}^{'})

$p(\mathbf{x}'_i \mid t_i) = p(\mathbf{x}'_i)$

... et les échantillons de données sont maintenant mutuellement indépendants.

En pratique, en incluant l'heure en tant qu'entité dans chaque point de données, l'ACP pourrait avoir pour résultat qu'un composant pointe simplement le long de l'axe de l'entité temporelle. Mais si des fonctionnalités sont corrélées avec la fonctionnalité temporelle, un composant peut être constitué d'une ou plusieurs de ces fonctionnalités, ainsi que de la fonctionnalité temporelle.

Hugh Perkins
la source

Merci d'avoir répondu. Ce serait un cas très spécial où le temps entre linéairement. Un phénomène plus répandu est, par exemple, l'autocorrélation où le temps lui-même ne joue pas un rôle de caractéristique.

Richard Hardy

OK je vois. Donc, vous voulez dire que, par exemple, l'exemple n'est pas seulement une fonction de certains paramètres , mais dépend également de ? Par conséquent, est Markov, étant donné et ? Alors, pouvons-nous alors ajouter comme fonctionnalité dans l'ACP? (Je ne dis pas que nous pouvons ou ne pouvons pas, je pense vraiment au problème ...)

x_{t}

$x_t$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

x_{t}

$x_t$

x_{t - 1}

$x_{t-1}$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

Hugh Perkins

Quelque chose comme ça, oui, mais sans ajouter comme fonctionnalité parce que je m'intéresse à l'ACP qui est définie sur les variables d'origine ..

x_{t - 1}

$x_{t-1}$

Richard Hardy

Propriétés de l'ACP pour les observations dépendantes

Réponses: