L'analyse fonctionnelle des composants principaux (FPCA) est quelque chose sur laquelle je suis tombé et que je n'ai jamais compris. C'est à propos de quoi?
Voir «Une enquête sur l'analyse des composants principaux fonctionnels» par Shang, 2011 , et je cite:
L'ACP rencontre de sérieuses difficultés dans l'analyse des données fonctionnelles en raison de la «malédiction de la dimensionnalité» (Bellman 1961). La «malédiction de la dimensionnalité» provient de la rareté des données dans un espace de grande dimension. Même si les propriétés géométriques de l'ACP restent valables et même si les techniques numériques donnent des résultats stables, la matrice de covariance de l'échantillon est parfois une mauvaise estimation de la matrice de covariance de la population. Pour surmonter cette difficulté, le FPCA fournit un moyen beaucoup plus informatif d'examiner la structure de covariance de l'échantillon que le PCA [...]
Je ne comprends tout simplement pas. Quel est l'inconvénient que ce document décrit? L'APC n'est-elle pas censée être la méthode ultime pour gérer des situations comme la «malédiction de la dimensionnalité»?
Je trouve que "l'ACP fonctionnelle" est une notion inutilement déroutante. Ce n'est pas du tout une chose distincte, c'est une PCA standard appliquée aux séries chronologiques.
FPCA se réfère aux situations où chacune des observations est une série chronologique (c'est-à-dire une "fonction") observée à moments, de sorte que la matrice de données entière est de taille. Habituellement , par exemple, on peut avoir séries chronologiques échantillonnées à points de temps chacune. Le but de l'analyse est de trouver plusieurs "séries temporelles propres" (également de longueur ), c'est-à-dire des vecteurs propres de la matrice de covariance, qui décriraient la forme "typique" de la série temporelle observée.t n × t t ≫ n 20 1000 tn t n × t t ≫ n 20 1000 t
On peut certainement appliquer l'APC standard ici. Apparemment, dans votre citation, l'auteur craint que la série temporelle propre qui en résulte soit trop bruyante. Cela peut arriver en effet! Deux façons évidentes de traiter cela seraient (a) de lisser la série temporelle propre résultante après l'ACP, ou (b) de lisser la série temporelle originale avant de faire l'ACP.
Une approche moins évidente, plus sophistiquée, mais presque équivalente, consiste à approximer chaque série temporelle d'origine avec fonctions de base, réduisant ainsi la dimensionnalité de à . Ensuite, on peut effectuer l'ACP et obtenir les séries temporelles propres approximées par les mêmes fonctions de base. C'est ce que l'on voit généralement dans les tutoriels FPCA. On utilise généralement des fonctions de base lisses (Gaussiennes ou composants de Fourier), donc autant que je sache, cela équivaut essentiellement à l'option simple (b) morte du cerveau ci-dessus.t kk t k
Les tutoriels sur FPCA entrent généralement dans de longues discussions sur la façon de généraliser l'ACP aux espaces fonctionnels de dimensionnalité infinie, mais la pertinence pratique de cela me dépasse totalement , car dans la pratique, les données fonctionnelles sont toujours discrétisées pour commencer.
Voici une illustration tirée du manuel "Functional Data Analysis" de Ramsay et Silverman, qui semble être la monographie définitive sur "l'analyse des données fonctionnelles", y compris le FPCA:
On peut voir que faire PCA sur les "données discrétisées" (points) donne pratiquement la même chose que faire FPCA sur des fonctions correspondantes en base de Fourier (lignes). Bien sûr, on pourrait d'abord faire l'APC discrète et ensuite adapter une fonction dans la même base de Fourier; cela donnerait plus ou moins le même résultat.
PS. Dans cet exemple, qui est un petit nombre avec . Peut-être que ce que les auteurs considèrent comme une "ACP fonctionnelle" dans ce cas devrait se traduire par une "fonction", c'est-à-dire une "courbe lisse", par opposition à 12 points distincts. Mais cela peut être abordé de manière triviale en interpolant puis en lissant les séries temporelles propres résultantes. Encore une fois, il semble que "PCA fonctionnel" n'est pas une chose distincte, c'est juste une application de PCA. n > tt = 12 n > t
la source
J'ai travaillé pendant plusieurs années avec Jim Ramsay à la FDA, donc je peux peut-être ajouter quelques clarifications à la réponse de @ amoeba. Je pense que sur le plan pratique, @amoeba a fondamentalement raison. C'est du moins la conclusion à laquelle j'ai finalement abouti après avoir étudié la FDA. Cependant, le cadre de la FDA donne un aperçu théorique intéressant de la raison pour laquelle le lissage des vecteurs propres est plus qu'un simple effort. Il s'avère que l'optmisation dans l'espace de fonction, soumise à un produit intérieur qui contient une pénalité de lissage, donne une solution dimensionnelle finie de splines de base. La FDA utilise l'espace de fonction de dimension infinie, mais l'analyse ne nécessite pas un nombre infini de dimensions. C'est comme l'astuce du noyau dans les processus gaussiens ou SVM. En fait, cela ressemble beaucoup à l'astuce du noyau.
Le travail original de Ramsay portait sur des situations où l'histoire principale des données est évidente: les fonctions sont plus ou moins linéaires, ou plus ou moins périodiques. Les vecteurs propres dominants de l'ACP standard ne feront que refléter le niveau global des fonctions et la tendance linéaire (ou fonctions sinus), nous indiquant essentiellement ce que nous savons déjà. Les caractéristiques intéressantes résident dans les résidus, qui sont maintenant plusieurs vecteurs propres du haut de la liste. Et puisque chaque vecteur propre suivant doit être orthogonal aux précédents, ces constructions dépendent de plus en plus des artefacts de l'analyse et moins des caractéristiques pertinentes des données. En analyse factorielle, la rotation oblique des facteurs vise à résoudre ce problème. L'idée de Ramsay n'était pas de faire tourner les composants, mais plutôt de changer la définition de l'orthogonalité de manière à mieux refléter les besoins de l'analyse. Cela signifiait que si vous étiez concerné par des composants périodiques, vous lisseriez sur la base deré3- D ré2
On pourrait objecter qu'il serait plus simple de supprimer la tendance avec OLS et d'examiner les résidus de cette opération. Je n'ai jamais été convaincu que la valeur ajoutée de la FDA valait l'énorme complexité de la méthode. Mais d'un point de vue théorique, il convient de considérer les problèmes impliqués. Tout ce que nous faisons pour les données gâche les choses. Les résidus d'OLS sont corrélés, même lorsque les données d'origine étaient indépendantes. Le lissage d'une série chronologique introduit des autocorrélations qui n'étaient pas dans la série brute. L'idée de la FDA était de s'assurer que les résidus que nous obtenions de la décroissance initiale étaient adaptés à l'analyse d'intérêt.
Vous devez vous rappeler que la FDA est née au début des années 80 lorsque les fonctions splines étaient à l'étude active - pensez à Grace Wahba et à son équipe. De nombreuses approches des données multivariées ont émergé depuis lors - comme SEM, analyse de courbe de croissance, processus gaussiens, développements ultérieurs dans la théorie des processus stochastiques, et bien d'autres. Je ne suis pas sûr que la FDA reste la meilleure approche pour les questions qu'elle aborde. D'un autre côté, quand je vois des applications de ce qui est censé être la FDA, je me demande souvent si les auteurs comprennent vraiment ce que la FDA essayait de faire.
la source
Je ne suis pas sûr de FPCA, mais une chose à retenir, c'est que dans des dimensions extrêmement élevées, il y a beaucoup plus "d'espace", et les points dans l'espace commencent à sembler uniformément distribués (c'est-à-dire que tout est loin de tout le reste). À ce stade, la matrice de covariance commencera à sembler essentiellement uniforme et sera très très sensible au bruit. Il devient donc une mauvaise estimation de la "vraie" covariance. Peut-être que le FPCA contourne cela, mais je ne suis pas sûr.
la source