Quelle est la différence entre l'analyse de données fonctionnelles et l'analyse de données de grande dimension

10

Il existe de nombreuses références dans la littérature statistique aux " données fonctionnelles " (c'est-à-dire les données qui sont des courbes) et, en parallèle, aux " données de haute dimension " (c'est-à-dire lorsque les données sont des vecteurs de grande dimension). Ma question concerne la différence entre les deux types de données.

Lorsque l'on parle de méthodologies statistiques appliquées qui s'appliquent dans le cas 1, cela peut être compris comme une reformulation des méthodologies du cas 2 à travers une projection dans un sous-espace de dimension finie d'un espace de fonctions, il peut s'agir de polynomes, splines, ondelettes, Fourier, ... et traduira le problème fonctionnel en un problème vectoriel de dimension finie (car en mathématique appliquée, tout devient fini à un moment donné).

Ma question est: peut-on dire que toute procédure statistique qui s'applique aux données fonctionnelles peut également être appliquée (presque directement) aux données de grande dimension et que toute procédure dédiée aux données de grande dimension peut être (presque directement) appliquée aux données fonctionnelles?

Si la réponse est non, pouvez-vous illustrer?

MODIFIER / METTRE À JOUR à l'aide de la réponse de Simon Byrne:

  • sparsity (hypothèse de S-clairsemée, ballon et faible ballon pour ) est utilisé comme une hypothèse structurale dans l' analyse statistique dimensionnelle élevée.lplpp<1
  • la "douceur" est utilisée comme hypothèse structurelle dans l'analyse des données fonctionnelles.

D'un autre côté, la transformée de Fourier inverse et la transformée en ondelettes inverse transforment la rareté en douceur, et la douceur est transformée en rareté par ondelette et transformée de Fourier. Cela fait-il la différence critique mentionnée par Simon pas si critique?

Robin Girard
la source
1
Le lissage est une grande partie de l'analyse des données fonctionnelles, et il peut être converti en un problème d'estimation moyenne vectorielle par projection sur une base appropriée (par exemple Fourier ou ondelette), mais il existe d'autres problèmes dans l'analyse des données fonctionnelles en fonction de la structure fonctionnelle qui ne traduis pas aussi facilement. Prenons par exemple la régression fonctionnelle où vous souhaitez prédire une réponse fonctionnelle à partir de covariables.
vqv

Réponses:

12

Les données fonctionnelles impliquent souvent des questions différentes. J'ai lu l'analyse fonctionnelle des données, Ramsey et Silverman, et ils passent beaucoup de temps à discuter de l'enregistrement des courbes, des fonctions de déformation et de l'estimation des dérivées des courbes. Ces questions ont tendance à être très différentes de celles posées par les personnes intéressées à étudier des données de grande dimension.

user549
la source
Complètement d'accord ! les questions posées sont différentes. L'enregistrement, le landmarking, l'estimation des dérivés peuvent découler de la vue fonctionnelle. Cela me convainc! le gros problème avec les données fonctionnelles (telles qu'elles existent dans la littérature statistique) ne serait-il pas qu'elles soient définies sur un ensemble continu mais davantage qu'elles soient indexées sur un ensemble ordonné?
robin girard
Ce n'est pas seulement qu'il est défini sur un ensemble ordonné. Sinon, comment distingueriez-vous l'analyse des séries chronologiques de l'analyse des données fonctionnelles? Je suis d'accord avec @ user549 en ce qu'il se résume aux types de questions qui sont posées. Ils sont spécifiques à la structure des données.
vqv
15

Oui et non. Au niveau théorique, les deux cas peuvent utiliser des techniques et des cadres similaires (un excellent exemple étant la régression des processus gaussiens).

La différence critique réside dans les hypothèses utilisées pour éviter le sur-ajustement (régularisation):

  • Dans le cas fonctionnel, il y a généralement une certaine hypothèse de lissage, en d'autres termes, les valeurs proches les unes des autres devraient être similaires d'une manière systématique. Cela conduit à l'utilisation de techniques telles que les splines, le loess, les processus gaussiens, etc.

  • Dans le cas de grande dimension, il y a généralement une hypothèse de rareté: c'est-à-dire que seul un sous-ensemble des dimensions aura un signal. Cela conduit à des techniques visant à identifier ces dimensions (Lasso, LARS, prieurs à dalles et pointes, etc.)

METTRE À JOUR:

Je n'ai pas vraiment pensé aux méthodes ondelettes / Fourier, mais oui, les techniques de seuillage utilisées pour ces méthodes visent la rareté dans l'espace projeté. À l'inverse, certaines techniques de grande dimension supposent une projection sur un collecteur de dimension inférieure (par exemple, l'analyse des composants principaux), qui est un type d'hypothèse de lissage.

Simon Byrne
la source