Un collègue en statistique appliquée m'a envoyé ceci:
"Je me demandais si vous connaissiez un moyen de découvrir la vraie dimension du domaine d'une fonction. Par exemple, un cercle est une fonction unidimensionnelle dans un espace bidimensionnel. Si je ne sais pas dessiner, y a-t-il un statistique que je peux calculer qui me dit qu'il s'agit d'un objet unidimensionnel dans un espace bidimensionnel? Je dois le faire dans des situations de grande dimension, donc je ne peux pas dessiner. Toute aide sera grandement appréciée. "
La notion de dimension ici est évidemment mal définie. Je veux dire, je pourrais exécuter une courbe à travers toute collection finie de points dans un espace de grande dimension, et dire que mes données sont unidimensionnelles. Mais, selon la configuration, il peut y avoir un moyen plus simple ou plus efficace de décrire les données comme un ensemble de dimensions supérieures.
Ces questions doivent avoir été prises en compte dans la littérature statistique, mais je ne la connais pas. Des conseils ou des suggestions? Merci!
Composantes principales L'analyse des données locales est un bon point de départ. Nous devons cependant veiller à distinguer la dimension locale (intrinsèque) de la dimension globale (extrinsèque). Dans l'exemple des points sur un cercle, la dimension locale est 1, mais dans l'ensemble, les points dans le cercle se trouvent dans un espace 2D. Pour appliquer PCA à cela, l'astuce consiste à localiser : sélectionner un point de données et extraire uniquement ceux qui en sont proches. Appliquer PCA à ce sous-ensemble. Le nombre de grandes valeurs propres suggérera la dimension intrinsèque. Le répéter à d'autres points de données indiquera si les données présentent une dimension intrinsèque constante partout. Si oui, chacun des résultats de l'ACP fournit un atlas partiel du collecteur.
la source
Je ne suis pas sûr de la partie «domaine d'une fonction», mais Hausdorff Dimension semble répondre à cette question. Il a l'étrange propriété d'être d'accord avec des exemples simples ( par exemple, le cercle a la dimension de Hausdorff 1), mais de donner des résultats non intégraux pour certains ensembles («fractales»).
la source
Je recommande fortement de lire cette enquête: Camastra, F. (2003). Méthodes d'estimation de la dimensionnalité des données: une enquête. Reconnaissance de formes , 36 (12), 2945-2954 .
Pour effectuer cette estimation, j'ai trouvé une très bonne boîte à outils dans matlab Matlab Toolbox for Dimensionality Reduction . En plus des techniques de réduction de dimensionnalité, la boîte à outils contient des implémentations de 6 techniques d'estimation de dimensionnalité intrinsèque
la source