Estimer la dimension d'un ensemble de données

9

Un collègue en statistique appliquée m'a envoyé ceci:

"Je me demandais si vous connaissiez un moyen de découvrir la vraie dimension du domaine d'une fonction. Par exemple, un cercle est une fonction unidimensionnelle dans un espace bidimensionnel. Si je ne sais pas dessiner, y a-t-il un statistique que je peux calculer qui me dit qu'il s'agit d'un objet unidimensionnel dans un espace bidimensionnel? Je dois le faire dans des situations de grande dimension, donc je ne peux pas dessiner. Toute aide sera grandement appréciée. "

La notion de dimension ici est évidemment mal définie. Je veux dire, je pourrais exécuter une courbe à travers toute collection finie de points dans un espace de grande dimension, et dire que mes données sont unidimensionnelles. Mais, selon la configuration, il peut y avoir un moyen plus simple ou plus efficace de décrire les données comme un ensemble de dimensions supérieures.

Ces questions doivent avoir été prises en compte dans la littérature statistique, mais je ne la connais pas. Des conseils ou des suggestions? Merci!

large-data
la source

7

Voir

Levina, E. et Bickel, P. (2004) «Estimation du maximum de vraisemblance de la dimension intrinsèque». Progrès des systèmes de traitement de l'information neuronale 17

http://books.nips.cc/papers/files/nips17/NIPS2004_0094.pdf

Leur idée est que si les données sont échantillonnées à partir d'une densité lisse dans $R^m$ intégré dans $R^p$ avec $m < p$ , puis localement le nombre de points de données dans une petite boule de rayon $t$ se comporte à peu près comme un processus de poisson. La vitesse du processus est liée au volume de la balle qui à son tour est lié à la dimension intrinsèque.

vqv
la source

1

+1 Belle trouvaille! Le document présente également une brève discussion de l'approche PCA (ainsi que de certaines autres méthodes).

whuber

Merci beaucoup, je pense que c'est le plus proche de ce que cherchait mon collègue.

7

Composantes principales L'analyse des données locales est un bon point de départ. Nous devons cependant veiller à distinguer la dimension locale (intrinsèque) de la dimension globale (extrinsèque). Dans l'exemple des points sur un cercle, la dimension locale est 1, mais dans l'ensemble, les points dans le cercle se trouvent dans un espace 2D. Pour appliquer PCA à cela, l'astuce consiste à localiser : sélectionner un point de données et extraire uniquement ceux qui en sont proches. Appliquer PCA à ce sous-ensemble. Le nombre de grandes valeurs propres suggérera la dimension intrinsèque. Le répéter à d'autres points de données indiquera si les données présentent une dimension intrinsèque constante partout. Si oui, chacun des résultats de l'ACP fournit un atlas partiel du collecteur.

whuber
la source

Merci beaucoup pour votre réponse. Je vais la transmettre à mon collègue.

3

Je ne suis pas sûr de la partie «domaine d'une fonction», mais Hausdorff Dimension semble répondre à cette question. Il a l'étrange propriété d'être d'accord avec des exemples simples ( par exemple, le cercle a la dimension de Hausdorff 1), mais de donner des résultats non intégraux pour certains ensembles («fractales»).

shabbychef
la source

1

Je dirais même une dimension de comptage de boîtes pour une statistique plus pratique.

Raskolnikov

2

Je recommande fortement de lire cette enquête: Camastra, F. (2003). Méthodes d'estimation de la dimensionnalité des données: une enquête. Reconnaissance de formes , 36 (12), 2945-2954 .

Pour effectuer cette estimation, j'ai trouvé une très bonne boîte à outils dans matlab Matlab Toolbox for Dimensionality Reduction . En plus des techniques de réduction de dimensionnalité, la boîte à outils contient des implémentations de 6 techniques d'estimation de dimensionnalité intrinsèque

Serendipity
la source

Estimer la dimension d'un ensemble de données

Réponses: