Plus précisément, je recherche des références (articles, livres) qui montreront et expliqueront rigoureusement la malédiction de la dimensionnalité. Cette question s'est posée après que j'ai commencé à lire ce livre blanc de Lafferty et Wasserman. Dans le troisième paragraphe, ils mentionnent une équation "bien connue" qui implique que le meilleur taux de convergence est ; si quelqu'un peut en parler (et l'expliquer), ce serait très utile.
De plus, quelqu'un peut-il m'indiquer une référence qui dérive de l'équation "bien connue"?
Réponses:
Dans le prolongement de richiemorrisroe, voici l'image pertinente des Éléments de l'apprentissage statistique , chapitre 2 (pp22-27):
Comme vous pouvez le voir dans le volet supérieur droit, il y a plus de voisins à 1 unité dans 1 dimension que de voisins à 1 unité dans 2 dimensions. 3 dimensions serait encore pire!
la source
Cela ne répond pas directement à votre question, mais David Donoho a un bel article sur l'analyse des données à haute dimension: les malédictions et les bénédictions de la dimensionnalité (les diapositives associées sont ici ), dans lesquelles il mentionne trois malédictions:
la source
Je sais que je continue à y faire référence, mais il y a une grande explication à cela: les éléments de l'apprentissage statistique , chapitre 2 (pp22-27). Ils notent essentiellement qu'à mesure que les dimensions augmentent, la quantité de données doit augmenter (exponentiellement) avec elle ou il n'y aura pas suffisamment de points dans le plus grand espace d'échantillonnage pour qu'une analyse utile soit effectuée.
Ils se réfèrent à un article de Bellman (1961) comme source, qui semble être son livre Adaptive Control Processes, disponible sur Amazon ici
la source
L'impact le plus notoire est peut-être capturé par la limite suivante (qui est (indirectement) illustrée dans l'image ci-dessus):
La distance dans l'image est laL2 k Lk
Impact de la dimensionnalité sur les données en images
la source