Je comprends ce qu'est la «malédiction de la dimensionnalité», et j'ai fait quelques problèmes d'optimisation dimensionnelle élevée et je connais le défi des possibilités exponentielles.
Cependant, je doute que la "malédiction de la dimensionnalité" existe dans la plupart des données du monde réel (eh bien, mettons les images ou les vidéos de côté pendant un moment, je pense à des données telles que les données démographiques des clients et les comportements d'achat).
Nous pouvons collecter des données avec des milliers de fonctionnalités, mais il est moins probable, voire impossible, que les fonctionnalités puissent couvrir entièrement un espace avec des milliers de dimensions. C'est pourquoi les techniques de réduction de dimension sont si populaires.
En d'autres termes, il est très probable que les données ne contiennent pas le niveau exponentiel d'informations, c'est-à-dire que de nombreuses fonctionnalités sont fortement corrélées et que de nombreuses fonctionnalités satisfont aux règles 80-20 (de nombreuses instances ont la même valeur).
Dans un tel cas, je pense que des méthodes comme KNN fonctionneront encore assez bien. (Dans la plupart des livres, "la malédiction de la dimensionnalité" dit que la dimension> 10 pourrait être problématique. Dans leurs démos, ils utilisent une distribution uniforme dans toutes les dimensions, où l'entropie est vraiment élevée. Je doute que dans le monde réel, cela se produira jamais.)
Mon expérience personnelle avec des données réelles est que la «malédiction de la dimensionnalité» n'affecte pas trop la méthode du modèle (comme KNN) et dans la plupart des cas, les dimensions ~ 100 fonctionneraient toujours.
Est-ce vrai pour les autres? (J'ai travaillé avec des données réelles dans différentes industries pendant 5 ans, jamais observé "toutes les paires de distances ont des valeurs similaires" comme décrit dans le livre.)
Réponses:
Cet article (1) discute de la bénédiction de la non-uniformité comme contrepoint à la malédiction de la dimensionnalité. L'idée principale est que les données ne sont pas dispersées uniformément dans l'espace des fonctionnalités, de sorte que l'on peut gagner du terrain en identifiant les façons dont les données sont organisées.
(1) Pedro Domingos, "Quelques informations utiles à connaître sur l'apprentissage automatique"
la source
La malédiction de la dimensionnalité dans l'apprentissage automatique est le plus souvent le problème de l'explosion d'un espace vide entre les quelques points de données dont vous disposez. Un faible nombre de données peut aggraver les choses. Voici un exemple de configuration avec 10000 échantillons où j'essaie de faire kNN avec 1 voisin.
Vous n'aimiez pas les distributions entièrement uniformes, j'ai donc créé un collecteur 2D avec des dimensions plus petites (réduites de
scale
) parsemées autour du plan 2D des deux premières coordonnées. En l'occurrence, l'une des plus petites dimensions est prédictive (l'étiquette est 1 lorsque cette dimension est positive).La précision chute rapidement avec une dimension croissante.
Bien sûr, une précision = 0,5 serait une supposition aléatoire. Avec une surface de décision, plus compliquée qu'un avion, cela empirerait.
C'est comme si les billes kNN étaient trop rares pour être utiles pour sonder un hyperplan lisse. Avec des dimensions plus élevées, ils se sentent de plus en plus seuls.
D'un autre côté, les méthodes comme SVM ont une vue globale et font beaucoup mieux.
la source
Prenons par exemple les séries chronologiques (et les images et l'audio). Les lectures de capteur (Internet des objets) sont très courantes.
La malédiction de la dimensionnalité est beaucoup plus courante que vous ne le pensez. Il y a là une grande redondance, mais aussi beaucoup de bruit.
Le problème est que beaucoup de gens évitent simplement ces défis des données réelles et n'utilisent que les mêmes ensembles de données UCI cherryupicked.
la source
Il y a un merveilleux article, "Modélisation statistique: les deux cultures" , par Breiman. Il explique les deux groupes de scientifiques qui traitent des données et comment chacun d'eux regarde la "dimensionnalité". La réponse à votre question est "cela dépend" dans quel groupe vous êtes. Vérifiez le papier.
la source