Je lis le livre de Kevin Murphy: Machine Learning-A probabilistic Perspective. Dans le premier chapitre, l'auteur explique la malédiction de la dimensionnalité et il y a une partie que je ne comprends pas. À titre d'exemple, l'auteur déclare:
Considérez que les entrées sont uniformément réparties le long d'un cube unitaire en dimension D. Supposons que nous estimons la densité des étiquettes de classe en faisant croître un hyper cube autour de x jusqu'à ce qu'il contienne la fraction souhaitée des points de données. La longueur de bord attendue de ce cube est .
C'est la dernière formule que je n'arrive pas à comprendre. il semble que si vous voulez couvrir disons 10% des points que la longueur du bord doit être de 0,1 le long de chaque dimension? Je sais que mon raisonnement est faux mais je ne comprends pas pourquoi.
Réponses:
Tel est précisément le comportement inattendu des distances en dimensions élevées. Pour 1 dimension, vous avez l'intervalle [0, 1]. 10% des points sont dans un segment de longueur 0,1. Mais que se passe-t-il lorsque la dimensionnalité de l'espace des fonctionnalités augmente?
Cette expression vous dit que si vous voulez avoir que 10% des points pour 5 dimensions, vous devez avoir une longueur pour le cube de 0,63, en 10 dimensions de 0,79 et 0,98 pour 100 dimensions.
Comme vous le voyez, pour augmenter les dimensions, vous devez regarder plus loin pour obtenir le même nombre de points. Plus encore, vous indique que la plupart des points sont à la limite du cube à mesure que le nombre de dimensions augmente. Ce qui est inattendu.
la source
Je pense que la principale chose à noter est que l'expression
Pour rendre cela encore plus clair, rappelons l'intrigue que Murphy montre:
la source
Oui, donc si vous avez un cube unitaire, ou dans votre cas une ligne unitaire, et que les données sont réparties uniformément, vous devez aller jusqu'à 0,1 pour capturer 10% des données. À mesure que vous augmentez les dimensions, D augmente, ce qui diminue la puissance et f étant inférieur à 1, augmentera, de sorte que si D va à l'infini, vous devez capturer tout le cube, e = 1.
la source
Je pense que pour kNN, la distance joue un rôle plus important. Ce qui arrive à un (hyper) cube est analogue à ce qui arrive à la distance entre les points. À mesure que vous augmentez le nombre de dimensions, le rapport entre la distance la plus proche et la distance moyenne augmente - cela signifie que le point le plus proche est presque aussi éloigné que le point moyen, alors il n'a que légèrement plus de pouvoir prédictif que le point moyen. Cet article l'explique bien
la source