L'idée principale de k-voisin le plus proche prend en compte les points les plus proches et décide de la classification des données par vote majoritaire. Si tel est le cas, il ne devrait pas avoir de problèmes dans les données de dimension supérieure, car des méthodes telles que le hachage sensible à la localité peuvent trouver efficacement les voisins les plus proches.
De plus, la sélection des fonctionnalités avec les réseaux bayésiens peut réduire la dimension des données et faciliter l'apprentissage.
Cependant, cet article de revue de John Lafferty dans l'apprentissage statistique souligne que l'apprentissage non paramétrique dans des espaces d'entités de haute dimension est toujours un défi et non résolu.
Qu'est-ce qui ne va pas?
Réponses:
Ce problème est connu sous le nom de malédiction de la dimensionnalité . Au fond, comme vous augmentez le nombre de dimensions, , les points dans l'espace ont généralement tendance à devenir de loin tous les autres points. Cela rend le partitionnement de l'espace (tel que nécessaire pour la classification ou le clustering) très difficile.d
Vous pouvez le constater très facilement par vous-même. J'ai généré points aléatoires de dimension dans l'hypercube d'unité à 20 valeurs uniformément sélectionnées de de 1 à . Pour chaque valeur de j'ai calculé la distance entre le premier point et tous les autres et j'ai pris la moyenne de ces distances. En traçant cela, nous pouvons voir que la distance moyenne augmente avec la dimensionnalité même si l'espace dans lequel nous générons les points dans chaque dimension reste le même.d d 1..1000 d50 d d 1..1000 d
Distance moyenne vs dimensionnalité
la source
Pas une réponse complète, mais la page wikipedia que vous avez citée dit:
La probabilité que cela se produise augmente en présence d'espaces caractéristiques de grande dimension.
la source