Quand le «plus proche voisin» a-t-il un sens aujourd'hui?

19

En 1999, Beyer et al. a demandé: Quand le "plus proche voisin" a-t-il un sens?

Existe-t-il de meilleures façons d'analyser et de visualiser l'effet de la planéité des distances sur la recherche NN depuis 1999?

Un ensemble de données [donné] fournit-il des réponses significatives au problème 1-NN? Le problème des 10 NN? Le problème du 100-NN?

Comment les experts aborderaient-ils cette question aujourd'hui?


Modifications lundi 24 janvier:

Que diriez-vous de "distance blanche" comme un nom plus court pour "planéité de distance avec une dimension croissante"?

Un moyen simple de voir le "voile blanc de distance" consiste à exécuter 2-NN et à tracer les distances entre le voisin le plus proche et le deuxième voisin le plus proche. Le graphique ci-dessous montre dist 1 et dist 2 pour une gamme de nclusters et de dimensions, par Monte Carlo. Cet exemple montre un assez bon contraste de distance pour la différence absolue mise à l'échelle | dist 2 - dist 1 |. (Les différences relatives | dist 2 / dist 1 | → 1 comme dimension → ∞, deviennent donc inutiles.)

L'emploi d'erreurs absolues ou relatives dans un contexte donné dépend bien entendu du "vrai" bruit présent: difficile.

Suggestion: exécutez toujours 2-NN; 2 voisins sont utiles lorsqu'ils sont proches et utiles lorsqu'ils ne le sont pas.

entrez la description de l'image ici

denis
la source
7
Beyer et al. semblent aborder un aspect un peu différent du problème NN. Mais, à des fins de classification (binaire), dans des conditions douces, c'est un résultat classique que la classification 1-NN a, dans le pire des cas , deux fois la probabilité d'erreur du classificateur bayésien (c'est-à-dire optimal) asymptotiquement. En d'autres termes, le premier voisin le plus proche contient "au moins la moitié des informations" sur l'étiquette de la cible comme le meilleur classificateur. En ce sens, le 1-NN semble tout à fait pertinent. (Voir Cover & Hart (1967) pour plus d'informations. Je suis surpris que Beyer et al. Ne le citent pas.)
Cardinal
@cardinal, la reliure Cover-Hart ne semble pas du tout dépendre de la dimension, comme vous dites un aspect différent?
denis
oui, je crois que c'est vrai et c'était en grande partie mon point de vue. Le 1-NN semble assez pertinent dans ce sens, c'est-à-dire que le fait qu'il fonctionne (si) bien (théoriquement) uniformément dans la dimension de l'espace caractéristique semble l'aider à se tenir seul, quel que soit le comportement du plus proche et les voisins les plus éloignés se trouvent dans un grand espace dimensionnel. Je me demande si Beyer était au courant de ce résultat (classique).
Cardinal
@cardinal Le haut de la page 24 dans Cover et Hart ressemble à un endroit où un problème peut potentiellement survenir dans leur preuve, à l'étape où Cover et Hart soutiennent que chaque RV x \ in X a la propriété que chaque sphère ouverte autour de x a mesure non nulle. Si nous considérons la géométrie de l'hypersphère, nous voyons que le volume de l'intérieur de l'hypersphère diminue avec une dimension croissante, de sorte que, dans la limite, la boule ouverte autour de x ne contient que x à l'intérieur. Alternativement, via le SLLN, les iid RVs x dans l'espace métrique X se trouvent tous à la surface de l'hypersphère avec une probabilité un.
Bob Durrant
Voir également les métriques L1 ou L.5 pour le clustering .
denis

Réponses:

10

Je n'ai pas de réponse complète à cette question, mais je peux donner une réponse partielle sur certains aspects analytiques. Avertissement: je travaille sur d'autres problèmes depuis le premier article ci-dessous, il est donc très probable qu'il y ait d'autres bonnes choses dont je ne suis pas au courant.

Tout d'abord, je pense qu'il convient de noter que malgré le titre de leur article "Quand est le" plus proche voisin "significatif", Beyer et al ont répondu à une question différente, à savoir quand NN n'a pas de sens. Nous avons démontré l'inverse de leur théorème, sous quelques hypothèses supplémentaires légères sur la taille de l'échantillon, dans When Is 'Nearest Neighbor' Signful: A Converse Theorem and Implications. Journal of Complexity, 25 (4), août 2009, pp 385-397.et a montré qu'il existe des situations où (en théorie) la concentration des distances ne se produira pas (nous donnons des exemples, mais en substance le nombre de caractéristiques non sonores doit croître avec la dimensionnalité, donc bien sûr, elles surviennent rarement dans la pratique). Les références 1 et 7 citées dans notre article donnent quelques exemples de façons dont la concentration de distance peut être atténuée dans la pratique.

Un article de mon superviseur, Ata Kaban, examine si ces problèmes de concentration à distance persistent malgré l'application de techniques de réduction de dimensionnalité dans On the Concentration Awareness of Certain Data Reduction Techniques. La reconnaissance de formes. Vol. 44, numéro 2, février 2011, pp.265-277. . Il y a aussi de belles discussions là-dedans.

k

Bob Durrant
la source
Merci Bob, +1. Une question connexe, auriez-vous une règle de base pour choisir une valeur de fractionnaire métrique q (ou devrais-je poser cette question séparément)?
denis
q=1/pp>1pl0p=1l1lq=1/pp>1p
|ajbj|q1/q<q<
p
3

Vous pourriez tout aussi bien être intéressé par l' analyse des composantes du quartier par Goldberger et al.

Ici, une transformation linéaire est apprise pour maximiser les points correctement classés attendus via une sélection de voisinage stochastique la plus proche.

Comme effet secondaire, le nombre (attendu) de voisins est déterminé à partir des données.

bayerj
la source
Merci bayer. Il semble que «l'apprentissage métrique à distance» soit en plein essor - scholar.goo compte 50 titres depuis 2008. Mais le papier boom, ou une utilisation réelle? Note de bas de page, le code pour nca dit "itérations ... au moins 100000 pour de bons résultats". Note de bas de page 2, la plupart des travaux sur l'apprentissage métrique à distance semblent modéliser une distance de Mahalanobis; Connaissez-vous d'autres modèles de distance?
denis
J'ai différentes expériences avec NCA - il converge généralement assez rapidement pour moi. Checkout "réduction de dimensionnalité via l'apprentissage d'une cartographie invariante" par LeCun et "Minimal Loss Hashing for Compact Binary Codes" par Norouzi.
bayerj