Quelqu'un utilise-t-il les métriques ou pour le clustering, plutôt que ?
Aggarwal et al.,
A
propos du comportement surprenant des mesures de distance dans un espace de grande dimension, a déclaré (en 2001) que
est toujours plus préférable que la métrique de distance euclidienne pour les applications d'exploration de données à haute dimension
et a affirmé que ou peut être encore mieux.
Les raisons d'utiliser ou pourraient être théoriques ou expérimentales, par exemple la sensibilité aux valeurs aberrantes / articles de Kabán, ou des programmes exécutés sur des données réelles ou synthétiques (reproductibles s'il vous plaît). Un exemple ou une image aiderait l'intuition de mon profane.
Cette question fait suite à la réponse de Bob Durrant à Quand est le plus proche voisin significatif aujourd'hui . Comme il le dit, le choix de dépendra à la fois des données et de l'application; néanmoins, des rapports d'expérience réelle seraient utiles.
Notes ajoutées mardi 7 juin:
Je suis tombé sur "L'analyse des données statistiques basée sur la norme L1 et les méthodes associées", Dodge ed., 2002, 454p, isbn 3764369205 - des dizaines de documents de conférence.
Quelqu'un peut-il analyser la concentration de distance pour les caractéristiques exponentielles iid? Une des raisons des exponentielles est que ; un autre (non expert) est que c'est la distribution max-entropie ≥ 0; un troisième est que certains ensembles de données réels, en particulier les EIPD, semblent à peu près exponentiels.
Réponses:
La clé ici est de comprendre la «malédiction de la dimensionnalité» que les références papier. De wikipedia: lorsque le nombre de dimensions est très grand,
En conséquence, il devient difficile de penser à quels points sont proches de quels autres points, car ils sont tous plus ou moins également éloignés. C'est le problème dans le premier document auquel vous avez lié.
Le problème avec un p élevé est qu'il met l'accent sur les valeurs les plus élevées - cinq carrés et quatre carrés sont à neuf unités l'un de l'autre, mais un carré et deux carrés ne sont séparés que par trois unités. Ainsi, les plus grandes dimensions (les choses dans les coins) dominent tout et vous perdez le contraste. C'est donc cette inflation de grandes distances que vous voulez éviter. Avec un p fractionnaire, l'accent est mis sur les différences dans les petites dimensions - les dimensions qui ont en fait des valeurs intermédiaires - ce qui vous donne plus de contraste.
la source
Il existe un document utilisant la métrique Lp avec p compris entre 1 et 5 que vous pouvez consulter:
Amorim, RC et Mirkin, B., Minkowski Metric, Pondération des caractéristiques et initialisation de cluster anormale dans le clustering K-Means, Pattern Recognition, vol. 45 (3), p. 1061-1075, 2012
Télécharger, https://www.researchgate.net/publication/232282003_Author's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf
la source
Je ne sais pas si le vôtre est un problème d'inférence. Si le problème consiste à déduire un vecteur de sous certaines contraintes (qui devraient définir un ensemble convexe fermé) lorsqu'une supposition préalable dit u est donnée, alors le vecteur est inféré en minimisant la distance ℓ 2 de u sur l'ensemble de contraintes (si le u précédent n'est pas donné alors son juste en minimisant la ℓ 2 -norm). Le principe ci-dessus est justifié comme étant la bonne chose à faire dans certaines circonstances dans cet article http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176348385 .Rn u ℓ2 u u ℓ2
la source