Le contexte
J'ai deux ensembles de données que je veux comparer. Chaque élément de données dans les deux ensembles est un vecteur contenant 22 angles (tous entre et ). Les angles se rapportent à une configuration de pose humaine donnée, donc une pose est définie par 22 angles communs.π
Ce que j'essaie finalement de faire, c'est de déterminer la «proximité» des deux ensembles de données. Donc, pour chaque pose (vecteur 22D) dans un ensemble, je veux trouver son voisin le plus proche dans l'autre ensemble et créer un tracé de distance pour chacune des paires les plus proches.
Des questions
- Puis-je simplement utiliser la distance euclidienne?
- Pour être significatif, je suppose que la métrique de distance devrait être définie comme: , oùest la valeur absolue et mod est modulo. Ensuite, en utilisant les 22 thetas résultants, je peux effectuer le calcul de la distance euclidienne standard, .| . . . | √
- Est-ce correct?
- Une autre mesure de distance serait-elle plus utile, comme le chi carré, ou Bhattacharyya, ou une autre mesure? Si oui, pourriez-vous nous expliquer pourquoi.
Réponses:
vous pouvez calculer la matrice de covariance pour chaque ensemble, puis calculer la distance de Hausdorff entre les deux ensembles en utilisant la distance de Mahalanobis.
La distance de Mahalanobis est un moyen utile de déterminer la similitude d'un ensemble d'échantillons inconnu avec un échantillon connu. Elle diffère de la distance euclidienne en ce qu'elle prend en compte les corrélations de l'ensemble de données et est invariante d'échelle.
la source
Qu'essayez-vous de faire avec les informations sur le voisin le plus proche?
Je répondrais à cette question, puis comparerais les différentes mesures de distance à la lumière de cela.
Par exemple, supposons que vous essayez de classer les poses en fonction de la configuration conjointe et que vous souhaitez que les vecteurs conjoints de la même pose soient rapprochés. Une manière simple d'évaluer la pertinence de différentes métriques de distance consiste à utiliser chacune d'elles dans un classificateur KNN et à comparer les précisions hors échantillon de chacun des modèles résultants.
la source
Cela ressemble à une certaine application de la récupération d'informations (IR). Il y a quelques années, j'ai assisté à une conférence sur la reconnaissance de la marche qui ressemble à ce que vous faites. Dans la recherche d'informations, les "documents" (dans votre cas: les données d'angle d'une personne) sont comparés à une requête (qui dans votre cas pourrait être "y a-t-il une personne avec des données d'angle (.., ..)"). Ensuite, les documents sont répertoriés dans l'ordre de celui qui correspond le plus proche à celui qui correspond le moins. Cela, à son tour, signifie qu'un composant central de l'IR place un document dans une sorte d'espace vectoriel (dans votre cas: l'espace d'angle) et le compare à une requête spécifique ou un exemple de document ou mesure leur distance. (Voir ci-dessous.) Si vous avez une bonne définition de la distance entre deux vecteurs individuels, il vous suffit de trouver une mesure de la distance de deux ensembles de données. (Traditionnellement en IR, la distance dans le modèle d'espace vectoriel est calculée soit par la mesure du cosinus, soit par la distance euclidienne, mais je ne me souviens pas comment ils l'ont fait dans ce cas.) En IR, il existe également un mécanisme appelé "rétroaction de pertinence" qui, conceptuellement , fonctionne avec la distance de deux ensembles de documents. Ce mécanisme utilise normalement une mesure de distance qui résume toutes les distances individuelles entre toutes les paires de documents (ou dans votre cas: les vecteurs personnes). Peut-être que cela vous est utile.
La page suivante contient des articles qui semblent pertinents pour votre problème: http://www.mpi-inf.mpg.de/~mmueller/index_publications.html Surtout celui-ci http://www.mpi-inf.mpg.de/ ~ mmueller / publications / 2006_DemuthRoederMuellerEberhardt_MocapRetrievalSystem_ECIR.pdf semble intéressant. Le discours de Müller auquel j'ai assisté mentionne des mesures de similitude de Kovar et Gleicher appelées «nuage de points» (voir http://portal.acm.org/citation.cfm?id=1186562.1015760&coll=DL&dl=ACM ) et une autre appelée «quaternions» . J'espère que cela aide.
la source
Ce problème est appelé apprentissage métrique à distance. Chaque métrique de distance peut être représentée par où est semi-défini positif. Méthodes dans cette sous-zone, découvrez le optimal pour vos données. En fait, si le optimal se trouve être une matrice d'identité, il est acceptable d'utiliser des distances euclidiennes. S'il s'agit de la covariance inverse, il serait optimal d'utiliser la distance de Mahalanobis, et ainsi de suite. Par conséquent, une méthode d'apprentissage métrique à distance doit être utilisée pour apprendre le optimal , pour apprendre la bonne métrique de distance. AAAA(x−y)tA(x−y)−−−−−−−−−−−−−√ A A A A
la source
Un problème avec l'utilisation des angles comme proxy pour la forme est que de petites perturbations dans les angles peuvent entraîner de grandes perturbations dans la forme. De plus, différentes configurations d'angles peuvent donner la même forme (ou une forme similaire).
la source