Quand utiliser la distance euclidienne pondérée et comment déterminer les poids à utiliser?

16

J'ai un ensemble de données où chaque donnée se compose de mesures différentes. Pour chaque mesure, j'ai une valeur de référence. Je voudrais savoir à quel point chaque donnée est proche de la valeur de référence.n

J'ai pensé à utiliser la distance euclidienne pondérée comme ceci:

X,b=(je=1nwje(Xje-bje)2))1/2

Xje est la valeur de la i-ème mesure pour les données particulières

bje est la valeur de référence correspondante pour cette mesure.

wje est la valeur du poids entre je vais attacher à la i-ème mesure sous réserve de ce qui suit:

0<wje<1 etje=1n1

Cependant, sur la base de ce document, j'ai découvert que le poids à utiliser est l'inverse de la variance de la i-ème mesure. Je ne pense pas que ce type de pondération expliquera l'importance que j'attacherai à chaque mesure.

Donc:

  1. Existe-t-il des méthodes pour trouver un ensemble de poids qui reflète l'importance relative de l'observateur pour une mesure ou l'observateur peut-il attribuer des valeurs arbitraires aux poids?

  2. Est-il approprié d'utiliser la distance euclidienne pondérée pour résoudre ce problème?

Sara
la source

Réponses:

16

Poids pour la normalisation

w

Poids pour l'importance

Vous êtes libre de mettre tout ce que vous aimez comme poids, y compris les mesures de «l'importance» (bien que vous souhaitiez peut-être normaliser avant la pondération de l'importance si les unités de mesure diffèrent).

Xbjewjebjepourrait être la position de statu quo sur une certaine dimension, dont les positions des différents acteurs diffèrent. Dans cette application, on préfèrerait certainement mesurer plutôt qu'affirmer à la fois la saillance et la position. Dans les deux cas, des poids importants feront que les différences sur les questions non saillantes auront moins d'effet sur la distance globale entre les acteurs si elles sont calculées selon votre première équation. Notez également que dans cette version, nous ne supposons implicitement aucune covariance pertinente entre les positions, ce qui est une affirmation assez forte.

En se concentrant maintenant sur la question 2: Dans l'application, je viens de décrire la justification de la pondération et des distances dans les hypothèses théoriques du jeu sur les structures de préférences transitives et similaires. En fin de compte, ce sont les seules raisons pour lesquelles il est «approprié» de calculer les distances de cette façon. Sans eux, nous avons juste un tas de chiffres qui obéissent à l'inégalité du triangle.

Poids comme mesure implicite

Sur le thème de la covariance, il pourrait être utile de considérer votre problème comme celui d'identifier le sous-espace pertinent dans lequel les distances ont un sens substantiel, en supposant que de nombreuses mesures que vous avez réellement mesurent des choses similaires. Un modèle de mesure, par exemple l'analyse factorielle, projetterait tout via une combinaison pondérée dans un espace commun où les distances pourraient être calculées. Mais, encore une fois, il nous faudrait connaître le contexte de vos recherches pour savoir si cela aurait du sens.

conjugateprior
la source
merci pour de précieuses informations. mais je me demande comment calculer les poids?