Analogue 2D d'écart type?

19

Considérez l'expérience suivante: un groupe de personnes reçoit une liste de villes et est invité à marquer les emplacements correspondants sur une carte du monde (autrement non étiquetée). Pour chaque ville, vous obtiendrez une dispersion de points grossièrement centrés sur la ville respective. Certaines villes, par exemple Istanbul, présenteront moins de dispersion que d'autres, selon Moscou.

Supposons que pour une ville donnée, nous obtenons un ensemble d'échantillons 2D , représentant la position de la ville (par exemple dans un système de coordonnées local) sur la carte attribuée par test sujet . Je voudrais exprimer la quantité de "dispersion" des points dans cet ensemble comme un nombre unique dans les unités appropriées (km). $\{(x_i, y_i)\}$ $(x, y)$ $i$

Pour un problème 1D, je choisirais l'écart type, mais existe-t-il un analogue 2D qui pourrait raisonnablement être choisi pour la situation décrite ci-dessus?

standard-deviation spatial koletenbert
la source

faire une conquête?

RockScience

J'ai ajouté la balise spatiale étant donné que l'exemple est explicitement spatial. Si vous (ou quelqu'un d'autre) sentez qu'il n'est pas nécessaire, n'hésitez pas à annuler cet ajout.

Andy W

12

Une chose que vous pourriez utiliser est une mesure de distance à partir d'un point central, ${\bf c}=(c_{1},c_{2})$ , comme la moyenne de l'échantillon des points $(\overline{x}, \overline{y})$ , ou peut-être le centroïde des points observés. Une mesure de dispersion serait alors la distance moyenne de ce point central:

\frac{1}{n} \sum_{i = 1}^{n} | | z_{i} - c | |

$\frac{1}{n} \sum_{i=1}^{n} || {\bf z}_{i} - {\bf c} ||$

où . Il existe de nombreux choix potentiels pour une mesure de distance, mais la norme (par exemple la distance euclidienne) peut être un choix raisonnable: ${\bf z}_{i} = \{ x_{i}, y_{i} \}$ $L_{2}$

| | z_{i} - c | | = \sqrt{(x_{i} - c_{1})^{2} + (y_{i} - c_{2})^{2}}

$|| {\bf z}_{i} - {\bf c} || = \sqrt{ (x_{i}-c_{1})^{2} + (y_{i}-c_{2})^{2} }$

Il existe cependant de nombreux autres choix potentiels. Voir http://en.wikipedia.org/wiki/Norm_%28mathematics%29

Macro
la source

‖ z_{i} - c ‖^{2}

$\|z_i-c\|^2$

6

Une bonne référence sur les métriques pour la distribution spatiale des modèles de points est le manuel CrimeStat (en particulier pour cette question, chapitre 4 sera intéressant). Semblable à la macro métrique suggérée, l'écart de distance standard est similaire à un écart type 2D (la seule différence est que vous diviseriez par "n-2" et non par "n" dans la première formule donnée par la macro).

Votre exemple d'expérience me rappelle en fait un peu comment les études évaluent le profil géographique des délinquants , et donc les mesures utilisées dans ces travaux peuvent être intéressantes. En particulier, les termes précision et exactitude sont assez utilisés et seraient pertinents pour l'étude. Les suppositions peuvent avoir un petit écart-type (c'est-à-dire précis) mais ont toujours une très faible précision.

Andy W
la source

1

Je pense que vous devriez utiliser la «distance de Mahalanobis» plutôt que les normes de distance euclidienne, car elle prend en compte la corrélation de l'ensemble de données et est «invariante d'échelle». Voici le lien:

http://en.wikipedia.org/wiki/Mahalanobis_distance

Vous pouvez également utiliser «Profondeur demi-espace». C'est un peu plus compliqué mais partage de nombreuses propriétés attrayantes. La profondeur de demi-espace (également connue sous le nom de profondeur de localisation) d'un point donné a par rapport à un ensemble de données P est le nombre minimum de points de P situés dans un demi-plan fermé déterminé par une ligne passant par a. Voici les liens:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf

VitalStatistix
la source

1

Je comprends l'utilisation des distances de Mahalanobis lorsque vous essayez de dire si des points particuliers "appartiennent" à l'ensemble, mais la distance euclidienne moyenne du centroïde n'est-elle pas plus étroitement liée au concept habituel de variance / écart-type utilisé dans un réglage univarié?

Macro

2

Pourriez-vous élaborer sur les affirmations "prend en compte la corrélation des données" et "l'échelle est-elle invariante"? Quelle est la pertinence de l'une ou l'autre de ces choses par rapport à la question posée?

Andy W

L'extension habituelle de l'écart-type à une dimension supérieure est bien sûr un moyen de calculer la distance d'un point particulier par rapport au centre des données - mais ici, nous normalisons chaque point, ce qui facilite l'analyse du cluster ou la détection des valeurs aberrantes. De plus, la distance de Mahalanobis est plus adaptative aux cas où la distribution des points n'est pas sphérique. Pour les cas à symétrie sphérique, il est identique à l'écart-type étendu habituel - où la matrice de covariance des points de données se réduit à la matrice d'identité.

VitalStatistix

1

J'ai rencontré un problème similaire récemment. Il semble que vous souhaitiez mesurer la répartition des points dans chaque zone. Bien sûr, pour une mesure donnée, vous devez vous rendre compte que si tous les points sont en ligne droite, la réponse est zéro, car il n'y a pas de variété bidimensionnelle.

D'après les calculs que j'ai faits, voici ce que j'ai trouvé:

\sqrt{S_{X X} S_{y y} - S_{X y} ²}

$\sqrt{S_{xx}S_{yy}-S_{xy}²}$

Dans ce cas, Sxx et Syy sont les variances de x et de y respectivement, tandis que Sxy est un peu comme la variance mixte de x et y.

Pour élaborer, en supposant qu'il y a n éléments, et représente la valeur moyenne de x et représente la moyenne de y: $x_μ$ $y_μ$

S_{X X} = \frac{1}{n} \sum_{je = 1}^{n} (X - X_{μ}) ²

$S_{xx}=\frac{1}{n} \sum_{i=1}^{n} (x-x_μ)²$

S_{y y} = \frac{1}{n} \sum_{je = 1}^{n} (y - y_{μ}) ²

$S_{yy}=\frac{1}{n} \sum_{i=1}^{n} (y-y_μ)²$

S_{X y} = \frac{1}{n} \sum_{je = 1}^{n} (X - X_{μ}) (y - y_{μ})

$S_{xy}=\frac{1}{n} \sum_{i=1}^{n} (x-x_μ)(y-y_μ)$

J'espère que cela devrait fonctionner pour vous.

De plus, si vous vous demandez comment le faire dans des dimensions plus élevées, comme mesurer la répartition du volume ou le volume de surteron en 4 dimensions, vous devez former une matrice comme celle-ci:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

Et continuez pour autant de dimensions dont vous avez besoin. Vous devriez être en mesure de comprendre les valeurs S compte tenu des définitions fournies ci-dessus, mais pour différentes variables.

Une fois la matrice formée, prenez le déterminant, trouvez la racine carrée, et vous avez terminé.

Math Machine
la source

0

Pour cet exemple spécifique - où il y a une réponse "correcte" prédéterminée - je retravaillerais les coordonnées x / y pour qu'elles soient des coordonnées polaires autour de la ville qu'on leur demandait de marquer sur la carte. La précision est ensuite mesurée par rapport à la composante radiale (moyenne, sd, etc.). Un "angle moyen" pourrait également être utilisé pour mesurer le biais.

Pour moi, je suis toujours à la recherche d'une bonne solution lorsqu'il n'y a pas de point central prédéterminé, et je n'aime pas l'idée d'un pré-passage sur les données pour créer un centroïde.

dsz
la source

Analogue 2D d'écart type?

Réponses: