Mesurer l'uniformité de la distribution des points dans un carré 2D

11

J'ai un carré 2D et j'ai un ensemble de points à l'intérieur, disons 1000 points. J'ai besoin d'un moyen de voir si la distribution des points à l'intérieur du carré est étalée (ou plus ou moins uniformément distribuée) ou s'ils ont tendance à se rassembler à un endroit à l'intérieur du carré.

J'ai besoin d'un moyen mathématique / statistique (pas de programmation) pour le déterminer. J'ai googlé, trouvé quelque chose comme la qualité de l'ajustement, Kolmogorov, etc., et je me demande simplement s'il existe d'autres approches pour y parvenir. Besoin de cela pour du papier de classe.

Entrées: un carré 2D et 1000 points. Sortie: oui / non (oui = uniformément réparti, non = se rassemblant à certains endroits).

Van
la source
1
Vous n'avez pas articulé assez précisément ce qui est "uniformément distribué" pour vous. Voulez-vous dire un cube uniforme 2D carrelé uniformément ou autre chose? Par exemple, une chaîne de points régulièrement espacée? ou un cercle de points? Dans un sens, ces chiffres sont également des écarts uniformes.
ttnphns
3
@ttnphns Dans ce contexte, "uniforme" a une signification conventionnelle bien établie. Il correspond à un processus de Poisson à intensité constante. Il est souvent appelé «CSR» complètement aléatoire spatialement .
whuber
2
@ Van Vous souhaitez rechercher des "processus ponctuels spatiaux". Les bons mots clés incluent "fonction Ripley K", "CSR" et "Poisson". Une référence accessible pour vous serait O'Sullivan & Unwin, analyse de l'information géographique. Un classique est Ripley, Statistiques spatiales : il se concentre sur les processus ponctuels. Pour les applications, jetez un coup d'œil à CrimeStat . Si vous êtes à l'aise avec R, il existe de nombreux outils pour cette tâche .
whuber

Réponses:

5

Je pense que l'idée de @John d'un test chi = carré est une façon de procéder.

Vous voudriez des correctifs sur 2-d, mais vous voudriez les tester en utilisant un test chi carré 1 voie; c'est-à-dire que les valeurs attendues pour les cellules seraient où N est le nombre de cellules.1000N

Mais il est possible qu'un nombre différent de cellules donne des conclusions différentes.

Une autre possibilité consiste à calculer la distance moyenne entre les points, puis à la comparer aux résultats simulés de cette moyenne. Cela évite le problème d'un nombre arbitraire de cellules.

EDIT (plus sur la distance moyenne)

Avec 1000 points, il y a distances par paires entre les points. Celles-ci peuvent chacune être calculées (en utilisant, disons, la distance euclidienne). Ces distances peuvent être moyennées.10009992

Ensuite, vous pouvez générer N (un grand nombre) d'ensembles de 1000 points qui sont uniformément distribués. Chacun de ces N ensembles a également une distance moyenne entre les points.

Comparez les résultats des points réels aux points simulés, soit pour obtenir une valeur de p, soit simplement pour voir où ils se situent.

Peter Flom - Réintégrer Monica
la source
Je suis d'accord que le chi carré à un échantillon ("test du chi carré d'accord") est parmi les moyens raisonnables. Mais pouvez-vous nous en dire plus sur votre proposition de "distance moyenne"? Je ne l'ai pas bien compris.
ttnphns
@ttnphns, ceux utilisés dans l'analyse spatiale sont le test du voisin le plus proche (alias Clark et Evans), ou K. de Ripley. Voir la bibliothèque spatstat de la bibliothèque R ou la documentation CrimeStat pour des exemples. Une autre possibilité basée sur la simulation est les tests de "scan", mais ceux-ci ne sont pas basés sur des distances moyennes.
Andy W
3

Une autre possibilité est un test Chi-Squared. Divisez le carré en correctifs de taille identique sans chevauchement et testez le nombre de points tombant dans les correctifs par rapport à leur nombre attendu sous l'hypothèse d'uniformité (l'attente pour un correctif est total_points / total_patches s'ils sont tous de taille égale) et appliquez le test du chi carré. Pour 1000 points, 9 correctifs devraient être suffisants, mais vous voudrez peut-être utiliser plus de granularité selon l'apparence de vos données.

Ben Allison
la source
1
Je pense que vous êtes sur quelque chose, mais une bonté d'ajustement du chi carré comparant les nombres réels dans chaque cellule avec un nombre attendu de cellules égales serait ce que vous voudriez. L'utilisation d'un test de contingence ne testerait PAS s'il y avait une distribution uniforme entre vos cellules, uniquement si la ligne dépendait de la colonne.
John
De plus, le test du chi carré ne vous dirait que si elles n'étaient pas uniformes dans les cellules que vous avez sélectionnées. Il ne vous dirait pas s'ils étaient uniformes.
John
Oui, je voulais dire les comptes par rapport à leurs comptes attendus sous une hypothèse nulle d'uniformité, mes excuses si ce n'était pas clair. Vous pouvez simplement le visualiser comme un tableau qui aide à comprendre ce qui se passe pour les non-initiés! Et évidemment, vous êtes limité à tester contre les cellules que vous sélectionnez plutôt que l'uniformité dans le sens abstrait
Ben Allison
@John, généralement quand on fait ce "test de dispersion" on fait généralement un test bilatéral. Si vous vouliez vraiment voir si le motif était plus uniforme que prévu par hasard, vous pouvez simplement regarder si le test du chi carré est tombé dans la queue gauche de la distribution (à la coupure que vous préférez).
Andy W
Andy, vous devez fournir une réponse qui détaille ce test d'adéquation bilatérale. En règle générale, les tests bilatéraux testent simplement deux alternatives différentes à null, mais ne peuvent toujours pas démontrer le null. Votre proposition est intrigante.
John
1

Pourquoi ne pas utiliser le test de Kolmogorov-Smirnov? C'est ce que je ferais, d'autant plus que la taille de votre échantillon est suffisamment grande pour compenser le manque de puissance.

Alternativement, vous pouvez faire de la simulation. Ce n'est pas rigoureux, mais cela fournit des preuves quant à la distribution uniforme des données.


@whuber L'extension bidimensionnelle du KS est bien connue (voir ici ). Dans ce cas, nous cherchons à savoir si ces 1 000 tracés (coordonnées (x, y)) pourraient être tirés de la distribution uniforme uniforme à deux dimensions - du moins c'est ainsi que je lis «uniformément étalé». @John Je me suis peut-être exprimé maladroitement (ni les mathématiques ni l'anglais ne sont mes premières langues). Ce que je voulais dire, c'est que la valeur de p exacte peut être calculée à l'aide d'un test tel que le KS, tandis que la valeur de p (ou tout ce que vous appelez l'équivalent) n'a tendance qu'à être asymptotique lors des simulations.

abaumann
la source
Pourquoi la simulation ne serait-elle pas rigoureuse?
John
1
Pourriez-vous expliquer comment le test KS - qui est destiné à des ensembles de nombres réels supposés être les résultats d'une variable aléatoire continue - serait appliqué à cet ensemble de données spatiales ?
whuber
@whuber J'ai modifié ma réponse pour essayer de fournir des réponses pour votre réponse. Meilleur.
abaumann
@John J'ai essayé d'expliquer ce que je voulais dire. Meilleur.
abaumann