L'ensemble de données ci-joint montre environ 6 000 gaules dans environ 50 lacunes forestières de taille variable. Je voudrais savoir comment ces jeunes poussent dans leurs lacunes respectives (c.-à-d. Regroupées, aléatoires, dispersées). Comme vous le savez, une approche traditionnelle serait d'exécuter Global Moran's I.Toutefois, les agrégations d'arbres dans des agrégations de lacunes semblent être une utilisation inappropriée de Moran's I.J'ai exécuté des statistiques de test avec Moran's I en utilisant une distance de seuil de 50 mètres, ce qui a produit des résultats absurdes (c.-à-d. valeur p = 0,0000000 ...). L'interaction entre les agrégations d'écarts produit probablement ces résultats. J'ai envisagé de créer un script pour parcourir les lacunes individuelles de la canopée et déterminer le regroupement au sein de chaque lacune, bien que l'affichage de ces résultats au public soit problématique.
Quelle est la meilleure approche pour quantifier le clustering au sein des clusters?
Réponses:
Vous n'avez pas un champ aléatoire uniforme, donc tenter d'analyser toutes vos données à la fois violera les hypothèses de toute statistique que vous choisissez de jeter sur le problème. Il n'est pas clair dans votre message si vos données sont un processus ponctuel marqué (c'est-à-dire le diamètre ou la hauteur associés à chaque emplacement d'arbre). Si ces données ne représentent pas un processus ponctuel marqué, je n'ai aucune idée de la façon dont vous avez appliqué un Moran's-I. Si les données ne représentent que des emplacements spatiaux, je recommanderais d'utiliser un Ripley's-K avec la transformation Besag-L pour normaliser l'attente nulle à zéro. Cela permet une évaluation multi-échelles du clustering. Si vos données ont une valeur associée, votre meilleure option est un Moran's-I local (LISA). Je le regarderais en fait avec les deux statistiques. Quel que soit votre choix, vous devrez toujours parcourir chaque site pour produire des résultats valides. Voici un exemple de code R pour une simulation Monte Carlo du Ripley's-K / Besag's-L en utilisant le jeu de données intégré de redwood sapling. Il devrait être assez simple de le modifier pour parcourir vos sites et produire un graphique pour chacun d'eux.
la source
Ce que vous avez est un motif de points avec une fenêtre qui est un certain nombre de petites régions polygonales déconnectées.
Vous devriez pouvoir utiliser l'un des tests
package:spatstat
de CSR tant que vous le nourrissez avec une fenêtre correcte. Il peut s'agir d'un certain nombre d'ensembles de paires (x, y) définissant chaque effacement ou d'une matrice binaire de (0,1) valeurs sur l'espace.Définissons d'abord quelque chose qui ressemble un peu à vos données:
et laisse supposer que nos clairières sont des cellules carrées qui se trouvent être les suivantes:
Nous pouvons donc tracer la fonction K de ces points dans cette fenêtre. Nous nous attendons à ce que ce soit non-CSR parce que les points semblent regroupés dans les cellules. Remarquez que je dois changer la plage de distances pour qu'elle soit petite - de l'ordre de la taille des cellules - sinon la fonction K est évaluée sur des distances de la taille de l'ensemble du motif.
Si nous générons des points CSR dans les mêmes cellules, nous pouvons comparer les tracés de la fonction K. Celui-ci devrait ressembler davantage à la RSE:
Vous ne pouvez pas vraiment voir les points regroupés dans les cellules du premier motif, mais si vous le tracez seul dans une fenêtre graphique, c'est clair. Les points du deuxième motif sont uniformes dans les cellules (et n'existent pas dans la région noire) et la fonction K est clairement différente de
Kpois(r)
la fonction K CSR pour les données en cluster et similaire pour les données uniformes.la source
En plus du post d'Andy:
Ce que vous voulez calculer est une mesure de l'homogénéité spatiale (ergo l'hypothèse: "Vos points sont-ils groupés?") Comme la fonction L et K de Ripley .
Cet article de blog explique assez bien le mode d'emploi de R. Sur la base du code décrit, je voudrais d'abord étiqueter chaque cluster de votre ensemble de données, puis calculer en boucle pour chaque cluster l'enveloppe critique via le K de Ripley
la source