Le I de Moran , une mesure de l'autocorrélation spatiale, n'est pas une statistique particulièrement robuste (il peut être sensible aux distributions asymétriques des attributs des données spatiales).
Quelles sont les techniques les plus robustes pour mesurer l'autocorrélation spatiale? Je suis particulièrement intéressé par les solutions qui sont facilement disponibles / implémentables dans un langage de script comme R. Si les solutions s'appliquent à des circonstances / distributions de données uniques, veuillez les spécifier dans votre réponse.
EDIT : J'élargis la question avec quelques exemples (en réponse aux commentaires / réponses à la question d'origine)
Il a été suggéré que les techniques de permutation (où une distribution d'échantillonnage de Moran I est générée à l'aide d'une procédure de Monte Carlo) offrent une solution robuste. Ma compréhension est qu'un tel test élimine le besoin de faire des hypothèses sur la distribution de Moran I (étant donné que la statistique du test peut être influencée par la structure spatiale de l'ensemble de données) mais, je ne vois pas comment la technique de permutation corrige pour les non-normalement données d'attribut distribuées . J'offre deux exemples: l'un qui démontre l'influence des données asymétriques sur la statistique I locale de Moran, l'autre sur le I global de Moran même sous des tests de permutation.
Je vais utiliser Zhang et al. « s (2008) analyse comme le premier exemple. Dans leur article, ils montrent l'influence de la distribution des données d'attribut sur le Moran local I en utilisant des tests de permutation (9999 simulations). J'ai reproduit les résultats du point chaud des auteurs pour les concentrations de plomb (Pb) (au niveau de confiance de 5%) en utilisant les données d'origine (panneau de gauche) et une transformation logarithmique de ces mêmes données (panneau de droite) dans GeoDa. Des boîtes à moustaches des concentrations de Pb originales et transformées en log sont également présentées. Ici, le nombre de points chauds importants double presque lorsque les données sont transformées; cet exemple montre que la statistique locale est sensible à la distribution des données d'attribut - même en utilisant des techniques de Monte Carlo!
Le deuxième exemple (données simulées) montre l'influence des données asymétriques sur le I global de Moran , même lors de l'utilisation de tests de permutation. Un exemple, dans R , suit:
library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n <- length(NB)
set.seed(4956)
x.norm <- rnorm(n)
rho <- 0.3 # autoregressive parameter
W <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value
Notez la différence des valeurs P. Les données asymétriques indiquent qu'il n'y a pas de regroupement à un niveau de signification de 5% (p = 0,167) tandis que les données normalement distribuées indiquent qu'il y en a (p = 0,013).
Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Use of local Moran's I and GIS to identifier pollution hotspots of Pb in urban soils of Galway, Ireland, Science of The Total Environment, Volume 398, Issues 1–3, 15 juillet 2008 , Pages 212-221
la source
Réponses:
(C'est tout simplement trop lourd à ce stade pour devenir un commentaire)
Cela concerne les tests locaux et globaux (pas une mesure d'auto-corrélation spécifique et indépendante de l'échantillon). Je peux comprendre que la de spécifique Moran I La mesure est une estimation biaisée de la corrélation ( l' interpréter dans les mêmes termes que le coefficient de corrélation de Pearson), je ne vois toujours pas comment le test d'hypothèse de permutation est sensible à la distribution originale de la variable ( soit en termes d'erreurs de type 1 ou de type 2).
Adapter légèrement le code que vous avez fourni dans le commentaire (les poids spatiaux
colqueen
manquaient);Lorsque l'on effectue des tests de permutation (dans ce cas, j'aime à le considérer comme un espace de confusion), le test d'hypothèse de l'auto-corrélation spatiale globale ne devrait pas être affecté par la distribution de la variable, car la distribution de test simulée changera essentiellement avec la distribution des variables d'origine. On pourrait probablement trouver des simulations plus intéressantes pour le démontrer, mais comme vous pouvez le voir dans cet exemple, les statistiques de test observées sont bien en dehors de la distribution générée pour l'original
PLUMB
et le journalPLUMB
(ce qui est beaucoup plus proche d'une distribution normale) . Bien que vous puissiez voir la distribution de test PLUMB enregistrée sous le décalage nul plus proche de la symétrie sur 0.J'allais suggérer cela comme une alternative de toute façon, transformant la distribution pour qu'elle soit approximativement normale. J'allais également suggérer de rechercher des ressources sur le filtrage spatial (et de même les statistiques locales et mondiales de Getis-Ord), bien que je ne sois pas sûr que cela aidera avec une mesure sans échelle non plus (mais peut-être peut-être utile pour les tests d'hypothèse) . Je reviendrai plus tard avec potentiellement plus de littérature d'intérêt.
la source