Qu'est-ce qui cause un motif en U dans le corrélogramme spatial?

12

J'ai remarqué dans mon propre travail ce modèle lors de l'examen d'un corrélogramme spatial à différentes distances, un modèle en forme de U dans les corrélations émerge. Plus précisément, de fortes corrélations positives à de faibles distances diminuent avec la distance, puis atteignent une fosse à un point particulier puis remontent.

Voici un exemple tiré du blog Conservation Ecology, Macroecology Playground (3) - Spatial autocorrelation .

Morrel's I Correlogram

Ces auto-corrélations positives plus fortes à de plus grandes distances violent théoriquement la première loi de Tobler de la géographie, donc je m'attendrais à ce qu'elle soit causée par un autre modèle dans les données. Je m'attendrais à ce qu'ils atteignent zéro à une certaine distance, puis planent autour de 0 à d'autres distances (ce qui se produit généralement dans les parcelles de séries chronologiques avec des termes AR ou MA d'ordre faible).

Si vous effectuez une recherche d'images Google, vous pouvez trouver quelques autres exemples de ce même type de motif (voir ici pour un autre exemple). Un utilisateur du site SIG a publié deux exemples où le modèle apparaît pour Moran's I mais n'apparaît pas pour Geary's C ( 1 , 2 ). En conjonction avec mon propre travail, ces modèles sont observables pour les données originales, mais lors de l'ajustement d'un modèle avec des termes spatiaux et de la vérification des résidus, ils ne semblent pas persister.

Je n'ai pas trouvé d'exemples dans l'analyse de séries chronologiques qui affichent un tracé ACF similaire, donc je ne suis pas sûr du modèle dans les données d'origine qui provoquerait cela. Scortchi dans ce commentaire spécule qu'un modèle sinusoïdal peut être provoqué par un modèle saisonnier omis dans cette série chronologique. Le même type de tendance spatiale pourrait-il provoquer ce modèle dans un corrélogramme spatial? Ou s'agit-il d'un autre artefact de la façon dont les corrélations sont calculées?


Voici un exemple de mon travail. L'échantillon est assez grand, et les lignes gris clair sont un ensemble de 19 permutations des données originales pour générer une distribution de référence (donc on peut voir que la variance dans la ligne rouge devrait être assez petite). Ainsi, bien que l'intrigue ne soit pas aussi dramatique que la première, la fosse puis l'élévation à d'autres distances apparaissent assez facilement dans l'intrigue. (Notez également que la fosse dans la mienne n'est pas négative, tout comme les autres exemples, si cela rend matériellement les exemples différents, je ne sais pas.)

entrez la description de l'image ici

Voici une carte de densité du noyau des données pour voir la distribution spatiale qui a produit ledit corrélogramme.

KDE Crime in DC

Andy W
la source
1
Je ne suis pas sûr que ce soit correct, donc je ne le poste pas comme réponse, mais je suppose que sur de plus petites distances, très peu d'observations sont à proximité et celles qui sont très similaires. À des distances modestes, plus d'observations deviennent "proches", mais elles sont moins similaires, donc l'effet disparaît. À de grandes distances, tout est à proximité, donc des effets importants mais éloignés reculer. (High-five pour avoir étudié ma ville natale, btw.)je
Sycorax dit Reinstate Monica
Je peux voir d'où cela vient de @ user777, bien que je puisse m'attendre à un argument similaire qui ferait en sorte que le tracé passe à 0 car asymptotiquement le voisinage spatial s'agrandit. Autrement dit, à mesure que le quartier s'agrandit, la moyenne du quartier va se rapprocher de la moyenne. Dans ma tête (je pense), cela ferait aller la corrélation vers zéro, pas un, mais je pourrais facilement me tromper. (Le même argument devrait également s'appliquer aux séries chronologiques, et je ne me souviens pas avoir vu de graphiques ACF pour des séries chronologiques qui ressemblent à cela.)
Andy W
Le kde de DC me rappelle un peu l'échiquier. À quoi ressemblerait le tracé d'autocorrélation spatiale d'un échiquier? Je me demande si ce ne serait pas élevé à des distances proches (même carré), bas un peu plus loin (carré différent), puis encore plus haut. Je ne connais pas assez ce sujet pour savoir si c'est la réponse, cependant.
gung - Réintègre Monica
@gung, cela dépend de la façon dont vous formulez la distance dans ce cas. Pour un damier avec contiguïté reine, il serait synonyme d'un terme auto-régressif négatif, ce qui, pour une série chronologique, ferait d'un tracé ACF une alternative entre les corrélations positives et négatives (et l'onde s'atténuerait, probablement très rapidement dans ce cas). ). C'est plus compliqué cependant en analyse spatiale qu'en séries chronologiques. Je ne qualifierais cependant pas ce motif de damier.
Andy W
2
Votre ensemble de données n'a pas vraiment une couverture spatiale suffisante pour que vous devriez estimer les autocovariances à une distance de 5 kilomètres (toute la zone ne fait pas plus de 10 kilomètres et vous voulez généralement avoir un ensemble de données qui couvre plusieurs fois la longueur de corrélation.) Il me semble que vous avez essentiellement trois "taches" de criminalité élevée dans une forme à peu près triangulaire, avec les taches à environ 5K les unes des autres et des écarts entre les deux. Il n'est donc pas surprenant de voir une corrélation positive à cette longueur.
Brian Borchers

Réponses:

4

Explication

Un corrélogramme en forme de U est un phénomène courant lorsque son calcul est effectué sur toute l'étendue de la région dans laquelle un phénomène se produit. Elle se manifeste notamment avec des phénomènes de type panache dans la nature, comme une contamination localisée dans les sols ou les eaux souterraines ou, comme dans ce cas, où le phénomène est associé à une densité de population qui diminue généralement vers la limite de la zone d'étude (le District de Columbia, qui a un noyau urbain à haute densité et est entouré de banlieues à faible densité).

Rappelons que le corrélogramme résume le degré de similitude de toutes les données selon leur quantité de séparation spatiale. Des valeurs plus élevées sont plus similaires, des valeurs plus faibles moins similaires. Les seules paires de points où la plus grande séparation spatiale peut être obtenue sont celles situées sur des côtés diamétralement opposés de la carte. Le corrélogramme compare donc les valeurs le long de la frontière entre elles. Lorsque les valeurs des données ont tendance à diminuer globalement vers la limite, le corrélogramme ne peut comparer que les petites valeurs aux petites valeurs. Il les trouvera probablement très similaires.

Par conséquent, pour tout phénomène semblable à un panache ou autre phénomène spatialement unimodal, nous pouvons prévoir avant de collecter les données que le corrélogramme diminuera probablement jusqu'à ce que la moitié environ du diamètre de la région soit atteinte, puis qu'il commencera à augmenter.

Un effet secondaire: la variabilité de l'estimation

Un effet secondaire est qu'il y a plus de paires de points de données disponibles pour estimer le corrélogramme à de courtes distances qu'à de plus longues distances. À des distances moyennes à longues, les «populations de décalage» de ces paires de points diminuent. Cela augmente la variabilité du corrélogramme empirique. Parfois, cette variabilité seule créera des modèles inhabituels dans le corrélogramme. Évidemment, un grand ensemble de données a été utilisé dans la figure du haut ("Moran's I"), ce qui réduit cet effet, mais néanmoins l'augmentation de la variabilité est évidente dans les amplitudes plus importantes des fluctuations locales du graphique à des distances supérieures à 3500 environ: exactement la moitié de la distance maximale.

Une règle empirique de longue date dans les statistiques spatiales consiste donc à éviter de calculer le corrélogramme à des distances supérieures à la moitié du diamètre de la zone d'étude et à éviter d'utiliser de telles distances pour la prévision (comme l'interpolation).

Pourquoi la périodicité spatiale n'est pas la réponse complète

La littérature sur les statistiques spatiales note en effet que des modèles spatiaux périodiques peuvent provoquer un rebond du corrélogramme à de plus grandes distances. Les géologues des mines appellent cela «l'effet de trou». Une classe de variogrammes incorporant un terme sinusoïdal existe pour le modéliser. Cependant, ces variogrammes imposent tous une forte décroissance avec la distance également, et ne peuvent donc pas expliquer le retour extrême à la corrélation complète indiquée dans la première figure. De plus, dans deux ou plusieurs dimensions, il est impossible qu'un phénomène soit à la fois isotrope (dans lequel les corrélogrammes directionnels sont tous les mêmes) et périodique. Par conséquent, la périodicité des données à elle seule ne tiendra pas compte de ce qui est montré.

Ce qui peut être fait

La bonne façon de procéder dans de telles circonstances est d'accepter que le phénomène n'est pas stationnaire et d'adopter un modèle qui le décrit en termes de forme déterministe sous-jacente - une "dérive" ou une "tendance" - avec des fluctuations supplémentaires autour de cette dérive. qui peut avoir une autocorrélation spatiale (et temporelle). Une autre approche des données comme le nombre de crimes consiste à étudier une variable connexe différente, comme le crime par unité de population.

whuber
la source
Merci, pensez-vous qu'une pondération ad hoc pour les effets de bord s'impose? (Cela peut être exagéré pour l'analyse exploratoire des résidus du modèle.) Ma thèse J'utilise en fait une dérive spatiale non linéaire et des termes de tendance - le crime par unité de population est ennuyeux pour plusieurs raisons. La population résidentielle n'est pas vraiment la ligne de base d'intérêt - elle ressemble plus à la marche autour de la population. Dans les zones urbaines, cela peut gonfler beaucoup (20 à 30 fois) pendant certaines heures et est plus lié aux institutions non résidentielles (travail et divertissement).
Andy W
Vous avez beaucoup de choix, Andy, car il n'y a aucun moyen d'identifier un modèle unique: vous devez décider où vous souhaitez arrêter la modélisation des valeurs en termes de dérive spatiale et commencer à les modéliser (ou plutôt, leurs résidus) avec un modèle spatial stochastique. Le corrélogramme en forme de U peut être compris comme une forte indication qu'un certain mécanisme de modélisation de la dérive est nécessaire. La normalisation par une population pertinente (même si elle ne peut être que grossièrement estimée) est une méthode à votre disposition. L'inclusion de mesures de la population (ou de l'utilisation, etc.) comme covariables en est une autre.
whuber
Je me suis rapproché en utilisant juste un large éventail de mesures de l'utilisation des sols d'activité (bars, stations-service, hôpital, écoles, etc.) plus les termes spatiaux. Voici la carte des prédictions qui maintiennent ces autres covariables constantes . Il reste cependant un tout petit peu d'auto-corrélation résiduelle. Je suis sceptique étant donné l'erreur de la mesure dans laquelle la cartographie dasymétrique de la population sur de petites localités sera utile, mais j'imagine que je procéderai éventuellement à cette analyse.
Andy W
C'est une approche fondée sur des principes: laissez la théorie guider le développement de la composante de dérive du modèle, puis évaluez les résidus pour décider s'il vaudrait la peine de modéliser leur autocorrélation spatiale. Dans de nombreux cas, la plupart des relations spatiales apparentes sont correctement expliquées par des termes de dérive et il est rare d'avoir besoin de l'ensemble des mécanismes géostatistiques. Un aspect intrigant de votre problème est que la métrique sous-jacente (distance spatiale) devrait sans doute être le temps de trajet ou la distance de trajet le long du réseau routier plutôt que la distance euclidienne.
whuber