J'ai remarqué dans mon propre travail ce modèle lors de l'examen d'un corrélogramme spatial à différentes distances, un modèle en forme de U dans les corrélations émerge. Plus précisément, de fortes corrélations positives à de faibles distances diminuent avec la distance, puis atteignent une fosse à un point particulier puis remontent.
Voici un exemple tiré du blog Conservation Ecology, Macroecology Playground (3) - Spatial autocorrelation .
Ces auto-corrélations positives plus fortes à de plus grandes distances violent théoriquement la première loi de Tobler de la géographie, donc je m'attendrais à ce qu'elle soit causée par un autre modèle dans les données. Je m'attendrais à ce qu'ils atteignent zéro à une certaine distance, puis planent autour de 0 à d'autres distances (ce qui se produit généralement dans les parcelles de séries chronologiques avec des termes AR ou MA d'ordre faible).
Si vous effectuez une recherche d'images Google, vous pouvez trouver quelques autres exemples de ce même type de motif (voir ici pour un autre exemple). Un utilisateur du site SIG a publié deux exemples où le modèle apparaît pour Moran's I mais n'apparaît pas pour Geary's C ( 1 , 2 ). En conjonction avec mon propre travail, ces modèles sont observables pour les données originales, mais lors de l'ajustement d'un modèle avec des termes spatiaux et de la vérification des résidus, ils ne semblent pas persister.
Je n'ai pas trouvé d'exemples dans l'analyse de séries chronologiques qui affichent un tracé ACF similaire, donc je ne suis pas sûr du modèle dans les données d'origine qui provoquerait cela. Scortchi dans ce commentaire spécule qu'un modèle sinusoïdal peut être provoqué par un modèle saisonnier omis dans cette série chronologique. Le même type de tendance spatiale pourrait-il provoquer ce modèle dans un corrélogramme spatial? Ou s'agit-il d'un autre artefact de la façon dont les corrélations sont calculées?
Voici un exemple de mon travail. L'échantillon est assez grand, et les lignes gris clair sont un ensemble de 19 permutations des données originales pour générer une distribution de référence (donc on peut voir que la variance dans la ligne rouge devrait être assez petite). Ainsi, bien que l'intrigue ne soit pas aussi dramatique que la première, la fosse puis l'élévation à d'autres distances apparaissent assez facilement dans l'intrigue. (Notez également que la fosse dans la mienne n'est pas négative, tout comme les autres exemples, si cela rend matériellement les exemples différents, je ne sais pas.)
Voici une carte de densité du noyau des données pour voir la distribution spatiale qui a produit ledit corrélogramme.
la source
Réponses:
Explication
Un corrélogramme en forme de U est un phénomène courant lorsque son calcul est effectué sur toute l'étendue de la région dans laquelle un phénomène se produit. Elle se manifeste notamment avec des phénomènes de type panache dans la nature, comme une contamination localisée dans les sols ou les eaux souterraines ou, comme dans ce cas, où le phénomène est associé à une densité de population qui diminue généralement vers la limite de la zone d'étude (le District de Columbia, qui a un noyau urbain à haute densité et est entouré de banlieues à faible densité).
Rappelons que le corrélogramme résume le degré de similitude de toutes les données selon leur quantité de séparation spatiale. Des valeurs plus élevées sont plus similaires, des valeurs plus faibles moins similaires. Les seules paires de points où la plus grande séparation spatiale peut être obtenue sont celles situées sur des côtés diamétralement opposés de la carte. Le corrélogramme compare donc les valeurs le long de la frontière entre elles. Lorsque les valeurs des données ont tendance à diminuer globalement vers la limite, le corrélogramme ne peut comparer que les petites valeurs aux petites valeurs. Il les trouvera probablement très similaires.
Par conséquent, pour tout phénomène semblable à un panache ou autre phénomène spatialement unimodal, nous pouvons prévoir avant de collecter les données que le corrélogramme diminuera probablement jusqu'à ce que la moitié environ du diamètre de la région soit atteinte, puis qu'il commencera à augmenter.
Un effet secondaire: la variabilité de l'estimation
Un effet secondaire est qu'il y a plus de paires de points de données disponibles pour estimer le corrélogramme à de courtes distances qu'à de plus longues distances. À des distances moyennes à longues, les «populations de décalage» de ces paires de points diminuent. Cela augmente la variabilité du corrélogramme empirique. Parfois, cette variabilité seule créera des modèles inhabituels dans le corrélogramme. Évidemment, un grand ensemble de données a été utilisé dans la figure du haut ("Moran's I"), ce qui réduit cet effet, mais néanmoins l'augmentation de la variabilité est évidente dans les amplitudes plus importantes des fluctuations locales du graphique à des distances supérieures à 3500 environ: exactement la moitié de la distance maximale.
Une règle empirique de longue date dans les statistiques spatiales consiste donc à éviter de calculer le corrélogramme à des distances supérieures à la moitié du diamètre de la zone d'étude et à éviter d'utiliser de telles distances pour la prévision (comme l'interpolation).
Pourquoi la périodicité spatiale n'est pas la réponse complète
La littérature sur les statistiques spatiales note en effet que des modèles spatiaux périodiques peuvent provoquer un rebond du corrélogramme à de plus grandes distances. Les géologues des mines appellent cela «l'effet de trou». Une classe de variogrammes incorporant un terme sinusoïdal existe pour le modéliser. Cependant, ces variogrammes imposent tous une forte décroissance avec la distance également, et ne peuvent donc pas expliquer le retour extrême à la corrélation complète indiquée dans la première figure. De plus, dans deux ou plusieurs dimensions, il est impossible qu'un phénomène soit à la fois isotrope (dans lequel les corrélogrammes directionnels sont tous les mêmes) et périodique. Par conséquent, la périodicité des données à elle seule ne tiendra pas compte de ce qui est montré.
Ce qui peut être fait
La bonne façon de procéder dans de telles circonstances est d'accepter que le phénomène n'est pas stationnaire et d'adopter un modèle qui le décrit en termes de forme déterministe sous-jacente - une "dérive" ou une "tendance" - avec des fluctuations supplémentaires autour de cette dérive. qui peut avoir une autocorrélation spatiale (et temporelle). Une autre approche des données comme le nombre de crimes consiste à étudier une variable connexe différente, comme le crime par unité de population.
la source