J'ai produit des modèles additifs généralisés pour la déforestation. Pour prendre en compte l'autocorrélation spatiale, j'ai inclus latitude et longitude en tant que terme d'interaction lissé (c'est-à-dire s (x, y)).
Je me suis basé sur la lecture de nombreux articles dans lesquels les auteurs disaient "pour rendre compte de l'autocorrélation spatiale, les coordonnées des points étaient incluses sous forme de termes lissés", mais elles n'ont jamais expliqué pourquoi cela l'explique réellement. C'est assez frustrant. J'ai lu tous les livres que je peux trouver sur les GAM dans l'espoir de trouver une réponse, mais la plupart (par exemple, les modèles additifs généralisés, une introduction avec R, SN Wood) abordent simplement le sujet sans expliquer.
J'apprécierais vraiment si quelqu'un pouvait expliquer POURQUOI l'inclusion de comptes de latitude et de longitude pour l'autocorrélation spatiale, et ce que signifie "comptabilité" pour cela - est-ce simplement suffisant pour l'inclure dans le modèle, ou si vous comparez un modèle avec s (x, y) et un modèle sans? Et la déviance expliquée par le terme indique-t-elle l'étendue de l'autocorrélation spatiale?
Réponses:
La principale question dans tout modèle statistique concerne les hypothèses qui sous-tendent toute procédure d'inférence. Dans le type de modèle que vous décrivez, les résidus sont supposés indépendants. S'ils ont une dépendance spatiale et que cela n'est pas modélisé dans la partie systématique du modèle, les résidus de ce modèle présenteront également une dépendance spatiale ou, en d'autres termes, ils seront autocorrélés dans l'espace. Une telle dépendance invaliderait la théorie qui produit des valeurs p à partir de statistiques de test dans le GAM, par exemple; vous ne pouvez pas faire confiance aux valeurs-p car elles ont été calculées en supposant l'indépendance.
Vous disposez de deux options principales pour gérer ces données. i) modéliser la dépendance spatiale dans la partie systématique du modèle, ou ii) assouplir l'hypothèse d'indépendance et estimer la corrélation entre les résidus.
i) est ce qui est tenté en incluant un lissage des emplacements spatiaux dans le modèle. ii) nécessite l'estimation de la matrice de corrélation des résidus souvent lors de l'ajustement du modèle à l'aide d'une procédure telle que les moindres carrés généralisés. La qualité de la dépendance spatiale dépendra de la nature et de la complexité de la dépendance spatiale et de la facilité avec laquelle elle peut être modélisée.
En résumé, si vous pouvez modéliser la dépendance spatiale entre les observations, les résidus sont plus susceptibles d'être des variables aléatoires indépendantes et ne violent donc pas les hypothèses de toute procédure inférentielle.
la source
"Autocorrélation spatiale" signifie différentes choses pour différentes personnes. Un concept général, cependant, est qu’un phénomène observé aux emplacements peut dépendre de manière certaine de (a) covariables, (b) emplacement et (c) de ses valeurs aux emplacements voisins . (Lorsque les définitions techniques varient en fonction du type de données considérées, du "chemin défini" et de ce que signifie "à proximité": toutes doivent être rendues quantitatives pour pouvoir continuer.)z
Pour voir ce qui pourrait se passer, considérons un exemple simple d'un tel modèle spatial pour décrire la topographie d'une région. Laissez l'altitude mesurée en un point être . Un modèle possible est que dépend d'une manière mathématique définie des coordonnées de , que j'écrirai dans cette situation à deux dimensions. Laissant représenter des écarts (hypothétiquement indépendants) entre les observations et le modèle (qui, comme d'habitude, sont supposés avoir une attente nulle), nous pouvons écrirez y(z) y z (z1,z2) ε
pour un modèle de tendance linéaire . La tendance linéaire (représentée par les et ) est un moyen de saisir l’idée que les valeurs proches et , pour close à , devrait tendre à se rapprocher les uns des autres. Nous pouvons même calculer cela en considérant la valeur attendue de la taille de la différence entre et , . Il s'avère que les mathématiques sont beaucoupβ1 β2 y(z) y(z′) z z′ y(z) y(z′) E[|y(z)−y(z′)|] plus simple si nous utilisons une mesure de différence légèrement différente: à la place, nous calculons la différence au carré attendue :
Ce modèle est exempt de toute autocorrélation spatiale explicite, car il ne contient aucun terme reliant directement aux valeurs proches .y(z) y(z′)
Un modèle alternatif, différent, ignore la tendance linéaire et suppose seulement qu'il existe une autocorrélation. Une façon de le faire consiste à utiliser la structure des déviations . Nous pourrions supposer queε(z)
et, pour rendre compte de notre anticipation de la corrélation, nous supposerons une sorte de "structure de covariance" pour le . Pour que cela ait un sens spatial, supposons la covariance entre et , égale à parce que a zéro signifie, tend à diminuer à mesure que et deviennent de plus en plus distants. Comme les détails ne comptent pas, appelons simplement cette covariance . Ceci est une autocorrélation spatiale.ε ε(z) ε(z′) E[ε(z)ε(z′)] ε z z′ C(z,z′) En effet, la corrélation (habituelle de Pearson) entre et esty(z) y(z′)
Dans cette notation, la différence au carré attendue précédemment de pour le premier modèle esty
(en supposant que ) parce que les de différents emplacements ont été supposés indépendants. J'ai écrit au lieu de pour indiquer qu'il s'agit de la fonction de covariance du premier modèle.z≠z′ ε C1 C
Lorsque les covariances de ne varient pas considérablement d'un endroit à l'autre (en fait, elles sont généralement supposées être constantes), cette équation montre que la différence au carré attendue de augmente de façon quadratique avec la séparation entre et . Le montant réel de l'augmentation est déterminé par les coefficients de tendance et .ε y z z′ β0 β1
Voyons quelles sont les différences au carré attendues dans le pour le nouveau modèle, modèle 2:y
Encore une fois, cela se comporte de la bonne façon: parce que nous avons pensé que devrait diminuer à mesure que et se séparent davantage, la différence attendue au carré « est en effet va jusqu'à avec l' augmentation de la séparation des lieux.C2(z,z′) z z′ y
La comparaison des deux expressions pour dans les deux modèles nous montre que dans le premier modèle joue un rôle mathématiquement identique à dans le deuxième modèle. (Il y a une constante additive qui s'y cache, enterrée dans les différentes significations de , mais cela n'a pas d'importance dans cette analyse.) Ergo , selon le modèle, corrélation spatiale est généralement représenté comme une combinaison d’une tendance et d’une structure de corrélation stipulée pour les erreurs aléatoires.( β 1 ( z 1 - z ' 1 ) + β 2 ( z 2 - z 2 ) ' ) 2 - 2 C 2 ( z , z ' ) C i ( z , z )E[(y(z)−y(z′))2] (β1(z1−z′1)+β2(z2−z2)′)2 −2C2(z,z′) Ci(z,z)
J'espère maintenant que la réponse à la question est claire: on peut représenter l'idée qui sous-tend la loi de Tobler sur la géographie ("tout est lié à tout le reste, mais les choses plus proches sont plus liées") de différentes manières. Dans certains modèles, la loi de Tobler est correctement représentée en incluant des tendances (ou termes de "dérive") qui sont des fonctions de coordonnées spatiales telles que la longitude et la latitude. Dans d’autres, la loi de Tobler est capturée au moyen d’une structure de covariance non triviale parmi des termes aléatoires additifs (leε ) En pratique, les modèles incorporent les deux méthodes. Le choix que vous choisissez dépend de ce que vous voulez accomplir avec le modèle et de votre vision de la manière dont l'autocorrélation spatiale se produit - qu'elle soit impliquée par des tendances sous-jacentes ou reflète des variations que vous souhaitez considérer comme aléatoires. Ni l'un ni l'autre n'a toujours raison et, dans un problème donné, il est souvent possible d'utiliser les deux types de modèles pour analyser les données, comprendre le phénomène et prévoir ses valeurs ailleurs (interpolation).
la source
Les autres réponses sont bonnes. Je voulais juste ajouter quelque chose à propos de la "comptabilisation" de l'autocorrélation spatiale. Parfois, cette affirmation est faite plus fortement dans le sens de "la comptabilisation de l'autocorrélation spatiale non expliquée par les covariables".
Cela peut donner une image trompeuse de ce que fait le lissage spatial. Ce n'est pas comme s'il y avait une file d'attente ordonnée dans la probabilité où le patient attend patiemment que les covariables aillent en premier, puis que le serveur lisse épongera les parties «inexpliquées». En réalité, ils ont tous la possibilité d'expliquer les données.
Cet article au titre bien nommé présente la question de manière très claire, même si c’est du point de vue d’un modèle CAR que les principes s’appliquent aux lisses GAM.
L'ajout d'erreurs corrélées spatialement peut gâcher l'effet fixe que vous aimez
La «solution» dans le document consiste à lisser les résidus au lieu de lisser l'espace. Cela aurait pour effet de permettre à vos covariables d'expliquer ce qu'elles peuvent. Bien sûr, il existe de nombreuses applications dans lesquelles ce ne serait pas une solution souhaitable.
la source
La corrélation spatiale est simplement la relation entre les coordonnées x et y et la magnitude de la surface résultante dans l’espace. Ainsi, l'autocorrélation entre les coordonnées peut être exprimée en termes de relation fonctionnelle entre les points voisins.
la source