Lorsqu'il s'agit de rasters de différentes résolutions, faut-il rééchantillonner à la résolution la plus élevée ou la plus basse?

16

Je recherche des recommandations sur les meilleures pratiques pour gérer les couches de données raster avec différentes résolutions et projections. Le conseil qui m'a été donné est de toujours rééchantillonner sur la couche avec la résolution la plus basse avant d'effectuer une analyse, mais cela me semble être un énorme gaspillage de précision et je n'ai jamais reçu d'explication solide pour expliquer pourquoi cela devrait être fait.

Quand est-il raisonnable de rééchantillonner pour correspondre à une grille de résolution supérieure et quelles sont les implications par rapport au rééchantillonnage à une résolution inférieure?

Je me rends compte que cela dépend probablement beaucoup de la situation. Je recherche principalement des directives générales, mais voici mon scénario spécifique pour référence:

Scénario: Je cherche à construire un modèle de régression spatiale prédisant l'utilisation des terres en fonction d'une variété de couches environnementales et socio-économiques. Ma carte d'utilisation des terres est dérivée de Landsat et donc d'une résolution de 30 m. Des exemples de couches explicatives comprennent le SRTM DEM (3 secondes d'arc, ~ 90 m) et les couches climatiques Bioclim (30 secondes d'arc, ~ 1 km).

Matt SM
la source
1
Pourriez-vous fournir plus d'informations sur le modèle de régression et la méthode de mise en œuvre? +1 pour une question intéressante et bien construite!
Aaron
Je compare le couvert forestier à deux moments et j'utilise un modèle de régression logistique avec la probabilité (binaire) de déforestation comme réponse. Je vais l'implémenter dans R.
Matt SM

Réponses:

17

En fait, ce n'est pas tout dépendant de la situation et c'est une erreur statistique.

Chaque fois que vous rééchantillonnez à une résolution plus élevée, vous introduisez une fausse précision. Considérons un ensemble de données mesurées en pieds en nombres entiers uniquement. Tout point donné peut être à +/- 0,5 pied de son emplacement réel. Si vous rééchantillonnez au dixième près, vous dites maintenant qu'un nombre donné n'est pas à plus de +/- 0,1 de son emplacement réel. Pourtant, vous savez que vos mesures d'origine n'étaient pas si précises et vous travaillez maintenant dans la marge d'erreur. Cependant, si vous allez dans l'autre sens et rééchantillonnez à la résolution inférieure, vous savez que toute valeur ponctuelle donnée est certainement précise car elle est contenue dans la marge d'erreur de l'échantillon le plus grand.

En dehors des mathématiques statistiques, le premier endroit qui vient à l'esprit est l'arpentage. Les relevés plus anciens ne précisaient que les relèvements jusqu'à la demi-minute la plus proche et les distances au dixième de pied. Le tracé d'un tracé de limite avec ces mesures peut souvent entraîner une erreur de fermeture (le point de départ et le point final doivent être identiques mais ne le sont pas) mesurés en pieds. Les relevés modernes vont au moins à la seconde et au centième de pied le plus proche. Les valeurs dérivées (telles que l'aire d'un lot) peuvent être considérablement affectées par la différence de précision. La valeur dérivée elle-même peut également être donnée comme trop précise.

Dans votre cas d'analyse, si vous rééchantillonnez à une résolution plus élevée, vos résultats impliqueront une précision beaucoup plus grande que les données sur lesquelles ils sont basés. Considérez votre SRTM à 90m. Quelle que soit la méthode utilisée pour mesurer l'élévation (moyenne / rendement moyen / retour), la plus petite unité (pixel) qui peut être différenciée de ses voisins est de 90 m. Si vous rééchantillonnez cela à 30 m, soit:

  • vous supposez que les neuf pixels résultants ont la même élévation alors qu'en vérité peut-être un seul - le centre ou le coin supérieur gauche - (ou aucun!) est
  • vous interpolez entre les pixels, créant des valeurs dérivées non présentes avant

Ainsi, dans les deux cas, vous introduisez une fausse précision car vos nouveaux sous-échantillons n'ont pas été réellement mesurés.

Question connexe: Quelles sont les pratiques disponibles pour modéliser l'aptitude des terres?

Chris W
la source
Cela vaut certainement pour les données ponctuelles. Mais je me demande si c'est différent pour les données raster qui font la moyenne d'une quantité spatiale variant continuellement où il y a une précision de localisation et une précision de la quantité mesurée. De plus, différentes quantités ont différents niveaux de variation spatiale. Par exemple, le rééchantillonnage des données d'élévation à une résolution plus élevée doit introduire plus d'erreurs dans les régions montagneuses que dans les Prairies.
Matt SM
@MattSM C'est vrai pour toutes les données spatiales, et aggravé par l'erreur statistique de la quantité mesurée. Considérez votre SRTM à 90m. Quelle que soit la méthode utilisée pour mesurer l'élévation (moyenne / rendement moyen / retour), la plus petite unité (pixel) qui peut être différenciée de ses voisins est de 90 m. Si vous rééchantillonnez cela à 30 m, vous dites maintenant que les 9 pixels résultants ont la même élévation alors qu'en vérité, peut-être qu'un seul (ou aucun!) Est - le centre ou le coin supérieur gauche. Ou vous interpolez entre les pixels, créant des valeurs qui n'étaient pas présentes auparavant, donc une fausse précision. Et oui, la plage de valeurs joue sur l'erreur potentielle.
Chris W
Tout comme une note latérale, il est possible d'interpoler des caractéristiques spécifiques dans des cas spéciaux où le motif est clairement limité - une caractéristique non géographique qui vient à l'esprit est la reconstruction des informations de plaque d'immatriculation à partir de photographies dont la résolution est trop faible pour être lue. Mais vous devez savoir ce que vous regardez. Je me souviens de certains cas où la reconstruction de la plaque d'immatriculation a échoué parce que la plaque en question était dans un script non européen tel que l'arabe.
Steve Barnes
Qu'en est-il des rasters avec une résolution basée sur l'arc, n'ont-ils pas de cellules de grille qui pourraient être de différentes zones / proportions à différentes zones?
CMCDragonkai
@CMCDragonkai Je ne sais pas trop comment résoudre ce problème, car vous entrez dans la représentation des données par rapport au format et aux systèmes de coordonnées / projections. Oui, la zone géographique d'un raster n'est pas nécessairement aussi uniforme que les pixels carrés (ou tout autre rapport hauteur / largeur). De nombreuses spécifications de données sat vous le diront (le pixel est x au nadir et y au bord de l'andain). Mais les problèmes de rééchantillonnage s'appliquent toujours - si quoi que ce soit, cela aggrave le problème. (Et désolé pour le retard, je n'ai pas été sur SE depuis un certain temps.)
Chris W