De nouvelles façons de remplir les valeurs manquantes dans un raster

8

Je recherche des moyens robustes pour remplir les valeurs manquantes dans certains rasters. Ils ont tous une seule couche. Les valeurs manquantes sont constituées de pixels uniques à des correctifs de taille moyenne. Les rasters mesurent environ 1 000 x 1 000 pixels et les plus gros correctifs sont de 20 x 20 pixels.

Je suis tenté d'utiliser aregImpute dans le package Hmisc R. Quelqu'un l'a-t-il utilisé à cette fin?

cette approche semble très cool mais je pense qu'elle est uniquement destinée à produire des corrections esthétiques.

Explication détaillée de ceci:

Tous les rasters (j'en ai 36 au total) partagent la même étendue, ils se chevauchent et sont alignés. Chaque raster est une variable différente, j'ai rassemblé une variable provenant de différentes sources (télédétection, topographique et climatologique). Les rasters originaux se présentent sous différentes résolutions. Le plus petit étant à 30m. De là, ils atteignent jusqu'à 1 km. J'ai tout rééchantillonné en utilisant la convolution cubique (toutes les variables sont des continuos) à 1 km. J'ai un autre raster de 1 km où j'ai des données d'une variable d'intérêt pour certains points échantillonnés. J'ai donc formé un modèle utilisant ces points et les autres rasters comme covariables pour pouvoir générer un raster complet de cette variable. Malheureusement, la plupart des rasters covariables ont des valeurs manquantes, en fait pas grand-chose, mais je voudrais éliminer complètement le problème.

Je vous remercie.

ps je préfère utiliser R pour cela.

JEquihua
la source
Quelle est la raison du manque et pourquoi remplissez-vous les valeurs? (Ces deux éléments sont importants dans le choix d'une solution appropriée.) Qu'entendez-vous exactement par «robuste»? (Il a un sens statistique technique mais il n'est pas encore évident comment cela s'appliquerait ici.)
whuber
J'utilise les couches comme covariables pour un modèle prédictif. Le modèle que j'utilise ne gère pas les valeurs manquantes, il ne calcule donc simplement pas les pixels avec une valeur manquante dans aucun des rasters, laissant des trous dans ma "couche prédite". Peut-être que le mot robuste a été mal utilisé, je m'excuse. Ce que je rechercherais, c'est que l'imputation conserve la relation sous-jacente entre mes covariables et ma variable objective. Je ne sais pas comment appeler cela, l'hypothèse multiple?
JEquihua
Selon la variable, la missigness est causée par une défaillance du capteur ou une erreur de mesure remplacée par une valeur manquante.
JEquihua
Vos rasters se chevauchent-ils ou non? S'ils ne se chevauchent pas, ou si la quantité typique de chevauchement n'est que de deux ou trois rasters à un moment donné, il serait difficile d'obtenir beaucoup de valeur aregImpute. Sinon, c'est une approche prometteuse qui serait encore plus intéressante si vous incluiez des termes de corrélation spatiale dans le modèle.
whuber
1
Les données manquantes en raison de problèmes de détection sont toujours spatialement corrélées. Je soupçonne que toute méthode raisonnable qui explique cette corrélation, aussi simple soit-elle, fonctionnerait mieux que les méthodes les plus sophistiquées qui négligent cette corrélation. Le rééchantillonnage pourrait être un problème, mais ce que vous avez fait n'est pas clair. Une explication plus détaillée de votre question serait la bienvenue. (Un bon principe général consiste à effectuer vos analyses statistiques avec des données originales plutôt que des données rééchantillonnées si vous le pouvez, pour éviter les artefacts du rééchantillonnage.)
whuber

Réponses:

5

Je suis l'auteur du package R gapfill, qui est un outil flexible pour prédire les valeurs manquantes dans les ensembles de données de télédétection spatio-temporelles. https://CRAN.R-project.org/package=gapfill Cela pourrait être utile dans votre cas.

Pour un aperçu des méthodes publiées pour prédire les valeurs manquantes dans les ensembles de données de télédétection, voir le tableau 1 de la publication correspondante https://doi.org/10.1109/TGRS.2017.2785240 .

Florian
la source
1
Paquet intéressant. Bon travail!
aldo_tapia