J'obtiens quelques données avec le nombre de spécimens avec une demande pour l'interpoler en utilisant la méthode de krigeage.
Après quelques recherches, il est apparu que les résultats du krigeage (effectués dans ArcGIS Geostatistical Analyst avec des paramètres par défaut) n'étaient pas satisfaisants. Les valeurs interpolées sont très différentes des mesures (en particulier les plus élevées) et la surface ne semble pas fiable. Voici l'image:
je suppose que le problème principal est le nombre insuffisant d'échantillons.
Combien de points devons-nous utiliser pour obtenir des résultats fiables?
Ou peut-être que la méthode de krigeage n'est pas appropriée pour de telles valeurs diversifiées?
Réponses:
Lorsque vous utilisez des «valeurs par défaut», vous n'êtes pas vraiment en krigeage, vous appliquez simplement l'algorithme de krigeage - qui, comme vous l'avez trouvé, est médiocre lorsqu'il est utilisé avec ces données.
(Je vais monter sur une boîte à savon pour une brève diatribe: à mon avis, le moyen le plus rapide d'obtenir de mauvais résultats avec un programme informatique est d'accepter ses paramètres par défaut. ArcGIS est l'un des environnements les plus riches et les plus puissants pour obtenir de mauvais résultats cette manière. les est d' ordre moral ne pas utiliser le logiciel pour un travail important jusqu'à ce que vous comprenez comment le contrôler. En bas de la caisse à savon maintenant ...)
Pour que le krigeage fonctionne, vous devez effectuer une analyse statistique préliminaire intensive des données connues sous le nom de «variographie». La performance finale dépend des données ainsi que de vos compétences géostatistiques. (Des livres entiers ont été écrits sur la variographie, y compris les séminal Mining Geostatistics de Journel & Huijbregts et Variowin de Yvan Pannatier.) fin des années 1980), et en principe, vous pouvez krige en utilisant seulement deux ou trois points (je l'ai fait pour démontrer l'algorithme ), les règles de base dans la littérature vont d'un minimum de 20 points à 100 points et le consensus semble être d'environ 30 points.
Dans votre cas - bien que vous ne décriviez pas les données - vous avez des problèmes évidents, notamment une distribution très asymétrique et un manque évident de preuve de stationnarité. Celles-ci nécessitent un traitement statistique spécial ou des formes spécialisées de krigeage (comme un modèle linéaire généralisé spatial). Vous n'obtiendrez pas de bons résultats lors du krigeage de ces données tant que vous ne disposerez pas d'une très grande quantité de données.
La légende suggère que vous essayez de créer une grille de densité plutôt que d'interpoler des données: bien que les résultats des deux procédures puissent se ressembler, ils font des choses distinctement différentes et ont des interprétations distinctement différentes. Vous interpolez lorsque les données sont considérées comme des échantillons d'une surface continue hypothétique. L'interpolation prédit les valeurs non échantillonnées. Les exemples standard incluent les mesures d'élévation (qui échantillonnent la surface de la terre) et les mesures de température (qui échantillonnent un "champ de température"). Vous calculez une densité lorsque vous avez des informations complètes sur le montantde quelque chose et vous souhaitez représenter une version lissée de ce montant par unité de surface. (Contrairement à l'interpolation, il n'existe aucune valeur non échantillonnée à prévoir.) L'exemple standard est une densité de population: les données sont des dénombrements de tous les individus dans une zone; le résultat est une carte de la densité de population.
la source
Il y a deux questions distinctes, premièrement le nombre d'emplacements de données à utiliser pour estimer / modéliser le variogramme et deuxièmement le nombre d'emplacements de données à utiliser dans les équations de krigeage pour interpoler la valeur à un emplacement sans données (ou pour estimer la valeur moyenne sur une région). En supposant que vous utilisez un quartier de recherche en mouvement, plus de 15 à 20 emplacements de données dans le quartier dégraderont probablement les résultats car (1) seuls les emplacements de données les plus proches dans le quartier de recherche auront des poids non nuls, (2) avec plus de données la taille de la matrice à inverser est plus grande et la possibilité d'une matrice mal conditionnée augmente. Le nombre total d'emplacements de données nécessaires pour le krigeage dépend du nombre d'emplacements à interpoler et des modèles spatiaux de ces points ainsi que des emplacements de données. En bref,
En ce qui concerne l'estimation / modélisation du variogramme, c'est un problème très différent, voir par exemple
1991, Myers, DE, Sur l’estimation des variogrammes dans les actes du premier Inter. Conf. Stat. Comp., Cesme, Turquie,
30 mars-2 avril 1987, Vol II, American Sciences Press, 261-281
1987, A. Warrick et DE Myers, Optimization of Sampling Locations for Variogram Calculations Water Resources Research 23, 496-500
Ceux-ci peuvent être téléchargés sur www.u.arizona.edu/~donaldm
la source