Comment quadriller des données catégorielles inégalement échantillonnées?

10

Je recherche une méthode de quadrillage de données catégorielles. J'ai extrait des cartes marines et des fiches de terrain une collection de points précisant la nature de la surface du fond de l'océan. Ces données sont catégoriques plutôt que numériques et elles ne sont pas échantillonnées régulièrement ni même au hasard. Les cartes marines sont créées pour faciliter la navigation et l'ancrage; ils ne sont pas créés pour cartographier l'habitat. En tant que tel, plus de sondages sont effectués près du rivage où des profondeurs relativement faibles peuvent présenter un danger pour la navigation et où les navires ont tendance à mouiller. Plus loin du rivage, où les profondeurs sont plus que suffisantes pour la navigation et où l'ancrage n'est pas pratique, les sondages sont beaucoup moins fréquents.

Quelqu'un d'autre a-t-il essayé de créer des cartes de substrat maillées à partir de cartes marines?

J'ai regardé les polygones de Thiessen (Vornoi) mais la concentration des sondages le long des côtes conduit à un fin `` nid d'abeille '' le long du rivage, de grands polygones au large et entre de longs polygones en forme de tarte s'étendant au large. Le maillage utilisant le plus proche voisin donne à peu près le même résultat.

J'ai besoin d'un moyen de limiter l'influence des points peu profonds près du rivage - un moyen de limiter ces longs polygones en forme de tarte. Dans les eaux plus profondes, je ne m'attends pas à ce que la nature du fond soit une continuation du fond proche du rivage. J'ai commencé à penser selon deux axes - tous deux utilisant la profondeur. L'une consiste à pondérer le choix du voisin «le plus proche» en utilisant la différence de profondeur entre une cellule de grille et des points voisins. Une autre consiste à désélectionner des points voisins dont la profondeur dépasse certaines tolérances spécifiées. Ou, peut-être plutôt qu'une tolérance prédéfinie, je pourrais classer les plages de profondeur puis limiter le choix des points voisins à ceux de la même plage de profondeur ou du même groupe.

Avez-vous des réflexions sur la façon de mettre en œuvre l'une de ces deux options?

Depuis que j'ai parlé avec des collègues sur d'autres forums, j'ai envisagé quelques autres approches. La première consiste à utiliser une barrière - le contour de 100 mètres de profondeur - pour limiter l'influence des données à proximité du rivage. Le défi de cette approche est que toutes les routines d'interpolation ESRI qui peuvent utiliser des barrières sont conçues pour fonctionner avec des données continues plutôt qu'avec des données discontinues. Je pourrais utiliser les barrières pour diviser les points en points peu profonds près du rivage et en points plus profonds avant de créer des polygones de Thiessen. Cependant, j'anticipe des effets de bord rampants car ArcGIS crée des polygones de Thiessen pour les zones rectangulaires et non pour les zones complexes.

La deuxième approche - suggérée par plusieurs collègues - était le krigeage. J'avais initialement rejeté le krigeage d'emblée parce que je ne l'ai jamais envisagé que pour des données continues. Le défi du krigeage est qu'il n'est pas non plus conçu pour les données catégorielles. Maintenant, je regarde le cokrigeage avec la profondeur et la nature de la surface mais, tout type de krigeage va impliquer l'utilisation de codes numériques entiers pour la nature de la surface. Ensuite, les codes numériques à virgule flottante résultants devront être ramenés au codage entier d'origine. Pas beau.

Quelqu'un peut-il suggérer d'autres lignes à suivre? (On pourrait peut-être utiliser l'analyse du terrain. Par exemple, des pentes plus raides que l'angle de repos ne pourraient pas être des sédiments. Je recherche quelque chose de plus simple et, en tout cas, je n'ai pas de données à une résolution spatiale suffisante.)

Cordialement,

Doug Hrynyk
la source

Réponses:

4

L'approche de krigeage, correctement mise en œuvre, est prometteuse.

Pour commencer, examinons les «modèles géostatistiques linéaires généralisés» décrits par Diggle et Ribeiro dans Model-based Geostatistics (Springer 2007). L'idée sous-jacente est séduisante et flexible: un processus stochastique spatial (qui est spatialement continu ) détermine les différentes probabilités des catégories. On utilise les catégories observées à des points irréguliers pour déduire les propriétés statistiques de ce processus sous-jacent, y compris sa structure de corrélation spatiale (variogramme). Le krigeage crée alors une surface de probabilité cohérente avec les observations. À ce stade, vous pouvez effectuer des simulations géostatistiques ou vous pouvez faire des cartes liées aux probabilités (comme des cartes des catégories de probabilité maximale, j'imagine).

Cela semble sophistiqué, et ça l'est. Cependant, la discussion de Diggle et Ribeiro est assez accessible - bien qu'elle soit mathématique et suppose une certaine connaissance des statistiques, elle ne dépend pas beaucoup non plus - et la plupart de leurs techniques sont implémentées dans les packages R qu'ils décrivent, geoRet geoRGLM. En fait, il est juste de considérer ce livre comme le manuel de ces packages.

Comme d'autres threads sur ce site l'attestent, il est relativement facile d'interfacer R avec les données SIG (y compris les fichiers de formes et divers formats raster), donc ce n'est pas un problème.

whuber
la source