Une base de données de (population, superficie, forme) peut être utilisée pour cartographier la densité de population en attribuant une valeur constante de population / superficie à chaque forme (qui est un polygone tel qu'un bloc de recensement, un secteur, un comté, un état, etc.). Cependant, les populations ne sont généralement pas réparties uniformément dans leurs polygones. La cartographie dasymétrique est le processus d'affinage de ces estimations de densité au moyen de données auxiliaires. C'est un problème important en sciences sociales comme l' indique cette récente revue .
Supposons donc que nous disposions d'une carte auxiliaire de la couverture terrestre (ou de tout autre facteur discret). Dans le cas le plus simple, nous pouvons utiliser des zones manifestement inhabitables comme des plans d'eau pour délimiter où la population ne se trouve pas et, par conséquent, affecter toute la population aux zones restantes. Plus généralement, chaque unité de recensement est découpée en portions de surfaces , . Notre jeu de données est ainsi augmenté à une liste de tuples
où est la population (supposée mesurée sans erreur) dans l'unité j et - bien que ce ne soit pas strictement le cas - nous pouvons supposer que chaque x j i est également exactement mesuré. En ces termes, l'objectif est de partitionner chaque y j en une somme
où chaque et z j i estime la population au sein de l'unité j résidant dans la classe de couverture terrestre i . Les estimations doivent être non biaisées. Cette partition affine la carte de densité de population en affectant la densité z j i / x j i à l'intersection du j ème polygone de recensement et de la i ème classe de couverture terrestre.
Ce problème diffère des paramètres de régression standard à bien des égards:
- Le partitionnement de chaque doit être exact.
- Les composants de chaque partition doivent être non négatifs.
- Il n'y a (par hypothèse) aucune erreur dans aucune des données: tous les chiffres de population et toutes les zones x j i sont corrects.
Il existe de nombreuses approches pour une solution, comme la méthode de " cartographie dasymétrique intelligente ", mais toutes celles que j'ai lues ont des éléments ad hoc et un potentiel évident de biais. Je cherche des réponses qui suggèrent des méthodes statistiques créatives et exploitables par ordinateur. La demande immédiate concerne une collection de c. - 10 6 Unités de recensement comptant en moyenne 40 personnes (bien qu'une fraction appréciable compte 0 personne) et une douzaine de classes de couverture terrestre.
Réponses:
Vous voudrez peut-être vérifier les travaux de Mitchel Langford sur la cartographie dasymétrique.
Il a construit des rasters représentant la répartition de la population du Pays de Galles et certaines de ses approches méthodologiques pourraient être utiles ici.
Mise à jour: Vous pourriez aussi jeter un oeil au travail de Jeremy Mennis ( en particulier ceux - ci deux articles).
la source
Question interessante. Voici un essai provisoire pour aborder cela sous un angle statistique. Supposons que nous trouvions un moyen d'attribuer un compte de population à chaque zonexji . Indiquez cette relation comme ci-dessous:
Clairement, quelle que soit la forme fonctionnelle que nous imposons àf(.) Sera au mieux une approximation de la relation réelle et donc la nécessité d'incorporer l'erreur dans l'équation ci-dessus. Ainsi, ce qui précède devient:
où,
L'hypothèse d'erreur de distribution sur le terme d'erreur est donnée à titre illustratif. Si nécessaire, nous pouvons le modifier selon les besoins.
Cependant, nous avons besoin d'une décomposition exacte de . Ainsi, nous devons imposer une contrainte sur les termes d'erreur et la fonction f ( . )yji f(.) Comme ci-dessous:
Notons le vecteur empilé de par z j et les termes déterministes empilés de f ( x j i , β ) par f j . Ainsi, nous avons:zji zj f(xji,β) fj
où,
La première contrainte d'indicateur capture l'idée que la somme des termes déterministes doit être additionnée à et la seconde capture l'idée que les résidus d'erreur doivent être additionnés à 0.yj
La sélection du modèle est plus délicate car nous décomposons exactement les observés . Peut-être, une façon d'aborder la sélection du modèle est de choisir le modèle qui produit la variance d'erreur la plus faible, c'est-à-dire celui qui donne l'estimation la plus basse de σ 2yj σ2 .
Modifier 1
En pensant un peu plus, la formulation ci-dessus peut être simplifiée car elle a plus de contraintes que nécessaire.
où,
Notons le vecteur empilé de par z j et les termes déterministes empilés de f ( x j i , β ) par f j . Ainsi, nous avons:zji zj f(xji,β) fj
où,
la source