Modèle d'estimation de la densité de population

Une base de données de (population, superficie, forme) peut être utilisée pour cartographier la densité de population en attribuant une valeur constante de population / superficie à chaque forme (qui est un polygone tel qu'un bloc de recensement, un secteur, un comté, un état, etc.). Cependant, les populations ne sont généralement pas réparties uniformément dans leurs polygones. La cartographie dasymétrique est le processus d'affinage de ces estimations de densité au moyen de données auxiliaires. C'est un problème important en sciences sociales comme l' indique cette récente revue .

Supposons donc que nous disposions d'une carte auxiliaire de la couverture terrestre (ou de tout autre facteur discret). Dans le cas le plus simple, nous pouvons utiliser des zones manifestement inhabitables comme des plans d'eau pour délimiter où la population ne se trouve pas et, par conséquent, affecter toute la population aux zones restantes. Plus généralement, chaque unité de recensement $j$ est découpée en $k$ portions de surfaces $x_{ji}$ , $i = 1, 2, \ldots, k$ . Notre jeu de données est ainsi augmenté à une liste de tuples

(y_{j}, x_{j 1}, x_{j 2}, \dots, x_{j k})

$(y_{j}, x_{j1}, x_{j2}, \ldots, x_{jk})$

où est la population (supposée mesurée sans erreur) dans l'unité et - bien que ce ne soit pas strictement le cas - nous pouvons supposer que chaque est également exactement mesuré. En ces termes, l'objectif est de partitionner chaque en une somme $y_{j}$ $j$ $x_{ji}$ $y_{j}$

y_{j} = z_{j 1} + z_{j 2} + \dots + z_{j k}

$y_j = z_{j1} + z_{j2} + \cdots + z_{jk}$

où chaque et estime la population au sein de l'unité résidant dans la classe de couverture terrestre . Les estimations doivent être non biaisées. Cette partition affine la carte de densité de population en affectant la densité à l'intersection du polygone de recensement et de la classe de couverture terrestre. $z_{ji} \ge 0$ $z_{ji}$ $j$ $i$ $z_{ji}/x_{ji}$ $j^{\text{th}}$ $i^{\text{th}}$

Ce problème diffère des paramètres de régression standard à bien des égards:

Le partitionnement de chaque doit être exact. $y_{j}$
Les composants de chaque partition doivent être non négatifs.
Il n'y a (par hypothèse) aucune erreur dans aucune des données: tous les chiffres de population et toutes les zones sont corrects. $y_{j}$ $x_{ji}$

Il existe de nombreuses approches pour une solution, comme la méthode de " cartographie dasymétrique intelligente ", mais toutes celles que j'ai lues ont des éléments ad hoc et un potentiel évident de biais. Je cherche des réponses qui suggèrent des méthodes statistiques créatives et exploitables par ordinateur. La demande immédiate concerne une collection de c. - Unités de recensement comptant en moyenne 40 personnes (bien qu'une fraction appréciable compte 0 personne) et une douzaine de classes de couverture terrestre. $10^{5}$ $10^{6}$

modeling unbiased-estimator spatial whuber
la source

Problème de formatage désormais résolu. C'était un bug.

Rob Hyndman

@Rob Merci et merci à toutes les personnes qui ont regardé ceci: j'ai vu vos commentaires avant qu'ils ne soient supprimés et je vous remercie de vos efforts.

whuber

Aussi celui-ci: P. A Zandbergen et D. A Ignizio, «Comparaison des techniques de cartographie dasymétrique pour les estimations de population sur de petites zones», Cartography and Geographic Information Science 37, no. 3 (2010): 199-214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/… qui semble appeler à la fusion.

fgregg

Cet article pourrait être utile: Hwahwan Kim et Xiaobai Yao, «L'interpolation pycnophylactique revisitée: intégration avec la méthode de cartographie dasymétrique», International Journal of Remote Sensing 31, no. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805

fgregg

Vous savez, la cartographie dasymétrique est finalement un problème d'inférence écologique. Le travail récent de K. Imai pourrait être utile: pan.oxfordjournals.org/content/16/1/41.abstract

fgregg

Réponses:

Vous voudrez peut-être vérifier les travaux de Mitchel Langford sur la cartographie dasymétrique.

Il a construit des rasters représentant la répartition de la population du Pays de Galles et certaines de ses approches méthodologiques pourraient être utiles ici.

Mise à jour: Vous pourriez aussi jeter un oeil au travail de Jeremy Mennis ( en particulier ceux - ci deux articles).

radek
la source

Je vous remercie. Ce travail fournit un pointeur vers un réseau de recherches récentes sur la cartographie dasymétrique.

whuber

Question interessante. Voici un essai provisoire pour aborder cela sous un angle statistique. Supposons que nous trouvions un moyen d'attribuer un compte de population à chaque zone $x_{ji}$ . Indiquez cette relation comme ci-dessous:

$z_{ji} = f(x_{ji},\beta)$

Clairement, quelle que soit la forme fonctionnelle que nous imposons à $f(.)$ Sera au mieux une approximation de la relation réelle et donc la nécessité d'incorporer l'erreur dans l'équation ci-dessus. Ainsi, ce qui précède devient:

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

où,

$\epsilon_{ji} \sim N(0,\sigma^2)$

L'hypothèse d'erreur de distribution sur le terme d'erreur est donnée à titre illustratif. Si nécessaire, nous pouvons le modifier selon les besoins.

Cependant, nous avons besoin d'une décomposition exacte de . Ainsi, nous devons imposer une contrainte sur les termes d'erreur et la fonction $y_{ji}$ $f(.)$ Comme ci-dessous:

$\sum_i{\epsilon_{ji}} = 0$

$\sum_i{f(x_{ji},\beta)} = y_j$

Notons le vecteur empilé de par et les termes déterministes empilés de par . Ainsi, nous avons: ${z_{ji}}$ $z_j$ ${f(x_{ji},\beta)}$ $f_j$

$z_j \sim N(f_j,\sigma^2 I) I({f_j}' e = y_j) I((z_j-f_j)' e = 0)$

où,

$e$ est un vecteur de ceux de dimension appropriée.

La première contrainte d'indicateur capture l'idée que la somme des termes déterministes doit être additionnée à et la seconde capture l'idée que les résidus d'erreur doivent être additionnés à 0. $y_j$

La sélection du modèle est plus délicate car nous décomposons exactement les observés . Peut-être, une façon d'aborder la sélection du modèle est de choisir le modèle qui produit la variance d'erreur la plus faible, c'est-à-dire celui qui donne l'estimation la plus basse de $y_j$ $\sigma^2$ .

Modifier 1

En pensant un peu plus, la formulation ci-dessus peut être simplifiée car elle a plus de contraintes que nécessaire.

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

où,

$\epsilon_{ji} \sim N(0,\sigma^2)$

Notons le vecteur empilé de par et les termes déterministes empilés de par . Ainsi, nous avons: ${z_{ji}}$ $z_j$ ${f(x_{ji},\beta)}$ $f_j$

$z_j \sim N(f_j,\sigma^2 I) I({z_j}' e = y_j)$

où,

$e$ est un vecteur de ceux de dimension appropriée.

$z_j$

la source

@Srikant Merci. Je pensais dans le même sens lorsque j'ai posé la question et j'ai depuis testé un GLM (distribution de Poisson avec lien linéaire ) ainsi que d'autres modèles. Malheureusement, il semble maintenant que tout modèle basé uniquement sur le type et la proportion de couverture terrestre ne fonctionnera pas bien: un échantillon de ces données suggère que les schémas de population dépendent d'un contexte spatial plus large. Il faudrait donc au minimum inclure des covariables spatialement décalées dans un modèle linéaire.

whuber