Je voudrais effectuer une analyse multivariée au niveau individuel à de petits niveaux d'agrégation géographique (districts de collecte du recensement australien). De toute évidence, le recensement n'est pas disponible à ces petits niveaux d'agrégation pour des raisons de confidentialité, donc j'examine d'autres alternatives. Presque toutes les variables d'intérêt sont catégoriques. J'ai deux jeux de données à ma disposition:
L'échantillon de recensement de 1% est disponible à un niveau beaucoup plus élevé d'agrégation spatiale (une zone avec une population d'environ 190 000 habitants et une vaste ségrégation spatiale des données démographiques).
Tableaux de fréquence des variables qui m'intéressent au niveau des petites zones (500 petites zones, pop moyenne = 385, sd = 319, médiane = 355).
Comment puis-je utiliser ces deux ensembles de données pour simuler une distribution de la population au niveau d'une petite zone qui est aussi proche que possible de la population réelle de la petite zone?
J'apprécie qu'il puisse y avoir des méthodes de routine pour ce faire; dans ce cas, un pointeur vers un manuel ou des articles de revues pertinents serait grandement apprécié.
Réponses:
La cartographie dasymétrique est principalement axée sur l'interpolation des estimations de population dans des zones plus petites que celles disponibles dans les données actuellement diffusées (voir cette question pour une multitude de références utiles sur le sujet). Souvent, cela a été fait en identifiant simplement les zones (sur la base des caractéristiques des terres) dans lesquelles il n'y a évidemment pas de population, puis en réestimant les densités de population (en omettant ces zones). Un exemple pourrait être s'il y a un plan d'eau dans une ville, un autre pourrait être si vous identifiez des parcelles industrielles qui ne peuvent pas avoir de population résidentielle. Des approches plus récentes de la cartographie dasymétrique incorporent d'autres données auxiliaires dans un cadre probabiliste pour allouer des estimations de population (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang et Qiu, 2011).
Maintenant, il est facile de voir la relation avec votre question. Vous voulez les estimations de la population des petites régions. Mais, il devrait également être clair comment cela peut être en deçà de vos objectifs. Vous voulez non seulement les données démographiques, mais aussi les caractéristiques de ces populations. L'un des termes utilisés pour décrire cette situation est le problème de changement de soutien (Cressie, 1996; Gotway & Young, 2002). Empruntant à la littérature géostatistique dans laquelle on essaie de faire des prédictions d'une certaine caractéristique sur une large zone à partir d'échantillons ponctuels, des travaux récents ont tenté d'interpoler des données surfaciques à différentes zones cibles. Une grande partie du travail de Pierre Goovaerts se concentre sur de telles méthodes de krigeage zone à point, un article récent de la revue Geographical Analysis a plusieurs exemples de la méthode appliquée à différents sujets (Haining et al., 2010), et l'une de mes applications préférées en est dans cet article (Young et al., 2009).
Ce que je cite ne devrait cependant pas être considéré comme une panacée au problème. En fin de compte, bon nombre des mêmes problèmes d'inférence écologique et de biais d'agrégation s'appliquent également aux objectifs d'interpolation surfacique. Il est probable que de nombreuses relations entre les données au niveau micro sont tout simplement perdues dans le processus d'agrégation, et de telles techniques d'interpolation ne pourront pas les récupérer. De plus, le processus par lequel les données sont interpolées empiriquement (en estimant les variogrammes à partir des données de niveau agrégé) est souvent assez chargé d'étapes ad hoc qui devraient rendre le processus discutable (Goovaerts, 2008).
Malheureusement, je poste ceci dans une réponse séparée car la littérature sur l'inférence écologique et la littérature sur la cartographie dasymétrique et le krigeage de point à point ne se chevauchent pas. Bien que la littérature sur l'inférence écologique ait de nombreuses implications pour ces techniques. Non seulement les techniques d'interpolation sont sujettes à un biais d'agrégation, mais les techniques dasymétriques intelligentes (qui utilisent les données agrégées pour ajuster les modèles pour prédire les zones plus petites) sont probablement suspectes de biais d'agrégation. La connaissance des situations dans lesquelles un biais d'agrégation se produit devrait être éclairante quant aux situations dans lesquelles l'interpolation surfacique et la cartographie dasymétrique échoueront largement (en particulier en ce qui concerne l'identification des corrélations entre différentes variables au niveau désagrégé).
Citations
la source
Le travail de Gary King, en particulier son livre "Une solution au problème d'inférence écologique" (les deux premiers chapitres sont disponibles ici ), serait intéressant (ainsi que le logiciel d' accompagnement qu'il utilise pour l'inférence écologique). King montre dans son livre comment les estimations des modèles de régression utilisant des données agrégées peuvent être améliorées en examinant les limites potentielles des groupements de niveau inférieur sur la base des données agrégées disponibles. Le fait que vos données soient principalement des regroupements catégoriels les rend aptes à cette technique. (Bien que ne soyez pas dupe, ce n'est pas autant une solution omnibus que vous pourriez l'espérer étant donné le titre!) Des travaux plus récents existent, mais le livre de King est l'OMI le meilleur endroit pour commencer.
Une autre possibilité serait simplement de représenter les limites potentielles des données elles-mêmes (dans des cartes ou des graphiques). Ainsi, par exemple, vous pouvez avoir la répartition par sexe rapportée au niveau agrégé (disons 5 000 hommes et 5 000 femmes), et vous savez que ce niveau agrégé comprend 2 unités de petite superficie différentes de 9 000 et 1 000 individus. Vous pouvez alors représenter cela comme un tableau de contingence du formulaire;
Bien que vous ne disposiez pas des informations dans les cellules pour les agrégations de niveau inférieur, à partir des totaux marginaux, nous pouvons construire des valeurs potentielles minimales ou maximales pour chaque cellule. Ainsi, dans cet exemple, la
Men X Unit1
cellule ne peut prendre que des valeurs comprises entre 4 000 et 5 000 (à chaque fois que les distributions marginales sont plus inégales, plus l'intervalle de valeurs possibles des cellules est petit). Apparemment, il est plus difficile d'obtenir les limites du tableau que je ne le pensais ( Dobra et Fienberg, 2000 ), mais il semble qu'une fonction soit disponible dans laeiPack
bibliothèque de R ( Lau et al., 2007, p. 43 ).L'analyse multivariée avec des données de niveau agrégé est difficile, car un biais d'agrégation se produit inévitablement avec ce type de données. (En un mot, je décrirais simplement le biais d'agrégation car de nombreux processus de génération de données au niveau individuel pourraient entraîner des associations au niveau agrégé) Une série d'articles dans l' American Sociological Reviewdans les années 1970 sont quelques-unes de mes références préférées pour les sujets (Firebaugh, 1978; Hammond, 1973; Hannan et Burstein, 1974) bien que des sources canoniques sur le sujet puissent être (Fotheringham et Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Je pense que représenter les limites potentielles que les données pourraient prendre pourrait être incitatif, bien que vous soyez vraiment paralysé par les limites des données agrégées pour effectuer une analyse multivariée. Cela n'empêche cependant personne de le faire en sciences sociales (pour le meilleur ou pour le pire!)
Notez, (comme Charlie l'a dit dans les commentaires) que la "solution" de King a suscité beaucoup de critiques (Anselin & Cho, 2002; Freedman et al., 1998). Bien que ces critiques ne soient pas à proprement parler sur les mathématiques de la méthode de King, plus encore en ce qui concerne les situations dans lesquelles la méthode de King ne tient toujours pas compte du biais d'agrégation (et je suis d'accord avec Freedman et Anselin en ce que les situations dans lesquelles les données pour les sciences sociales sont encore suspectes sont beaucoup plus courantes que celles qui répondent aux hypothèses de King). C'est en partie la raison pour laquelle je suggère simplement d'examiner les limites (il n'y a rien de mal à cela), mais faire des inférences sur les corrélations au niveau individuel à partir de ces données nécessite beaucoup plus de sauts de foi qui sont finalement injustifiés dans la plupart des situations.
Citations
la source
Je ne suis pas sûr qu'une réponse bien définie existe dans la littérature à ce sujet, étant donné que la recherche Google donne essentiellement trois références utilisables sur l'estimation multivariée de petites zones. Pfeffermann (2002) discute des variables de réponse discrètes dans la section 4 de l'article, mais ce seront des modèles univariés. Bien sûr, avec les méthodes bayésiennes hiérarchiques ( Rao 2003, Ch. 10 ), vous pouvez faire toutes sortes de merveilles, mais si à la fin vous vous retrouvez à reproduire vos priors (parce que vous avez si peu de données), ce serait un terrible résultat de votre exercice de simulation. De plus, Rao ne traite que des variables continues.
Je suppose que le plus grand défi sera la décomposition de la matrice de covariance en composantes entre et à l'intérieur d'une petite zone. Avec un échantillon de 1%, vous n'aurez que 3 observations de votre SAE, il peut donc être difficile d'obtenir une estimation stable de la composante interne.
Si j'étais à votre place, j'essaierais une extension multivariée du modèle de Pfeffermann avec un effet aléatoire multivarié de la petite zone. Vous pouvez en effet vous retrouver avec un modèle bayésien hiérarchique pour cela, si rien ne repose sur la conception.
MISE À JOUR (pour répondre au commentaire d'Andy à cette réponse): les méthodes de bootstrap pour l'estimation de petits domaines ( Lahiri 2003 ) recréent spécifiquement une population plausible à partir de l'étude. Bien que le but de l'exercice de bootstrap soit d'estimer les variances des estimations de petits domaines, les procédures devraient être intéressantes et pertinentes pour le problème affiché.
la source