Comment la repondération des données sur la diversité de l'American Community Survey affecterait-elle ses marges d'erreur?

10

Contexte: Mon organisation compare actuellement ses statistiques sur la diversité de la main-d'œuvre (ex.% De personnes handicapées,% de femmes,% d'anciens combattants) à la disponibilité totale de main-d'œuvre pour ces groupes sur la base de l'American Community Survey (un projet d'arpentage du US Census Bureau). Il s'agit d'une référence inexacte, car nous avons un ensemble très spécifique d'emplois dont la démographie est différente de celle de la population active dans son ensemble. Disons, par exemple, que mon organisation est principalement composée d'ingénieurs. L'ingénierie est seulement environ 20% de femmes dans mon état. Si nous nous comparons à la référence de la population active totale, qui ressemble plus à 50% de femmes, cela donne lieu à la panique que «nous n'avons que 20% de femmes, c'est un désastre!» alors qu'en réalité, 20% est ce à quoi nous devrions nous attendre, car c'est à cela que ressemble le paysage du travail.

Mon objectif: ce que je voudrais faire, c'est prendre les données sur les professions de l'American Community Survey (par catégorie de diversité) et les pondérer en fonction de la composition des emplois dans mon entreprise. Voici un exemple d'ensemble de données pour les travailleurs des services sociaux et communautaires . Je veux ajouter ces codes de travail énumérés ensemble (parce que notre tableau de concordance concerne des groupes de travail, pas des codes de travail spécifiques), alors je veux pondérer ce repère en fonction du nombre de personnes que nous avons dans cette catégorie (par exemple, nos 3000 réseaux sociaux et Travailleurs des services communautaires), alors je veux faire la même chose pour tous les autres groupes d'emplois, additionner ces chiffres et diviser par notre nombre total de travailleurs. Cela me donnerait une nouvelle mesure de diversité repondérée (ex. De 6% de personnes handicapées à 2% de personnes handicapées).

Mes questions: Comment puis-je adapter les marges d'erreur à cette référence finale cumulée? Je n'ai pas l'ensemble de données brutes du recensement (évidemment), mais vous pouvez afficher les marges d'erreur pour chaque numéro dans le lien que j'ai fourni en basculant le champ "Estimation" sur "Marge d'erreur" en haut du tableau. Mes autres collègues qui travaillent avec ces données ont bien l'intention d'ignorer les marges d'erreur, mais je crains que nous ne nous créons une référence statistiquement dénuée de sens. Ces données sont-elles encore utilisables après la manipulation décrite ci-dessus?

DanicaE
la source
3
Ne repondez pas l'ACS - c'est un produit délicat et hautement sophistiqué, et avec tout le respect que je vous dois, je ne pense pas que vous soyez un aussi bon statisticien que le Census Bureau. Si vous pouvez obtenir des définitions de travail cohérentes avec votre tâche dans ACS ou CPS pour des comparaisons à l'échelle nationale, alors la comparaison pommes-pommes serait de calculer le nombre attendu de catégories de "diversité" basées sur ACS pour que votre entreprise agisse comme une diversité raisonnable cibles.
StasK
2
Stas, je suis d'accord avec vous, mais comme je l'indique ci-dessous, il ne s'agit pas en fait d'une repondération d'ACS.
Steve Samuels
Dans les statistiques d'enquête, la «repondération» signifierait la transformation des poids d'enquête originaux . Un exemple de ceci serait la post-stratification, le ratissage d'échantillons ou l'étalonnage de sorte que certaines distributions marginales pour les distributions d'échantillons repondérées soient connues de l'extérieur, par exemple à partir du recensement ou de l'AEC. La procédure mentionnée par Danica ne touche pas les poids ACS.
Steve Samuels
Ce qui peut aider, c'est d'écrire la quantité de population finie que vous voulez connaître. L'ACS a-t-il également des poids de réplication? Cela peut aider à estimer la variance.
probabilités

Réponses:

8

Mise à jour 2014-01-15

Je me rends compte que je n'ai pas répondu à la question initiale de Danica sur la question de savoir si la marge d'erreur pour la proportion désactivée ajustée indirectement serait plus grande ou plus petite que la marge d'erreur pour le même taux dans ACS. La réponse est: si les proportions des catégories d'entreprises ne diffèrent pas radicalement des proportions ACS de l'État, la marge d'erreur indiquée ci-dessous sera inférieure à la marge d'erreur ACS. La raison: le taux indirect traite le nombre de personnes (ou proportions relatives) de la catégorie d'emploi de l'organisation comme des nombres fixes . L'estimation ACS de la proportion d'invalides nécessite, en effet, une estimation de ces proportions, et les marges d'erreur augmenteront pour refléter cela.

Pour illustrer, écrivez le taux désactivé comme:

P^adj=ninpi^

p^ii

En revanche, le taux estimé de l'AEC est en effet:

P^acs=(NiN)^pi^

NiNNi/Ni

Ni/Npi

SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001n2/n=0.999SE(P^adj)=0.079

Mise à jour 2014-01-14

Réponse courte

À mon avis, il serait irresponsable de présenter une telle statistique sans IC ni marge d'erreur (demi-longueur d'IC). Pour les calculer, vous devrez télécharger et analyser l'échantillon de microdonnées à grande diffusion (PUMS) ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Longue réponse

Ce n'est pas vraiment une repondération de l'ACS. C'est une version de la normalisation indirecte, une procédure standard en épidémiologie (google ou voir n'importe quel texte epi). Dans ce cas, les taux d'invalidité des emplois (catégories) des ACS sont pondérés par le nombre d'employés de la catégorie d'emploi de l'organisation. Cela calculera un nombre attendu de personnes handicapées dans l'organisation E, qui peut être comparé au nombre observé O. La métrique habituelle pour la comparaison est un rapport standardisé R= (O/E). (Le terme habituel est "SMR", pour "taux de mortalité standardisé", mais ici le "résultat" est l'invalidité.). Rest également le rapport entre le taux d'incapacité observé (O/n)et le taux indirectement standardisé (E/n), où nest le nombre d'employés de l'organisation.

Dans ce cas, il semble que seul un CI pour Eou E/nsera nécessaire, je vais donc commencer par cela:

Si

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

alors

 E = sum (n_i p_i)

La variance de Eest:

 var(E) = nn' V nn

nnest le vecteur colonne des dénombrements des catégories d'organisation et Vla matrice estimée de variance-covariance des taux d'incapacité de la catégorie AEC.

Aussi, trivialement, se(E) = sqrt(var(E))et se(E/n) = se(E)/n.

et un IC à 90% pour E est

  E ± 1.645 SE(E)

Divisez par npour obtenir le CI E/n.

Pour estimer, var(E)vous devez télécharger et analyser les données de l'échantillon de microdonnées à grande diffusion (PUMS) ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Je ne peux parler que du processus de calcul var(E)dans Stata. Comme je ne sais pas si c'est à votre disposition, je vais reporter les détails. Cependant, une personne connaissant les capacités d'enquête de R ou (éventuellement) de SAS peut également fournir le code des équations ci-dessus.

Intervalle de confiance pour le rapport R

Les intervalles de confiance pour Rsont généralement basés sur une hypothèse de Poisson pour O, mais cette hypothèse peut être incorrecte.

Nous pouvons considérer Oet Eêtre indépendants, donc

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))peut être calculé comme une étape Stata supplémentaire après le calcul de var(E).

Sous l'hypothèse d'indépendance de Poisson:

 var(log O) ~ 1/E(O).

Un programme comme Stata pourrait correspondre, par exemple, à un modèle binomial négatif ou à un modèle linéaire généralisé et vous donner un terme de variance plus précis.

Un IC d'environ 90% log Rest

 log R ± 1.645 sqrt(var(log R))

et les points de terminaison peuvent être exponentiés pour obtenir le CI R.

Steve Samuels
la source
log(R)R
Cela ne me semblait pas un cas où le maculage était approprié, mais je pouvais me tromper. Que suggérerais-tu?
Steve Samuels
Certaines méthodes mentionnées dans CV incluent le boostrapping du CI, la méthode delta et le profilage de la fonction de vraisemblance.
whuber
Merci pour votre réponse. Est-il possible d'extraire des données PUMS avec R? Je n'ai pas de SAS. J'ai extrait des données PUMS avant d'utiliser l'outil DataFerret fourni par le recensement, mais je ne suis pas sûr que cela me donne tout ce que je pourrais utilement manipuler dans Excel, ce que j'ai. Je peux installer R, évidemment, mais je n'ai aucune expérience avec.
DanicaE
1
Je vous en prie, Danica. Si cette réponse est utile, veuillez cocher la case pour l'accepter officiellement. Notez que j'ai mis à jour la réponse. Je vous recommande de présenter les marges d'erreur ACS comme des substituts conservateurs pour les bonnes.
Steve Samuels
4

FWIW, il existe de bonnes ressources pour l'ACS et l'accès aux PUMS ici ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

Il existe également un package pour la gestion des données ACS sur le CRAN - appelé, naturellement, ACS - que j'ai trouvé très utile pour faire des choses atypiques avec les données ACS. Ceci est une bonne étape par étape pour le package (malheureusement, la documentation n'est pas super intuitive) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf

pricele2
la source
3

en ajoutant au lien http://asdfree.com dans la réponse de @ pricele2 .. afin de résoudre ce problème avec un logiciel gratuit, je vous encourage à suivre ces étapes:

(1) ( deux heures de travail acharné ) se familiariser avec la langue r. regardez les 50 premières vidéos, deux minutes chacune

http://twotorials.com/

(2) ( une heure d'instructions faciles à suivre ) installez monetdb sur votre ordinateur

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( trente minutes d'instruction + téléchargement pendant la nuit ) téléchargez les acs pums sur votre ordinateur. obtenez seulement les années dont vous avez besoin.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( quatre heures d'apprentissage, de programmation et de vérification de votre travail ) recodez les variables que vous devez recoder, selon les spécifications dont vous avez besoin

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( deux heures d'analyse réelle ) exécutez la commande exacte que vous recherchez, capturez l'erreur standard et calculez un intervalle de confiance.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( quatre heures de programmation ) si vous avez besoin d'un estimateur de rapport, suivez l'exemple d'estimation de rapport (avec l'erreur standard correctement ajustée par l'enquête) ici:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552

Anthony Damico
la source
Merci, ce sont d'excellentes ressources. Si quelqu'un d'autre vient ici à la recherche de ces informations, les didacticiels R que j'utilise sont datacamp.com et coursera.org/course/rprog . Data Camp est un fantastique didacticiel interactif. Le cours Coursera est plus lourd sur la théorie / la structure / les noms des choses.
DanicaE