Contexte: Mon organisation compare actuellement ses statistiques sur la diversité de la main-d'œuvre (ex.% De personnes handicapées,% de femmes,% d'anciens combattants) à la disponibilité totale de main-d'œuvre pour ces groupes sur la base de l'American Community Survey (un projet d'arpentage du US Census Bureau). Il s'agit d'une référence inexacte, car nous avons un ensemble très spécifique d'emplois dont la démographie est différente de celle de la population active dans son ensemble. Disons, par exemple, que mon organisation est principalement composée d'ingénieurs. L'ingénierie est seulement environ 20% de femmes dans mon état. Si nous nous comparons à la référence de la population active totale, qui ressemble plus à 50% de femmes, cela donne lieu à la panique que «nous n'avons que 20% de femmes, c'est un désastre!» alors qu'en réalité, 20% est ce à quoi nous devrions nous attendre, car c'est à cela que ressemble le paysage du travail.
Mon objectif: ce que je voudrais faire, c'est prendre les données sur les professions de l'American Community Survey (par catégorie de diversité) et les pondérer en fonction de la composition des emplois dans mon entreprise. Voici un exemple d'ensemble de données pour les travailleurs des services sociaux et communautaires . Je veux ajouter ces codes de travail énumérés ensemble (parce que notre tableau de concordance concerne des groupes de travail, pas des codes de travail spécifiques), alors je veux pondérer ce repère en fonction du nombre de personnes que nous avons dans cette catégorie (par exemple, nos 3000 réseaux sociaux et Travailleurs des services communautaires), alors je veux faire la même chose pour tous les autres groupes d'emplois, additionner ces chiffres et diviser par notre nombre total de travailleurs. Cela me donnerait une nouvelle mesure de diversité repondérée (ex. De 6% de personnes handicapées à 2% de personnes handicapées).
Mes questions: Comment puis-je adapter les marges d'erreur à cette référence finale cumulée? Je n'ai pas l'ensemble de données brutes du recensement (évidemment), mais vous pouvez afficher les marges d'erreur pour chaque numéro dans le lien que j'ai fourni en basculant le champ "Estimation" sur "Marge d'erreur" en haut du tableau. Mes autres collègues qui travaillent avec ces données ont bien l'intention d'ignorer les marges d'erreur, mais je crains que nous ne nous créons une référence statistiquement dénuée de sens. Ces données sont-elles encore utilisables après la manipulation décrite ci-dessus?
Réponses:
Mise à jour 2014-01-15
Je me rends compte que je n'ai pas répondu à la question initiale de Danica sur la question de savoir si la marge d'erreur pour la proportion désactivée ajustée indirectement serait plus grande ou plus petite que la marge d'erreur pour le même taux dans ACS. La réponse est: si les proportions des catégories d'entreprises ne diffèrent pas radicalement des proportions ACS de l'État, la marge d'erreur indiquée ci-dessous sera inférieure à la marge d'erreur ACS. La raison: le taux indirect traite le nombre de personnes (ou proportions relatives) de la catégorie d'emploi de l'organisation comme des nombres fixes . L'estimation ACS de la proportion d'invalides nécessite, en effet, une estimation de ces proportions, et les marges d'erreur augmenteront pour refléter cela.
Pour illustrer, écrivez le taux désactivé comme:
En revanche, le taux estimé de l'AEC est en effet:
Mise à jour 2014-01-14
Réponse courte
À mon avis, il serait irresponsable de présenter une telle statistique sans IC ni marge d'erreur (demi-longueur d'IC). Pour les calculer, vous devrez télécharger et analyser l'échantillon de microdonnées à grande diffusion (PUMS) ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Longue réponse
Ce n'est pas vraiment une repondération de l'ACS. C'est une version de la normalisation indirecte, une procédure standard en épidémiologie (google ou voir n'importe quel texte epi). Dans ce cas, les taux d'invalidité des emplois (catégories) des ACS sont pondérés par le nombre d'employés de la catégorie d'emploi de l'organisation. Cela calculera un nombre attendu de personnes handicapées dans l'organisation
E
, qui peut être comparé au nombre observéO
. La métrique habituelle pour la comparaison est un rapport standardiséR= (O/E)
. (Le terme habituel est "SMR", pour "taux de mortalité standardisé", mais ici le "résultat" est l'invalidité.).R
est également le rapport entre le taux d'incapacité observé(O/n)
et le taux indirectement standardisé(E/n)
, oùn
est le nombre d'employés de l'organisation.Dans ce cas, il semble que seul un CI pour
E
ouE/n
sera nécessaire, je vais donc commencer par cela:Si
alors
La variance de
E
est:où
nn
est le vecteur colonne des dénombrements des catégories d'organisation etV
la matrice estimée de variance-covariance des taux d'incapacité de la catégorie AEC.Aussi, trivialement,
se(E) = sqrt(var(E))
etse(E/n) = se(E)/n
.et un IC à 90% pour E est
Divisez par
n
pour obtenir le CIE/n
.Pour estimer,
var(E)
vous devez télécharger et analyser les données de l'échantillon de microdonnées à grande diffusion (PUMS) ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).Je ne peux parler que du processus de calcul
var(E)
dans Stata. Comme je ne sais pas si c'est à votre disposition, je vais reporter les détails. Cependant, une personne connaissant les capacités d'enquête de R ou (éventuellement) de SAS peut également fournir le code des équations ci-dessus.Intervalle de confiance pour le rapport
R
Les intervalles de confiance pour
R
sont généralement basés sur une hypothèse de Poisson pourO
, mais cette hypothèse peut être incorrecte.Nous pouvons considérer
O
etE
être indépendants, doncvar(log(E))
peut être calculé comme une étape Stata supplémentaire après le calcul devar(E)
.Sous l'hypothèse d'indépendance de Poisson:
Un programme comme Stata pourrait correspondre, par exemple, à un modèle binomial négatif ou à un modèle linéaire généralisé et vous donner un terme de variance plus précis.
Un IC d'environ 90%
log R
estet les points de terminaison peuvent être exponentiés pour obtenir le CI
R
.la source
FWIW, il existe de bonnes ressources pour l'ACS et l'accès aux PUMS ici ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).
Il existe également un package pour la gestion des données ACS sur le CRAN - appelé, naturellement, ACS - que j'ai trouvé très utile pour faire des choses atypiques avec les données ACS. Ceci est une bonne étape par étape pour le package (malheureusement, la documentation n'est pas super intuitive) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf
la source
en ajoutant au lien http://asdfree.com dans la réponse de @ pricele2 .. afin de résoudre ce problème avec un logiciel gratuit, je vous encourage à suivre ces étapes:
(1) ( deux heures de travail acharné ) se familiariser avec la langue r. regardez les 50 premières vidéos, deux minutes chacune
http://twotorials.com/
(2) ( une heure d'instructions faciles à suivre ) installez monetdb sur votre ordinateur
http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html
(3) ( trente minutes d'instruction + téléchargement pendant la nuit ) téléchargez les acs pums sur votre ordinateur. obtenez seulement les années dont vous avez besoin.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R
(4) ( quatre heures d'apprentissage, de programmation et de vérification de votre travail ) recodez les variables que vous devez recoder, selon les spécifications dont vous avez besoin
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R
(5) ( deux heures d'analyse réelle ) exécutez la commande exacte que vous recherchez, capturez l'erreur standard et calculez un intervalle de confiance.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R
(6) ( quatre heures de programmation ) si vous avez besoin d'un estimateur de rapport, suivez l'exemple d'estimation de rapport (avec l'erreur standard correctement ajustée par l'enquête) ici:
https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552
la source