Test d'une table de contingence 2x2: homme / femme, employé / chômeur

8

Je me spécialise en sciences, et ma connaissance des statistiques est plutôt superficielle.

Problème

J'ai dû trouver un ensemble de données et l'analyser au mieux de mes capacités en tant qu'affectation pour mon cours de statistique. Ce n'est plus une tâche, j'ai juste besoin d'aide pour interpréter pourquoi j'ai mal fait mon analyse et ce que j'aurais dû faire à la place.

J'ai utilisé un ensemble de données catégoriques des taux d'emploi en Nouvelle-Zélande, en prévoyant de l'organiser dans un tableau de contingence 2x2 et d'utiliser le test du chi carré de Pearson et le test exact de Fisher pour tester si le sexe est corrélé à l'emploi.

Ce que je veux répondre

  1. Comprenez pourquoi je ne peux pas utiliser le test du chi carré et le test exact de Fisher pour ce problème et découvrez ce que j'aurais dû utiliser à la place. "Odds-ratio en fonction du temps", je suppose? Des liens utiles sur la façon de faire cela, parfaitement dans R?
  2. Comprendre le commentaire de "corrélation séquentielle" concernant la première partie de la mission et ce que j'aurais dû faire exactement.

Façon de m'aider # 1 (plus court)

Voilà à quoi ressemblent nos données (basées sur un recensement):

                 Male     Female
Employed      1201600    1060200
Unemployed      73300      75000

J'ai fait un test du chi carré et un test exact de Fisher dans R, en supposant que la valeur de p obtenue me dira la probabilité d'une telle répartition des emplois (ou un plus extrême) étant donné que le zéro est vrai (que les hommes et les femmes chances égales d’obtenir un emploi). J'ai obtenu une très petite valeur p, et le test de Fisher m'a donné un rapport de cotes de 1,16, ce qui signifie qu'il existe une corrélation, et en particulier les hommes sont 16% plus susceptibles de trouver un emploi en NZ.

Cependant, selon mon professeur, j'ai utilisé ces tests de manière inappropriée. Je ne comprenais pas vraiment pourquoi, mais je pense qu'il disait que ces tests supposent l'indépendance, et parce qu'il y a un nombre donné d'emplois disponibles en NZ, nos échantillons ne sont pas indépendants ... Je n'en suis pas sûr cependant (vous voir ses commentaires cités ci-dessous).

Façon de m'aider # 2 (plus)

Si vous avez du temps libre, je vous serais reconnaissant de bien vouloir examiner l'ensemble de la mission. Je fournirai également les commentaires du conférencier, donc si vous pouviez l'interpréter pour moi, ce serait génial! La tâche est très facile pour un mathématicien / statisticien, il n'y a que deux questions, c'est juste plein de rembourrage où j'ai essayé de démontrer que je sais ce que je fais, vous pouvez en sauter la plupart.

Voici le lien vers un fichier PDF avec l'affectation dans laquelle je n'ai pas réussi: statistiques d'affectation.pdf .

Commentaires du conférencier

Votre figure 1 présente une corrélation séquentielle qui est la vraie raison pour laquelle la régression linéaire ne fonctionne pas. Ni le test du pêcheur ni le chi carré ne sont bons pour votre table 2x2. C'est parce que vous voulez tester l'homogénéité, mais vous rejetez le null à cause de la non-indépendance (ce qui n'est pas intéressant). La distinction entre les deux n'est pas pertinente ici (ils sont de toute façon asymptotiquement identiques). Vous auriez pu tracer le rapport de cotes en fonction du temps.

Th334
la source
vous pouvez ajouter la balise d'auto-apprentissage
tomka
3
@tomka Je ne suis pas d'accord avec la balise d' auto-apprentissage dans ce cas et je l'ai donc supprimée. Cette question porte sur des données réelles et concerne un véritable problème, pas seulement une situation courante de manuels. Les critères pour la balise d' autoformation ne sont pas de savoir si la question provient du travail en classe, mais plutôt de la nature de la question elle-même. Veuillez visiter les meta threads meta.stats.stackexchange.com/questions/1904 et meta.stats.stackexchange.com/questions/1172 pour plus d'informations ou pour en discuter.
whuber
1
Ces chiffres d'emploi sont-ils basés sur un recensement ou un fichier d'enquête pondéré (c.-à-d. Un échantillon)?
Probabilislogic
@tomka et whuber, ça ne me dérange pas, mais ce ne sont pas des devoirs typiques, si c'est ce que vous voulez dire. Cela pourrait aussi être une dissertation dans le sens où les seules instructions étaient de collecter des données et de les analyser.
Th334
@probabilityislogic, bon point, c'est le recensement (petit pays). Cela affecte-t-il la façon dont nous devons aborder les données?
Th334

Réponses:

2

Quelques réponses immédiates:

1) Votre conférencier signifie que les données montrent une autocorrélation. Cela conduit à des estimations inefficaces des coefficients de régression dans une régression linéaire simple. Selon qu'il a été couvert dans votre cours, c'est une erreur.

2) Peut-être que je ne comprends pas complètement le problème, mais IMAO le test d'indépendance du chi carré est utilisé correctement ici, à l'exception de deux autres problèmes:

3) Votre test du chi carré a une immense puissance, en raison de la taille de l'échantillon. Il est difficile de ne pas être significatif même si les effets sont très faibles. De plus, il semble que vous ayez un recensement de la population. Dans cette situation, l'inférence statistique n'est pas nécessaire, car vous obéissez à toutes les unités de population. Mais ce n'est pas ce que le conférencier remarque.

4) Vous semblez agréger les données sur des points dans le temps. Vous devriez en fait tester une fois par point dans le temps, sinon vous agrégerez les effets dans le temps (vous comptez les unités plusieurs fois). Mais ce n'est pas non plus ce que remarque le conférencier.

Le conférencier remarque en fait que vous voulez tester le nul d'homogénéité, où vous testez le nul d'indépendance. Que veut-il donc dire par homogénéité?

Je suppose qu'il se réfère au test d' homogénéité marginale dans les données de test appariées. Ce test est utilisé pour évaluer s'il y a eu un changement dans le temps (mesures répétées). Ce n'est cependant pas ce que vous voulez évaluer en premier lieu. Je suppose qu'il n'a pas compris que vous vouliez vérifier si le sexe et l'emploi au moment x sont liés. Peut-être qu'il a également essayé de suggérer que ce que vous devriez tester est un changement dans le temps (ou aucun changement, auquel cas la contingence répétée multiple serait effectivement appelée homogène).

tomka
la source
1) Puis-je obtenir une description rapide (ou un lien) de ce qu'est une autocorrélation et comment elle conduit à des biais? 3) Donc, tout test statistique est inapproprié ici à cause du recensement? Comment pourrais-je alors répondre à ma question? 4) De quel test parlez-vous: régression ou chi carré? Dans ce dernier, je me suis concentré uniquement sur le dernier point de données - le recensement le plus récent.
Th334
@Herman 1) J'ai fait une erreur: les paramètres de régression seront inefficaces, ce qui signifie que l'estimateur OLS n'est plus le meilleur estimateur, c'est-à-dire que sa variance peut être très grande conduisant à des tests faussement insignifiants. C'est peut-être un début pour certains détails: stats.stackexchange.com/questions/19321/… 3) Oui, si vous observez toutes les unités de population, il n'est pas nécessaire de déduire les paramètres de population que vous observez sans erreur d'échantillonnage 4) Chi- au carré. Dans ce cas, le commentaire 4 ne s'applique pas.
tomka
1

Ce sont des commentaires très opaques - j'ai l'impression qu'ils disent "vous n'avez pas bien fait cette fois - essayez plus fort la prochaine fois". La seule façon de le comprendre est d'être courageux et de demander à votre conférencier une réunion pour discuter des choses plus avant.

Votre conférencier semble être déçu de votre choix de questions de recherche peut-être? Je pense qu'ils recherchaient peut-être des "mots à la mode" comme "auto- / série- / corrélation" "séries chronologiques" "effets saisonniers / désaisonnalisation" "cycles économiques" "tendance". Je ne sais pas ce que l'on attendait de vous lors de la mission.

Quoi qu'il en soit, voici ce que je pense.

Votre mission montre une bonne capacité à effectuer un test statistique, mais du point de vue de l' analyse des données montre un étrange choix d'exemples. L'analyse doit viser à raconter une histoire. Personnellement, j'ai aimé le choix de l'emploi masculin vs féminin comme thème. Cependant, j'aurais mis le "deuxième exemple" en premier, car c'est une question plus simple "y a-t-il maintenant une différence de genre". Après avoir montré qu'il y a clairement une différence (comme vous le faites), vous auriez pu ensuite passer à la question plus complexe de" y a-t-il eu une différence de genre constante au fil du temps? "Bien sûr, cette question peut dépasser le cadre de votre "boîte à outils statistiques" pour répondre de manière formelle. Une façon de le faire avec la régression linéaire est de modéliser les chances d'être employé par rapport aux chômeurs (ou log-odds si cela donne un meilleur ajustement) pour les hommes et les femmes. avoir un modèle ols simple de

yi=β0+β1xi+ei

yi est le rapport «employés» / «chômeurs» et xi est une variable muette égale à un si le rapport est pour les hommes et zéro sinon, et eiest le résidu. Vous testez ensuite siβ1=0. Vous pouvez aller plus loin dans le modèle et inclure une covariable temporelle ainsi qu'une interaction entre le temps et le sexe. Tout cela fait partie de la construction de votre travail d'analyse comme une histoire ("l'intrigue s'épaissit" pour ainsi dire). Cela dépend bien sûr de la connaissance de la régression multiple (qui peut être en dehors du contenu du cours).

Je n'aurais pas du tout utilisé ce premier exemple, bien sûr la régression linéaire n'était pas appropriée. Votre professeur souhaite (probablement) voir un exemple d'une bonne utilisation de la régression linéaire. Bien sûr, l'exemple ols que j'ai donné ci-dessus peut également ne pas être approprié - cela dépend de l'évaluation du modèle.

probabilitéislogique
la source
@probabilityslogic, je vais vous dire ce que j'étais censé savoir. Dans mes deux cours de statistiques différents combinés, nous avons couvert avec divers degrés de détail les éléments suivants: distribution bi (multi) nominale, distribution normale, t.test, anova, chi carré / exact de Fisher, régression linéaire / logistique, distribution hypogéométrique, théorème de Bayes , distribution bêta. C'est ça. Avais-je de meilleurs outils pour répondre à la question que j'avais choisie que je n'en utilisais?
Th334
@probabilityslogic, je ne comprends pas très bien comment faire "une régression linéaire pour modéliser les chances d'être employé vs chômeur pour les hommes et les femmes". Pourriez-vous s'il vous plaît essayer de l'expliquer en utilisant les chiffres de mes données, ou en me montrant des idiomes R, ou me lier à ce que je devrais lire si vous le pouvez, ou suggérer que je pose une nouvelle question? En ce qui concerne les équations théoriques, je comprends que dans votre exemple, beta-0 est notre intersection, beta-1 est notre pente, x est nos données et e est une erreur ... ce qui revient à dire que je ne comprends rien . C'est embarrassant, je suis désolé.
Th334