Conception de l'enquête Chi Square

Quelqu'un connaît-il une méthode pour comparer deux variables avec un test du chi carré si les variables proviennent d'enquêtes différentes avec des svydesign()énoncés différents ? Je cherche à tester une différence dans une distribution variable sur deux vagues d'une enquête, mais l' svychisq()énoncé est limité à un objet de conception.

Est-il légitime d'empiler les deux variables dans une nouvelle data.frame, de créer une nouvelle svydesigninstruction avec les poids collectifs, puis d'exécuter le test?

r chi-squared survey David Rae
la source

Cela devrait être migré vers le site Web CrossValidated stats.SE. J'attendrai qu'il soit migré, mais commencez à lire ceci en attendant: citeulike.org/user/ctacmo/article/8898414

StasK

@StasK un lien sans paywall?

Anthony Damico

@AnthonyDamico, demandez à la Société statistique du Canada: - \. C'est peut-être aussi sur la page de Wu.

StasK

Qu'entendez-vous par «comparer»? S'agit-il de variables continues, de variables ordinales, de variables nominales? Il n'y a pas assez de réponses à votre question.

StasK

@StasK, merci de l'aide, juste pour être clair, cette comparaison concerne les variables ordinales et continues

david rae

Réponses:

Si vous suivez le chemin de l'empilement des ensembles de données, vous devez définir des super-strates correspondant aux deux ensembles de données / vagues, de manière à ce qu'elles svydesign()sachent qu'elles sont indépendantes. Ainsi, votre nouveau svydesignaura strates = croisement de l'année et des strates, les blocs d'alimentation des modèles originaux et les poids des modèles originaux.

Comme je l'ai suggéré dans le commentaire, d'autres façons de combiner les estimations et les tests ont été proposées dans la littérature. Wu (2004) utilise la vraisemblance empirique basée sur des variables communes entre les deux ensembles de données.

Pour les variables continues, idéalement, vous voudriez utiliser le test de Kolmogorov-Smirnov avec des données "plates", mais je ne sais pas si les extensions pour cela fonctionnent pour les données d'enquête; J'en doute. Vous devrez donc peut-être convertir vos variables continues en variables ordinales en $[\log_2(n)]$ groupes de centiles ou bacs de largeur égale de la plage variable (où la fonction ci-dessus de la taille de l'échantillon est un nombre de bacs couramment utilisé pour un histogramme), et appliquer le Rao-Scott $\chi^2$ pour eux.

StasK
la source