Ajustement de modèles multiniveaux à des données d'enquête complexes dans R

11

Je cherche des conseils sur la façon d'analyser des données d'enquête complexes avec des modèles à plusieurs niveaux dans R. J'ai utilisé le surveypackage pour pondérer les probabilités de sélection inégales dans les modèles à un niveau, mais ce package n'a pas de fonctions pour la modélisation à plusieurs niveaux. Le lme4package est idéal pour la modélisation à plusieurs niveaux, mais je ne sais pas comment inclure des pondérations à différents niveaux de clustering. Asparouhov (2006) pose le problème:

Les modèles à plusieurs niveaux sont fréquemment utilisés pour analyser les données des plans d'échantillonnage en grappes. Ces plans d'échantillonnage utilisent cependant souvent une probabilité inégale de sélection au niveau de la grappe et au niveau individuel. Des poids d'échantillonnage sont attribués à un ou aux deux niveaux pour refléter ces probabilités. Si les poids d'échantillonnage sont ignorés à l'un ou l'autre niveau, les estimations des paramètres peuvent être sensiblement biaisées.

Une approche pour les modèles à deux niveaux est l'estimateur de pseudo-maximum de vraisemblance à plusieurs niveaux (MPML) qui est implémenté dans MPLUS ( Asparouhov et al,? ). Carle (2009) passe en revue les principaux progiciels et formule quelques recommandations sur la façon de procéder:

Pour mener correctement MLM avec des données d'enquête complexes et des pondérations de conception, les analystes ont besoin d'un logiciel qui peut inclure des pondérations mises à l'échelle en dehors du programme et inclure les «nouvelles» pondérations mises à l'échelle sans modification automatique du programme. Actuellement, trois des principaux logiciels MLM le permettent: Mplus (5.2), MLwiN (2.02) et GLLAMM. Malheureusement, ni HLM ni SAS ne peuvent le faire.

West et Galecki (2013) donnent un examen plus à jour, et je citerai le passage pertinent en détail:

À l'occasion, les analystes souhaitent adapter les LMM aux ensembles de données d'enquête collectés à partir d'échantillons de plans complexes (voir Heeringa et al, 2010, chapitre 12). Les plans d'échantillonnage complexes sont généralement caractérisés par la division de la population en strates, la sélection en plusieurs étapes de grappes d'individus à l'intérieur des strates et les probabilités inégales de sélection pour les grappes et les individus finals échantillonnés. Ces probabilités inégales de sélection conduisent généralement à la construction de poids d'échantillonnage pour les individus, qui garantissent une estimation impartiale des paramètres descriptifs lorsqu'ils sont incorporés dans une analyse. Ces poids pourraient être ajustés davantage pour la non-réponse à l'enquête et calibrés en fonction des totaux de population connus. Traditionnellement, les analystes pourraient envisager une approche fondée sur le plan pour incorporer ces caractéristiques d'échantillonnage complexes lors de l'estimation des modèles de régression (Heeringa et al., 2010). Plus récemment, les statisticiens ont commencé à explorer des approches fondées sur des modèles pour analyser ces données, en utilisant des LMM pour incorporer les effets fixes des strates d'échantillonnage et les effets aléatoires des grappes échantillonnées.

La principale difficulté avec le développement d'approches basées sur des modèles pour analyser ces données a été de choisir des méthodes appropriées pour incorporer les poids d'échantillonnage (voir Gelman, 2007 pour un résumé des problèmes). Pfeffermann et al. (1998), Asparouhov et Muthen (2006), et Rabe-Hesketh et Skrondal (2006) ont développé une théorie pour estimer les modèles multiniveaux d'une manière qui incorpore les poids d'enquête, et Rabe-Hesketh et Skrondal (2006), Carle (2009) et Heeringa et al. (2010, chapitre 12) ont présenté des applications utilisant les procédures logicielles actuelles, mais cela continue d'être un domaine actif de la recherche statistique. Les procédures logicielles capables de monter des LMM sont à différents stades de mise en œuvre des approches qui ont été proposées jusqu'à présent pour incorporer des caractéristiques de conception complexes, et les analystes doivent en tenir compte lors de l'ajustement des LMM aux données d'enquête d'échantillons complexes. Les analystes intéressés à adapter les LMM aux données collectées à partir d'enquêtes par échantillonnage complexes seront attirés par des procédures capables d'incorporer correctement les poids d'enquête dans les procédures d'estimation (HLM, MLwiN, Mplus, xtmixed et gllamm), conformément à la littérature actuelle dans ce surface.

Cela m'amène à ma question: est-ce que quelqu'un a des recommandations de meilleures pratiques pour adapter les LMM aux données d'enquête complexes dans R?

Eric Green
la source
1
salut eric, les liens dans le paragraphe qui commence i've never said it beforepar ce post sur addhealth pourraient être intéressants .. :(
Anthony Damico
1
@AnthonyDamico, le lien est maintenant rompu :-(
Ben Bolker
@BenBolker c'est ça! ils ont changé le nom des microdonnées, donc je l'ai fait aussi :) nouvel emplacement: asdfree.com/search/label/…
Anthony Damico
Désolé si j'ai mal interprété votre question, mais je crois comprendre que vous avez fixé des poids (connus) à partir de la conception de l'expérience et que vous souhaitez utiliser un modèle mixte linéaire qui inclut ces poids de conception. La lmerfonction dans le lme4package permet de spécifier un weightsargument pour le processus d'ajustement de modèle, donc si vous avez des poids de conception fixes, vous devriez pouvoir les incorporer à cet argument. Ai-je la mauvaise extrémité du bâton ici? Y a-t-il une raison pour laquelle cela ne répond pas à vos besoins?
Ben - Réintègre Monica le

Réponses:

4

Pour autant que je sache, vous ne pouvez pas vraiment faire cela en R pour le moment, si vous avez réellement besoin d'un modèle mixte (par exemple, si vous vous souciez des composantes de la variance)

L'argument des poids lme4::lmer() ne fait pas ce que vous voulez, car lmer()interprète les poids comme des poids de précision et non comme des poids d'échantillonnage. Contrairement aux modèles linéaires ordinaires et linéaires généralisés, vous n'obtenez même pas d'estimations ponctuelles correctes avec un code qui traite les poids d'échantillonnage comme des poids de précision pour un modèle mixte.

Si vous n'avez pas besoin d'estimer les composants de la variance et que vous souhaitez simplement que les fonctionnalités multiniveaux du modèle obtiennent les erreurs standard correctes que vous pouvez utiliser survey::svyglm().

Thomas Lumley
la source
0

Le package WeMix est désormais une option, au moins pour les modèles linéaires et logistiques à plusieurs niveaux. Semble très lent cependant, comparé à l'exécution de ces modèles dans Stata ou MPlus.

taux de succion
la source
0

Je suis également confronté au même problème. Après avoir beaucoup cherché ces derniers jours, j'ai trouvé que le package BIFIEsurvey est le plus proche de l'analyse de modèles multiniveaux avec des données d'enquête complexes avec des poids d'échantillonnage et de répétition, et des valeurs plausibles: https://cran.r-project.org/web /packages/BIFIEsurvey/index.html Cependant, le package est limité aux modèles à deux niveaux. J'ai également lu que l'auteur de plans de paquets "intsvy" à long terme pour faire "intsvy" pour être en mesure d'analyser des modèles à plusieurs niveaux, mais à ce jour, il ne peut toujours pas. S'il y a des progrès concernant la solution à ce problème que j'aurais pu manquer accidentellement, je serais heureux si quelqu'un pouvait le partager.

G_Konyarov
la source