Dans quelles conditions une personne devrait-elle envisager d'utiliser une analyse multiniveau / hiérarchique, par opposition à une analyse plus fondamentale / traditionnelle (par exemple, ANOVA, régression MCO, etc.)? Existe-t-il des situations dans lesquelles cela pourrait être considéré comme obligatoire? Existe-t-il des situations dans lesquelles l’analyse multiniveau / hiérarchique est inappropriée? Enfin, quelles sont les bonnes ressources pour les débutants pour apprendre l'analyse multiniveau / hiérarchique?
mixed-model
multilevel-analysis
Patrick
la source
la source
Réponses:
Lorsque la structure de vos données est naturellement hiérarchique ou imbriquée, la modélisation multiniveau est un bon candidat. Plus généralement, c'est une méthode pour modéliser les interactions.
Un exemple naturel est lorsque vos données proviennent d'une structure organisée telle qu'un pays, un état, des districts, où vous souhaitez examiner les effets à ces niveaux. L’analyse longitudinale est un autre exemple d’ajustement possible à une telle structure: vous avez effectué des mesures répétées de nombreux sujets au fil du temps (par exemple, une réponse biologique à une dose de médicament). Un niveau de votre modèle suppose une réponse moyenne du groupe pour tous les sujets au fil du temps. Un autre niveau de votre modèle tient alors compte des perturbations (effets aléatoires) de la moyenne de groupe, afin de modéliser les différences individuelles.
Gelman Data Analysis Using Regression and Multilevel / Hierachical Models est un ouvrage populaire et populaire .
la source
Le Center for Multilevel Modeling propose de bons didacticiels gratuits en ligne pour la modélisation multiniveaux, ainsi que des didacticiels pour l’ajustement de modèles dans leurs logiciels MLwiN et STATA.
Prenez ceci comme une hérésie, car je n'ai pas lu plus d'un chapitre du livre, mais des modèles linéaires hiérarchiques: applications et méthodes d'analyse des données. Par Stephen W. Raudenbush, Anthony S. Bryk est hautement recommandé. J'ai également juré qu'il y avait un livre sur la modélisation à plusieurs niveaux utilisant le logiciel R dans Springer Use R! série, mais je n'arrive pas à la trouver pour le moment (je pensais qu'elle avait été écrite par les mêmes personnes qui ont écrit le livre A Beginner's Guide to R).
edit: Le livre sur l’utilisation de R pour les modèles à plusieurs niveaux est Modèles à effets mixtes et extensions en écologie avec R de Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA, Smith, GM.
bonne chance
la source
Voici un autre point de vue sur l’utilisation de modèles multiniveaux et de régression: dans un article intéressant de Afshartous et de Leeuw, ils montrent que si le but de la modélisation est prédictif (c’est-à-dire de prédire de nouvelles observations), le choix du modèle est différent de celui auquel l'objectif est l'inférence (où vous essayez de faire correspondre le modèle à la structure de données). Le papier dont je parle est
Afshartous, D., de Leeuw, J. (2005). Prédiction dans les modèles multiniveaux. J. Educat. Comportement Statist. 30 (2): 109–139.
Je viens de trouver un autre article similaire de ces auteurs ici: http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf
la source
Voici un exemple où un modèle multiniveau pourrait être "essentiel". Supposons que vous souhaitiez évaluer la "qualité" de l'enseignement fourni par un ensemble d'écoles utilisant les résultats des tests des élèves. Une des façons de définir la qualité de l’école est la performance moyenne des tests après prise en compte des caractéristiques des élèves. Vous pouvez conceptualisé ce que, où y i s est le score de test en continu pour les étudiants i à l' école s , X i s
Avec le modèle en main, l'enjeu devient un problème d'estimation. Si vous avez beaucoup d'écoles et beaucoup de données pour chaque école, les belles propriétés d'OLS (voir Angrist et Pischke, Mostly Harmless ..., pour un examen en cours), suggérez que vous souhaitiez l’utiliser, avec les ajustements appropriés aux erreurs types pour tenir compte des dépendances, et l’utilisation de variables nominales et d’interactions pour obtenir des effets au niveau de l’école et des intersections spécifiques à l’école. Les MCO peuvent être inefficaces, mais ils sont si transparents qu'il pourrait être plus facile de convaincre un public sceptique si vous l'utilisiez. Mais si vos données sont rares de certaines manières - en particulier si vous avez peu d'observations pour certaines écoles - vous voudrez peut-être imposer plus de "structure" au problème. Vous voudrez peut-être «emprunter de la force» auprès des écoles de l'échantillon plus important pour améliorer les estimations bruitées que vous obtiendriez dans les écoles de l'échantillon restreint si l'estimation était réalisée sans structure. Ensuite, vous pouvez vous tourner vers un modèle à effets aléatoires estimé via FGLS,
Dans cet exemple, l’utilisation d’un modèle à plusieurs niveaux (quelle que soit notre décision finale) est motivée par l’intérêt direct suscité par les interceptions au niveau de l’école. Bien entendu, dans d’autres situations, ces paramètres de niveau groupe ne sont peut-être qu’une nuisance. Que vous deviez ou non vous y adapter (et donc travailler avec un type de modèle à plusieurs niveaux) dépend de la validité de certaines hypothèses d'exogénéité conditionnelle. À ce sujet, je recommanderais de consulter la littérature économétrique sur les méthodes de données de panel; la plupart des idées qui en découlent sont ensuite transférées dans des contextes de données groupées générales.
la source
La modélisation à plusieurs niveaux est appropriée, comme son nom l'indique, lorsque vos données ont des influences se produisant à différents niveaux (individuel, dans le temps, sur des domaines, etc.). La modélisation à un niveau suppose que tout se passe au niveau le plus bas. Un modèle multiniveau introduit également des corrélations entre les unités imbriquées. Donc, les unités de niveau 1 dans la même unité de niveau 2 seront corrélées.
Dans un certain sens, vous pouvez penser que la modélisation à plusieurs niveaux permet de trouver le juste milieu entre "l'erreur individuelle" et "l'erreur écologique". L'erreur individualiste se produit lorsque des "effets de communauté" sont ignorés, tels que la compatibilité du style d'un enseignant avec le style d'apprentissage d'un élève, par exemple (l'effet est supposé provenir de l'individu seul, il suffit donc de faire une régression au niveau 1). alors que "l'erreur écologique" est le contraire, ce serait comme si le meilleur enseignant avait les meilleurs élèves (et pour que le niveau 1 ne soit pas nécessaire, il suffit de faire une régression complète au niveau 2). Dans la plupart des contextes, ni l'un ni l'autre n'est approprié (l'élève-enseignant est un exemple "classique").
Notez que dans l'exemple scolaire, il y avait un regroupement ou une structure "naturelle" dans les données. Mais ce n’est pas une caractéristique essentielle de la modélisation multi-niveaux / hiérarchique. Cependant, le regroupement naturel facilite les mathématiques et les calculs. L’ingrédient clé est l’information préalable selon laquelle des processus se déroulent à différents niveaux. En fait, vous pouvez concevoir des algorithmes de clustering en imposant une structure à plusieurs niveaux à vos données avec une incertitude quant à savoir quelle unité se trouve dans quel niveau supérieur. Donc vous avezyje j avec l'indice j être inconnu.
la source
En règle générale, une analyse bayésienne hiérarchique (HB) conduit à des estimations efficaces et stables au niveau individuel, à moins que vos données soient telles que les effets au niveau individuel soient complètement homogènes (scénario irréaliste). L'efficacité et les estimations de paramètres stables des modèles HB deviennent vraiment importantes lorsque vous disposez de données éparses (par exemple, moins d'éléments obsolètes que de paramètres au niveau individuel) et lorsque vous souhaitez estimer des estimations individuelles.
Cependant, les modèles HB ne sont pas toujours faciles à estimer. Par conséquent, si l'analyse HB prime généralement sur l'analyse non-HB, vous devez peser les coûts relatifs par rapport aux avantages en fonction de votre expérience passée et de vos priorités actuelles en termes de temps et de coût.
Cela dit, si vous n'êtes pas intéressé par les estimations au niveau individuel, vous pouvez simplement estimer un modèle au niveau agrégé, mais même dans ces contextes, l'estimation de modèles d'agrégation via HB à l'aide d'estimations au niveau individuel peut sembler très judicieuse.
En résumé, l’adaptation des modèles HB est l’approche recommandée aussi longtemps que vous avez le temps et la patience de les adapter. Vous pouvez ensuite utiliser les modèles globaux comme référence pour évaluer les performances de votre modèle HB.
la source
J'ai appris de Snijders et Bosker, Analyse à plusieurs niveaux: Introduction à la modélisation de base et avancée à plusieurs niveaux. Je pense que c’est très bien lancé au débutant, c’est sûrement parce que je suis un peu lourd en ce qui concerne ces choses et que cela a eu un sens pour moi.
Je partage également Gelman et Hill, un livre vraiment brillant.
la source
Des modèles à plusieurs niveaux doivent être utilisés lorsque les données sont imbriquées dans une structure hiérarchique, en particulier lorsqu'il existe des différences significatives entre les unités de niveau supérieur de la variable dépendante (par exemple, l'orientation du rendement d'un élève varie d'un élève à l'autre et aussi entre les classes avec lesquelles l'élève sont imbriqués). Dans ces circonstances, les observations sont regroupées plutôt qu'indépendantes. Le fait de ne pas prendre en compte la classification conduit à une sous-estimation des erreurs des estimations de paramètres, à des tests de signification biaisés et à une tendance à rejeter la valeur nulle lorsqu'elle doit être conservée. La justification de l’utilisation de modèles multi-niveaux, ainsi que des explications détaillées sur la manière de réaliser les analyses, est fournie par
Raudenbush, S. W. Bryk, A. S. (2002). Hierarchical linear models: Applications and data analysis methods. 2nd edition. Newbury Park , CA : Sage.
The R & B book is also well integrated with the authors' HLM software package, which helps a great deal in learning the package. An explanation of why multi-level models are necessary and preferable to some alternatives (like dummy coding the higher level units) is provided in a classic paper
Hoffman, D.A. (1997). An overview of the logic and rationale of Hierachical Linear Models. Journal of Management, 23, 723-744.
The Hoffman paper can be downloaded for free if you Google "Hoffman 1997 HLM" and access the pdf online.
la source