Dans quelles conditions faut-il utiliser l'analyse multiniveau / hiérarchique?

36

Dans quelles conditions une personne devrait-elle envisager d'utiliser une analyse multiniveau / hiérarchique, par opposition à une analyse plus fondamentale / traditionnelle (par exemple, ANOVA, régression MCO, etc.)? Existe-t-il des situations dans lesquelles cela pourrait être considéré comme obligatoire? Existe-t-il des situations dans lesquelles l’analyse multiniveau / hiérarchique est inappropriée? Enfin, quelles sont les bonnes ressources pour les débutants pour apprendre l'analyse multiniveau / hiérarchique?

Patrick
la source

Réponses:

22

Lorsque la structure de vos données est naturellement hiérarchique ou imbriquée, la modélisation multiniveau est un bon candidat. Plus généralement, c'est une méthode pour modéliser les interactions.

Un exemple naturel est lorsque vos données proviennent d'une structure organisée telle qu'un pays, un état, des districts, où vous souhaitez examiner les effets à ces niveaux. L’analyse longitudinale est un autre exemple d’ajustement possible à une telle structure: vous avez effectué des mesures répétées de nombreux sujets au fil du temps (par exemple, une réponse biologique à une dose de médicament). Un niveau de votre modèle suppose une réponse moyenne du groupe pour tous les sujets au fil du temps. Un autre niveau de votre modèle tient alors compte des perturbations (effets aléatoires) de la moyenne de groupe, afin de modéliser les différences individuelles.

Gelman Data Analysis Using Regression and Multilevel / Hierachical Models est un ouvrage populaire et populaire .

ars
la source
3
J'appuie cette réponse et souhaite simplement ajouter une autre excellente référence sur ce sujet: Le texte d'analyse de données longitudinales appliquées de Singer < gseacademic.harvard.edu/alda >. Bien qu’elle soit spécifique à l’analyse longitudinale, elle donne un bon aperçu de la MLM en général. J'ai également trouvé l'analyse multiniveau de Snidjers et Bosker bonne et lisible < stat.gamma.rug.nl/multilevel.htm >. John Fox fournit également une introduction intéressante à ces modèles dans R ici < cran.r-project.org/doc/contrib/Fox-Companion/… >.
Brett
Merci à tous pour vos réponses :) En guise de question suivante, la plupart des données ne pourraient-elles pas être conceptualisées comme étant naturellement hiérarchiques / imbriquées? Par exemple, dans la plupart des études psychologiques, il existe un certain nombre de variables dépendantes (questionnaires, réponses de stimuli, etc.) imbriquées dans des individus, lesquelles sont ensuite imbriquées dans deux groupes ou plus (assignées de manière aléatoire ou non aléatoire). Accepteriez-vous que cela représente une structure de données naturellement hiérarchique et / ou imbriquée?
Patrick
Si certains d'entre vous, gourous des niveaux hiérarchiques et hiérarchiques, disposaient de quelques minutes, je vous serais très reconnaissant de bien vouloir vous exprimer sur les questions d'analyse posées dans un article différent ( stats.stackexchange.com/questions/1799/… ). Plus précisément, pensez-vous que les données de perception de la douleur décrites dans cet article seraient mieux analysées par des analyses hiérarchiques que par des analyses non hiérarchiques? Ou cela ne ferait-il pas une différence ou ne serait-il pas inapproprié? Merci: D
Patrick
18

Le Center for Multilevel Modeling propose de bons didacticiels gratuits en ligne pour la modélisation multiniveaux, ainsi que des didacticiels pour l’ajustement de modèles dans leurs logiciels MLwiN et STATA.

Prenez ceci comme une hérésie, car je n'ai pas lu plus d'un chapitre du livre, mais des modèles linéaires hiérarchiques: applications et méthodes d'analyse des données. Par Stephen W. Raudenbush, Anthony S. Bryk est hautement recommandé. J'ai également juré qu'il y avait un livre sur la modélisation à plusieurs niveaux utilisant le logiciel R dans Springer Use R! série, mais je n'arrive pas à la trouver pour le moment (je pensais qu'elle avait été écrite par les mêmes personnes qui ont écrit le livre A Beginner's Guide to R).

edit: Le livre sur l’utilisation de R pour les modèles à plusieurs niveaux est Modèles à effets mixtes et extensions en écologie avec R de Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA, Smith, GM.

bonne chance

Andy W
la source
9

Voici un autre point de vue sur l’utilisation de modèles multiniveaux et de régression: dans un article intéressant de Afshartous et de Leeuw, ils montrent que si le but de la modélisation est prédictif (c’est-à-dire de prédire de nouvelles observations), le choix du modèle est différent de celui auquel l'objectif est l'inférence (où vous essayez de faire correspondre le modèle à la structure de données). Le papier dont je parle est

Afshartous, D., de Leeuw, J. (2005). Prédiction dans les modèles multiniveaux. J. Educat. Comportement Statist. 30 (2): 109–139.

Je viens de trouver un autre article similaire de ces auteurs ici: http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf

Galit Shmueli
la source
6

Voici un exemple où un modèle multiniveau pourrait être "essentiel". Supposons que vous souhaitiez évaluer la "qualité" de l'enseignement fourni par un ensemble d'écoles utilisant les résultats des tests des élèves. Une des façons de définir la qualité de l’école est la performance moyenne des tests après prise en compte des caractéristiques des élèves. Vous pouvez conceptualisé ce que, y i s est le score de test en continu pour les étudiants i à l' école s , X i s

yis=αs+Xisβs+ϵis,
yisisXissont étudiants attributs centré au moyen de l' école, est un coefficient spécifique à l' école sur ces attributs, α s est un « effet école » qui mesure la qualité de l' école, et ε i s sont idiosyncrasies de niveau des élèves test prenant performance. L' intérêt se concentre ici sur l' estimation du α s de l », qui mesurent la « valeur ajoutée » que l'école offre aux étudiants une fois leurs attributs sont comptabilisés-pour. Vous voulez prendre en compte les attributs des étudiants, car vous ne voulez pas punir une bonne école qui doit traiter certains élèves avec des désavantages. Par conséquent, les résultats moyens des tests sont déprimants, ce qui laisse de côté la "valeur ajoutée" élevée que l'école fournit à ses étudiants. βsαsϵisαs

Avec le modèle en main, l'enjeu devient un problème d'estimation. Si vous avez beaucoup d'écoles et beaucoup de données pour chaque école, les belles propriétés d'OLS (voir Angrist et Pischke, Mostly Harmless ..., pour un examen en cours), suggérez que vous souhaitiez l’utiliser, avec les ajustements appropriés aux erreurs types pour tenir compte des dépendances, et l’utilisation de variables nominales et d’interactions pour obtenir des effets au niveau de l’école et des intersections spécifiques à l’école. Les MCO peuvent être inefficaces, mais ils sont si transparents qu'il pourrait être plus facile de convaincre un public sceptique si vous l'utilisiez. Mais si vos données sont rares de certaines manières - en particulier si vous avez peu d'observations pour certaines écoles - vous voudrez peut-être imposer plus de "structure" au problème. Vous voudrez peut-être «emprunter de la force» auprès des écoles de l'échantillon plus important pour améliorer les estimations bruitées que vous obtiendriez dans les écoles de l'échantillon restreint si l'estimation était réalisée sans structure. Ensuite, vous pouvez vous tourner vers un modèle à effets aléatoires estimé via FGLS,

Dans cet exemple, l’utilisation d’un modèle à plusieurs niveaux (quelle que soit notre décision finale) est motivée par l’intérêt direct suscité par les interceptions au niveau de l’école. Bien entendu, dans d’autres situations, ces paramètres de niveau groupe ne sont peut-être qu’une nuisance. Que vous deviez ou non vous y adapter (et donc travailler avec un type de modèle à plusieurs niveaux) dépend de la validité de certaines hypothèses d'exogénéité conditionnelle. À ce sujet, je recommanderais de consulter la littérature économétrique sur les méthodes de données de panel; la plupart des idées qui en découlent sont ensuite transférées dans des contextes de données groupées générales.

Cyrus S
la source
1
C'est un vieux fil, mais au cas où vous lisiez ceci: MLS avec variables nominales et interactions n'emprunte pas la force que les autres techniques que vous mentionnez, n'est-ce pas? J'ai des données dans lesquelles j'ai divisé mon analyse en deux parties et utilisé deux commandes lm (modèle linéaire R) pour modéliser les deux parties. J'ai introduit une variable factice pour indiquer les deux parties, puis utilisé à nouveau lm sur ce modèle "unifié" et les réponses sont proches, mais pas les mêmes. Ma question serait la suivante: cette réponse est-elle "meilleure" ou simplement différente à cause de l'algorithme?
Wayne
@Wayne: si vous utilisiez des variables nominales et l'ensemble des interactions dans la seconde, les estimations ponctuelles devraient être les mêmes. Les erreurs standard peuvent différer, car la deuxième méthode peut supposer des degrés de liberté plus élevés, mais vous souhaitez vérifier si cette hypothèse de modélisation est correcte.
Cyrus S
6

La modélisation à plusieurs niveaux est appropriée, comme son nom l'indique, lorsque vos données ont des influences se produisant à différents niveaux (individuel, dans le temps, sur des domaines, etc.). La modélisation à un niveau suppose que tout se passe au niveau le plus bas. Un modèle multiniveau introduit également des corrélations entre les unités imbriquées. Donc, les unités de niveau 1 dans la même unité de niveau 2 seront corrélées.

Dans un certain sens, vous pouvez penser que la modélisation à plusieurs niveaux permet de trouver le juste milieu entre "l'erreur individuelle" et "l'erreur écologique". L'erreur individualiste se produit lorsque des "effets de communauté" sont ignorés, tels que la compatibilité du style d'un enseignant avec le style d'apprentissage d'un élève, par exemple (l'effet est supposé provenir de l'individu seul, il suffit donc de faire une régression au niveau 1). alors que "l'erreur écologique" est le contraire, ce serait comme si le meilleur enseignant avait les meilleurs élèves (et pour que le niveau 1 ne soit pas nécessaire, il suffit de faire une régression complète au niveau 2). Dans la plupart des contextes, ni l'un ni l'autre n'est approprié (l'élève-enseignant est un exemple "classique").

Notez que dans l'exemple scolaire, il y avait un regroupement ou une structure "naturelle" dans les données. Mais ce n’est pas une caractéristique essentielle de la modélisation multi-niveaux / hiérarchique. Cependant, le regroupement naturel facilite les mathématiques et les calculs. L’ingrédient clé est l’information préalable selon laquelle des processus se déroulent à différents niveaux. En fait, vous pouvez concevoir des algorithmes de clustering en imposant une structure à plusieurs niveaux à vos données avec une incertitude quant à savoir quelle unité se trouve dans quel niveau supérieur. Donc vous avezyjej avec l'indice j être inconnu.

probabilislogic
la source
4

En règle générale, une analyse bayésienne hiérarchique (HB) conduit à des estimations efficaces et stables au niveau individuel, à moins que vos données soient telles que les effets au niveau individuel soient complètement homogènes (scénario irréaliste). L'efficacité et les estimations de paramètres stables des modèles HB deviennent vraiment importantes lorsque vous disposez de données éparses (par exemple, moins d'éléments obsolètes que de paramètres au niveau individuel) et lorsque vous souhaitez estimer des estimations individuelles.

Cependant, les modèles HB ne sont pas toujours faciles à estimer. Par conséquent, si l'analyse HB prime généralement sur l'analyse non-HB, vous devez peser les coûts relatifs par rapport aux avantages en fonction de votre expérience passée et de vos priorités actuelles en termes de temps et de coût.

Cela dit, si vous n'êtes pas intéressé par les estimations au niveau individuel, vous pouvez simplement estimer un modèle au niveau agrégé, mais même dans ces contextes, l'estimation de modèles d'agrégation via HB à l'aide d'estimations au niveau individuel peut sembler très judicieuse.

En résumé, l’adaptation des modèles HB est l’approche recommandée aussi longtemps que vous avez le temps et la patience de les adapter. Vous pouvez ensuite utiliser les modèles globaux comme référence pour évaluer les performances de votre modèle HB.


la source
Merci pour votre réponse détaillée, Srikant :) Je ne connais pas encore les analyses bayésiennes, mais c’est l’un des sujets sur lesquels j’ai voulu approfondir. L’analyse bayésienne hiérarchique est-elle différente des autres analyses multiniveaux / hiérarchiques présentées sur cette page? Si oui, avez-vous une ressource recommandée pour que les parties intéressées en apprennent plus?
Patrick
D'un point de vue analytique Analyse HB = modèles multiniveaux. Toutefois, le terme modèles multi-niveaux est utilisé lorsque différents niveaux se produisent naturellement (voir l'exemple de @ars). Le terme modèles HB est utilisé lorsque vous n'avez pas nécessairement différents niveaux dans la situation. Par exemple, si vous modélisez la réponse d'un consommateur à diverses variables marketing (par exemple, le prix, les dépenses publicitaires, etc.), vous pouvez avoir la structure suivante au niveau du consommateur:βje~N(β¯,Σ) et β¯~N(.,.)au niveau de la population. Pour les références: voir les autres réponses.
4

J'ai appris de Snijders et Bosker, Analyse à plusieurs niveaux: Introduction à la modélisation de base et avancée à plusieurs niveaux. Je pense que c’est très bien lancé au débutant, c’est sûrement parce que je suis un peu lourd en ce qui concerne ces choses et que cela a eu un sens pour moi.

Je partage également Gelman et Hill, un livre vraiment brillant.

Chris Beeley
la source
1

Des modèles à plusieurs niveaux doivent être utilisés lorsque les données sont imbriquées dans une structure hiérarchique, en particulier lorsqu'il existe des différences significatives entre les unités de niveau supérieur de la variable dépendante (par exemple, l'orientation du rendement d'un élève varie d'un élève à l'autre et aussi entre les classes avec lesquelles l'élève sont imbriqués). Dans ces circonstances, les observations sont regroupées plutôt qu'indépendantes. Le fait de ne pas prendre en compte la classification conduit à une sous-estimation des erreurs des estimations de paramètres, à des tests de signification biaisés et à une tendance à rejeter la valeur nulle lorsqu'elle doit être conservée. La justification de l’utilisation de modèles multi-niveaux, ainsi que des explications détaillées sur la manière de réaliser les analyses, est fournie par

Raudenbush, S. W. Bryk, A. S. (2002). Hierarchical linear models: Applications and data analysis methods. 2nd edition. Newbury Park , CA : Sage.

The R & B book is also well integrated with the authors' HLM software package, which helps a great deal in learning the package. An explanation of why multi-level models are necessary and preferable to some alternatives (like dummy coding the higher level units) is provided in a classic paper

Hoffman, D.A. (1997). An overview of the logic and rationale of Hierachical Linear Models. Journal of Management, 23, 723-744.

The Hoffman paper can be downloaded for free if you Google "Hoffman 1997 HLM" and access the pdf online.

StatisticsDoc Consulting
la source