Peut-on modéliser des facteurs non aléatoires comme aléatoires dans un plan à plusieurs niveaux / hiérarchique?

9

La distinction entre les variables strictement aléatoires (qui devraient être modélisées en tant que telles) et les variables non aléatoires qui, selon certains, pourraient être modélisées comme aléatoires s'il s'agit d'un modèle hiérarchique / à plusieurs niveaux, est floue pour moi.

Bates et Bolker illustrent les effets aléatoires avec des cas de vrais aléas, par exemple la qualité des produits dans des échantillons sélectionnés au hasard. Bien que leur lme4travail soit incroyable, il est encore peu clair où la ligne entre aléatoire et non aléatoire. Les discussions en sciences sociales rendent cela encore plus flou. Les modèles multiniveaux / hiérarchiques et les modèles à effets aléatoires sont calculativement égaux lme4, alors où tracer la ligne?

Par exemple, j'ai un ensemble de données avec des mesures répétées sur plusieurs individus (c'est aléatoire!) Mais je crois, et les résultats de lme4montrer, qu'une grande proportion de la variance réside dans leurs variables socio-économiques (telles que la zone de vie, la race, etc.). Ces variables ne sont pas aléatoires, mais les modèles à plusieurs niveaux font valoir qu'elles pourraient être utilisées en tant que telles. D'autres exemples proviennent d'études sur les notes des élèves, emboîtant généralement les élèves au sein des enseignants et plus loin au sein des écoles. Toutes ces variables sont constantes.

Peut-on modéliser des facteurs non aléatoires comme aléatoires si cela est plausible dans le domaine des modèles (hiérarchiques) à plusieurs niveaux?

Adam Robinsson
la source
Salut Tim. Merci pour les liens mais ils ne répondront pas vraiment à la question. Je comprends la signification des effets aléatoires, mixtes et fixes. Cette question est de savoir si les plans multi-niveaux / hiérarchiques permettent d'incorporer des variables non aléatoires comme aléatoires.
Adam Robinsson

Réponses:

14

Je suis perplexe devant votre question. Je sais que vous dites que vous comprenez les effets fixes et les effets aléatoires, mais peut-être que vous ne les comprenez pas de la même manière que moi. J'ai posté un extrait plutôt étendu d'un sous presse chapitre de livre ici ce qui explique mon avis (plutôt pragmatique, assez aligné en étroite collaboration avec Andrew Gelman).

Répondre plus directement à la question:

  • il (OMI) n'a aucun sens d'inclure les principaux effets des variables socio-économiques telles que le revenu comme aléatoires. Si vous aviez plus d'une mesure du revenu par individu, vous pouvez inclure l'individu comme variable de regroupement et permettre aux effets du revenu sur la réponse (quelle qu'elle soit) de varier d'un individu à l'autre.
  • La race semble avoir le plus de sens en tant qu'effet fixe, et il est peu probable que vous puissiez mesurer un individu sous les effets de plus d'une race, mais vous pourriez (par exemple) caractériser la variation aléatoire des effets de race à travers différents pays. Vous pouvez le traiter comme un effet aléatoire (c'est-à-dire que les différences de modèle entre les races sont tirées d'une distribution normale), mais il est probable que cela ne soit pas pratique car vous n'aurez probablement pas assez de races différentes dans votre ensemble de données, et ce serait difficile pour moi de trouver un bon argument conceptuel pour cela non plus ...
  • «zone de vie» a un sens en tant que variable de regroupement, ce qui pourrait certainement être un effet aléatoire raisonnable (c'est-à-dire que l'interception varierait selon les zones de vie). L'individu serait probablement imbriqué dans la zone, à moins que les individus ne se déplacent entre les zones sur l'échelle de temps de votre étude.
  • votre situation semble être un cas où vous avez des variations aléatoires entre les individus, mais vous avez également des covariables au niveau individuel. L'ajout de ces covariables au niveau individuel (race, revenu, etc.) au modèle expliquera une partie de la variabilité entre les individus (et c'est probablement une bonne idée).

Cela peut ajouter de la clarté pour distinguer les variables de regroupement (qui doivent être catégoriques), qui représentent les groupes à travers lesquels les choses varient et les effets , qui sont les différences de certains paramètres / effets (généralement l'ordonnée à l'origine, mais pourraient être les effets du revenu / éducation / autre) à tous les niveaux de certaines variables de regroupement.

mise à jour : je me permettrai de donner un contrepoint à votre

Ma compréhension des effets aléatoires: facteurs choisis au hasard dans une population;

  • Cela dépend peut-être de votre vision philosophique. Ceci est requis dans le paradigme fréquentiste classique, mais je l'assouplirais un peu en demandant s'il est raisonnable de traiter les effets comme étant des tirages aléatoires d'une population hypothétique. (Les exemples classiques ici sont (1) un échantillonnage exhaustif (et si vous avez des mesures pour chaque quartier de la ville, ou chaque région / province / état d'un pays? Pouvez-vous toujours les traiter comme des tirages aléatoires d'une superpopulation? Et (2 ) périodes de temps mesuré de façon séquentielle (par exemple des années 2002-2012). Dans ces deux cas , je dirais que cela fait pragmatique logique de les modéliser en utilisant des effets aléatoires.)

les niveaux du facteur présentent peu d'intérêt;

  • pas nécessairement. Je ne pense pas que l'idée selon laquelle les effets aléatoires doivent être des variables gênantes tient dans la pratique. Par exemple, dans les analyses d'élevage, on peut être très intéressé à connaître la valeur d'élevage (BLUP) d'un animal particulier. (Le soi-disant niveau de concentration a certaines implications sur la façon dont on compare les modèles.)

les variables sont des facteurs non observés.

Je ne sais pas ce que cela signifie. Vous savez de quel quartier provient chaque observation, non? Comment est-ce "inobservé"? (Si vous soupçonniez le regroupement de vos données sur la base de facteurs non observés , vous devez adapter un modèle de mélange discret .) Si vous voulez dire que vous ne savez pas pourquoi les quartiers sont différents, je ne pense pas que cela importe ici.

Prenons l'exemple du quartier. C'est ma variable d'intérêt principal, les niveaux sont importants. J'utilise des modèles mixtes et vérifie qu'il y a beaucoup de variance en son sein.

La seule raison pour laquelle je peux penser à ne pas utiliser le quartier comme effet aléatoire serait si vous n'aviez mesuré qu'un petit nombre (disons <6) de quartiers.

Ben Bolker
la source
Ma compréhension des effets aléatoires: facteurs choisis au hasard dans une population; les niveaux du facteur présentent peu d'intérêt; les variables sont des facteurs non observés. Prenons l'exemple du quartier. C'est ma variable d'intérêt principal, les niveaux sont importants. J'utilise des modèles mixtes et vérifie qu'il y a beaucoup de variance en son sein. Vous avez noté qu'elle pourrait être utilisée comme variable aléatoire. Je modélise donc une variable non aléatoire comme étant aléatoire; c'est un peu déroutant pour moi, mais votre réponse nous a éclairé. Je vais lire l'extrait tout de suite. Merci pour la réponse, appréciez votre temps.
Adam Robinsson
Malheureusement, je n'ai pas remarqué votre mise à jour jusqu'à présent prof Bolker. En fait, je pense que je l'ai maintenant. Ce n'est pas une chose super simple, tout le concept de modèle mixte et je pense que cela peut prendre un certain temps à comprendre. En effet, il y a une abondance de questions similaires, donc je suppose que je ne suis pas le seul. Néanmoins, merci pour une réponse élucidante. J'ai apprécié.
Adam Robinsson