Sur l'utilité de la corrélation intercept-pente dans les modèles multiniveaux

8

Dans leur livre "Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling" (1999), Snijders & Bosker (ch. 8, section 8.2, page 119) a déclaré que la corrélation intercept-pente, calculée comme la covariance inter-pente divisée par la racine carrée du produit de la variance d'interception et de la variance de pente, n'est pas limité entre -1 et +1 et peut même être infini.

Compte tenu de cela, je ne pensais pas que je devais lui faire confiance. Mais j'ai un exemple à illustrer. Dans l'une de mes analyses, qui a la race (dichotomie), l'âge et l'âge * race comme effets fixes, la cohorte comme effet aléatoire et la variable de dichotomie raciale comme pente aléatoire, ma série de nuages ​​de points montre que la pente ne varie pas beaucoup entre les valeurs de ma variable de grappe (c.-à-d. de cohorte) et je ne vois pas la pente devenir de plus en plus raide entre les cohortes. Le test du rapport de vraisemblance montre également que l'adéquation entre les modèles d'interception aléatoire et de pente aléatoire n'est pas significative malgré ma taille totale de l'échantillon (N = 22 156). Et pourtant, la corrélation intercept-pente était proche de -0,80 (ce qui suggérerait une forte convergence des différences de groupe dans la variable Y au fil du temps, c'est-à-dire entre les cohortes).

Je pense que c'est une bonne illustration de la raison pour laquelle je ne fais pas confiance à la corrélation intercept-pente, en plus de ce que Snijders et Bosker (1999) ont déjà dit.

Faut-il vraiment faire confiance et rapporter la corrélation inter-pente dans les études multiniveaux? Plus précisément, quelle est l'utilité d'une telle corrélation?

EDIT 1: Je ne pense pas que cela répondra à ma question, mais Gung m'a demandé de fournir plus d'informations. Voir ci-dessous, si cela peut vous aider.

Les données proviennent de l'Enquête sociale générale. Pour la syntaxe, j'ai utilisé Stata 12, donc il lit:

xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml cov(un) var
  • wordsum est un score de test de vocabulaire (0-10),
  • bw1 est la variable ethnique (noir = 0, blanc = 1),
  • aged1-aged9 sont des variables fictives de l'âge,
  • bw1aged1-bw1aged9 sont l'interaction entre l'ethnicité et l'âge,
  • cohort21 est ma variable de cohorte (21 catégories, codées de 0 à 20).

La sortie indique:

    . xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml 
> cov(un) var

Performing EM optimization: 

Performing gradient-based optimization: 

Iteration 0:   log restricted-likelihood = -46809.738  
Iteration 1:   log restricted-likelihood = -46809.673  
Iteration 2:   log restricted-likelihood = -46809.673  

Computing standard errors:

Mixed-effects REML regression                   Number of obs      =     22156
Group variable: cohort21                        Number of groups   =        21

                                                Obs per group: min =       307
                                                               avg =    1055.0
                                                               max =      1728


                                                Wald chi2(17)      =   1563.31
Log restricted-likelihood = -46809.673          Prob > chi2        =    0.0000

------------------------------------------------------------------------------
     wordsum |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         bw1 |   1.295614   .1030182    12.58   0.000     1.093702    1.497526
       aged1 |  -.7546665    .139246    -5.42   0.000    -1.027584   -.4817494
       aged2 |  -.3792977   .1315739    -2.88   0.004    -.6371779   -.1214175
       aged3 |  -.1504477   .1286839    -1.17   0.242    -.4026635     .101768
       aged4 |  -.1160748   .1339034    -0.87   0.386    -.3785207    .1463711
       aged6 |  -.1653243   .1365332    -1.21   0.226    -.4329245     .102276
       aged7 |  -.2355365    .143577    -1.64   0.101    -.5169423    .0458693
       aged8 |  -.2810572   .1575993    -1.78   0.075    -.5899461    .0278318
       aged9 |  -.6922531   .1690787    -4.09   0.000    -1.023641   -.3608649
    bw1aged1 |  -.2634496   .1506558    -1.75   0.080    -.5587297    .0318304
    bw1aged2 |  -.1059969   .1427813    -0.74   0.458    -.3858431    .1738493
    bw1aged3 |  -.1189573   .1410978    -0.84   0.399     -.395504    .1575893
    bw1aged4 |    .058361   .1457749     0.40   0.689    -.2273525    .3440746
    bw1aged6 |   .1909798   .1484818     1.29   0.198    -.1000393    .4819988
    bw1aged7 |   .2117798    .154987     1.37   0.172    -.0919891    .5155486
    bw1aged8 |   .3350124    .167292     2.00   0.045     .0071262    .6628987
    bw1aged9 |   .7307429   .1758304     4.16   0.000     .3861217    1.075364
       _cons |   5.208518   .1060306    49.12   0.000     5.000702    5.416334
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
cohort21: Unstructured       |
                    var(bw1) |   .0049087    .010795      .0000659    .3655149
                  var(_cons) |   .0480407   .0271812      .0158491     .145618
              cov(bw1,_cons) |  -.0119882    .015875     -.0431026    .0191262
-----------------------------+------------------------------------------------
               var(Residual) |   3.988915   .0379483      3.915227     4.06399
------------------------------------------------------------------------------
LR test vs. linear regression:       chi2(3) =    85.83   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.

Le diagramme de dispersion que j'ai produit est illustré ci-dessous. Il y a neuf nuages ​​de points, un pour chaque catégorie de ma variable d'âge.

entrez la description de l'image ici

EDIT 2:

. estat recovariance

Random-effects covariance matrix for level cohort21

             |       bw1      _cons 
-------------+----------------------
         bw1 |  .0049087            
       _cons | -.0119882   .0480407

Il y a une autre chose que je veux ajouter: ce qui me dérange, c'est qu'en ce qui concerne la covariance / corrélation inter-pente, Joop J. Hox (2010, p. 90) dans son livre "Multilevel Analysis Techniques and Applications, Second Edition" dit que :

Il est plus facile d'interpréter cette covariance si elle est présentée comme une corrélation entre les résidus d'interception et de pente. ... Dans un modèle sans autres prédicteurs à l'exception de la variable temporelle, cette corrélation peut être interprétée comme une corrélation ordinaire, mais dans les modèles 5 et 6, il s'agit d'une corrélation partielle, conditionnelle aux prédicteurs du modèle.

Il semble donc que tout le monde ne soit pas d'accord avec Snijders et Bosker (1999, p. 119) qui estiment que «l'idée d'une corrélation n'a pas de sens ici» car elle n'est pas limitée entre [-1, 1].

Meng Hu
la source
Pouvez-vous publier les parcelles? Pouvez-vous ajouter plus d'informations sur vos données et votre modèle? Pouvez-vous publier le résultat de l'analyse et le code qui a été utilisé pour le générer?
gung - Réintégrer Monica
Merci pour ton commentaire. Je ne pense pas que cela réponde à ma question sur l'utilité de la "corrélation" de pente d'interception, mais j'ai édité mon Q et ajouté les informations que vous avez demandées. J'espère que cela aiderait de toute façon.
Meng Hu
Merci, Meng Hu. Je ne sais pas si cela va aider les gens ou non, mais ça pourrait, et ça ne fera pas de mal.
gung - Rétablir Monica
N'ayant pas le livre, je me demande s'ils ont dit ça sur la covariance de la pente et de l'ordonnée à l'origine, pas sur la corrélation. Avec N = 22k, vous ne pouvez pas publier les BLUP, mais pouvez-vous publier leur matrice de variance-covariance? Je suppose que vous utilisez Stata, ce que je ne sais pas, mais cela devrait être possible.
gung - Réintégrer Monica
La variance-covariance des effets aléatoires aurait dû être affichée dans la sortie que j'ai ajoutée auparavant. Mais j'ai retravaillé la question. Cela étant dit, je ne me souviens pas que Snijders et Bosker (1999) aient dit quoi que ce soit en particulier à propos de la covariance pente-interception. Ils disent que nous devrions toujours l'inclure dans un modèle à pente aléatoire. Ils expliquent également ce que signifie avoir un coefficient négatif / positif pour une telle covariance. Mais c'est tout, je pense. Soit dit en passant, j'ai également ajouté le passage de Hox (2010), qui estime que la corrélation intercept-pente peut être interprétée comme une corrélation ordinaire.
Meng Hu

Réponses:

4

J'ai envoyé un courriel à plusieurs chercheurs (près de 30 personnes) il y a plusieurs semaines. Peu d'entre eux ont envoyé leur courrier (toujours des courriels collectifs). Eugene Demidenko a été le premier à répondre:

cov / sqrt (var1 * var2) est toujours dans [-1,1] quelle que soit l'interprétation: il peut s'agir d'estimations d'interception et de pente, de deux pentes, etc. Le fait que -1 <= cov / sqrt (var1 * var2 ) <= 1 découle de l'inégalité de Cauchy et c'est toujours vrai. Je rejette donc la déclaration de Snijders & Bosker. Peut-être qu'il manque une autre information?

Ceci a été suivi d'un e-mail de Thomas Snijders:

Les informations manquantes sont ce qui a été réellement écrit à ce sujet aux pages 122, 123, 124, 129 de Snijders & Bosker (2e édition 2012). Il ne s'agit pas de deux affirmations concurrentes dont pas plus d'une ne peut être vraie, il s'agit de deux interprétations différentes.

Dans. 123 une fonction de variance quadratique est introduite, \ sigma_0 ^ 2 + 2 \ sigma_ {01} * x + \ sigma_1 ^ 2 * x ^ 2 et la remarque suivante est faite: "Cette formule peut être utilisée sans l'interprétation que \ sigma_0 ^ 2 et \ sigma_1 ^ 2 sont des variances et \ sigma_ {01} une covariance; ces paramètres peuvent être n'importe quel nombre. La formule implique seulement que la variance résiduelle est une fonction quadratique de x.

Permettez-moi de citer un paragraphe complet de p. 129, sur une fonction de variance quadratique au niveau deux; notez que ONE MIGHT INTERPRET que \ tau_0 ^ 2 et \ tau_1 ^ 2 sont les variances de niveau deux de l'interception aléatoire et de la pente aléatoire, et \ tau_ {01} est leur covariance, mais cela est explicitement mis derrière l'horizon:

"Les paramètres \ tau_0 ^ 2, \ tau_1 ^ 2 et \ tau_ {01} ne doivent pas, comme dans la section précédente, être interprétés eux-mêmes comme des variances et une covariance correspondante. L'interprétation se fait au moyen de la fonction de variance (8.7 ) [note ts: dans le livre, cela est rapporté à tort comme 8.8]. Par conséquent, il n'est pas nécessaire que \ tau_ {01} ^ 2 <= \ tau_0 ^ 2 * \ tau_1 ^ 2. Pour le dire autrement, les "corrélations" défini formellement par \ tau_ {01} / (\ tau_0 * \ tau_1) peut être supérieur à 1 ou inférieur à -1, voire infini, car l'idée d'une corrélation n'a pas de sens ici. Un exemple en est fourni par le fonction de variance linéaire pour laquelle \ tau_1 ^ 2 = 0 et seuls les paramètres \ tau_0 ^ 2 et \ tau_ {01} sont utilisés. "

La fonction de variance est une fonction quadratique de x (la variable "avec la pente aléatoire"), et la variance du résultat est celle-ci plus la variance de niveau 1. Tant que cela est positif pour tous les x, la variance modélisée est positive. (Une exigence supplémentaire est que la matrice de covariance correspondante soit définie positive.)

Un autre contexte de ceci est l'existence de différences dans les algorithmes d'estimation des paramètres dans les logiciels. Dans certains logiciels multiniveaux (effets aléatoires), il est exigé que les matrices de covariance des effets aléatoires soient semi-définies positives à tous les niveaux. Dans d'autres logiciels, il est uniquement exigé que la matrice de covariance estimée résultante pour les données observées soit semi-définie positive. Cela implique que l'idée de coefficients aléatoires des variables latentes est abandonnée, et le modèle spécifie une certaine structure de covariance pour les données observées; Ni plus ni moins; dans ce cas, l'interprétation citée de Joop Hox ne s'applique pas. Notez que Harvey Goldstein utilisait il y a déjà longtemps des fonctions de variance linéaire au niveau un, représentées par une variance de pente nulle et une corrélation d'interception de pente non nulle au niveau un; c'était et est appelé "variation complexe"; voir, par exemple, http://www.bristol.ac.uk/media-library/sites/cmm/migrated/documents/modelling-complex-variation.pdf

Et puis, Joop Hox a répondu:

Dans le logiciel MLwiN, il est en fait possible d'estimer un terme de covariance et en même temps de contraindre l'une des variances à zéro, ce qui rendrait la "corrélation" infinie. Et oui, certains logiciels permettent des estimations telles que les variances négatives (le logiciel SEM le permet généralement). Mes déclarations n'étaient donc pas tout à fait exactes. Je parlais de structures aléatoires non structurées "normales". Permettez-moi d'ajouter que si vous redimensionnez la variable avec la pente aléatoire pour avoir un zéro différent, les variances et les covariances changent généralement. La corrélation n'est donc interprétable que si la variable prédictive a un point zéro fixe, c'est-à-dire qu'elle est mesurée sur une échelle de rapport. Cela s'applique aux modèles de courbe de croissance, où la corrélation entre l'état initial et le taux de croissance est parfois interprétée. Dans ce cas, la valeur zéro doit être le '

Et il a envoyé un autre mail:

Quoi qu'il en soit, je pense que l'explication de Tom ci-dessous correspond mieux au style de la collaboration Snijders / Bosker qu'à mon style plus informel. J'ajouterais à la page 90 une note de bas de page indiquant quelque chose comme "Notez que les valeurs des paramètres dans la partie aléatoire sont des estimations. Interpréter les covariances normalisées comme des corrélations ordinaires suppose qu'il n'y a pas de contraintes sur les variances et que le logiciel ne permet pas d'estimations négatives. Si la partie aléatoire n'est pas structurée, l'interprétation en tant que (co) variances ordinaires est généralement tenable. ".

Notez que j'ai écrit sur l'interprétation de la corrélation dans le chapitre longitudinal. Dans la modélisation des courbes de croissance, il est très tentant d'interpréter cette corrélation comme un résultat substantiel, ce qui est dangereux car la valeur dépend de la "métrique du temps". Si cela vous intéresse, je vous recommande d'aller sur le site Web de Lesa Hoffman ( http://www.lesahoffman.com/ ).

Je pense donc que dans ma situation, où j'ai spécifié une covariance non structurée pour les effets aléatoires, je devrais interpréter la corrélation pente-interception comme une corrélation ordinaire.

Meng Hu
la source
Pour info, si vous devez vous référer à quelqu'un comme un scholarou un researcherpeut être établi en consultant leurs CV. S'ils répertorient les livres en premier (et n'ont pas d'articles dans des revues à comité de lecture ... comme c'est le cas en sciences humaines), ils le sont certainement scholars. S'ils énumèrent les articles et / ou les subventions en premier, ils le sont researchers.
StasK
@StasK, pourquoi dites-vous que les revues en sciences humaines ne sont pas évaluées par des pairs? Je pensais que oui. Exemples: Philologie classique , Europe médiévale précoce - ce sont les premiers que j'ai trouvés en recherchant des mots clés aléatoires sur Google Scholar Metrics. J'en ai vérifié plusieurs autres, et ils semblent tous évalués par des pairs.
amibe
J'ai seulement dit que les gens écrivaient des livres plutôt que des articles pour des revues à comité de lecture. Je ne doute pas qu'il existe des revues à comité de lecture en sciences humaines.
StasK
1

Je ne peux qu'applaudir vos efforts pour aller vérifier auprès des gens sur le terrain. Je voudrais juste faire un petit commentaire concernant l'utilité de la corrélation entre l'ordonnée à l'origine et la pente. Skrondal et Rabe-Hesketh (2004) fournissent un exemple simple et idiot de la façon dont on peut manipuler cette corrélation par le décalage / centrage de la variable qui entre dans le modèle avec une pente aléatoire. Voir p. 54 - recherchez «Figure 3.1» dans l'aperçu Amazon. Cela vaut au moins quelques dizaines de mots.

StasK
la source