Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait:

#fit the model
fit = lmer(dv~(1|unit),data=my_data)

#obtain the variance estimates
vc = VarCorr(fit)
residual_var = attr(vc,'sc')^2
intercept_var = attr(vc$id,'stddev')[1]^2

#compute the unadjusted repeatability
R = intercept_var/(intercept_var+residual_var)

#compute n0, the repeatability adjustment
n = as.data.frame(table(my_data$unit))
    k = nrow(n)
    N = sum(n$Freq)
n0 = (N-(sum(n$Freq^2)/N))/(k-1)

#compute the adjusted repeatability
Rn = R/(R+(1-R)/n0)

Je pense que cette approche peut également être utilisée pour calculer la fiabilité des effets (c'est-à-dire l'effet de contraste de la somme d'une variable à 2 niveaux), comme dans:

#make sure the effect variable has sum contrasts
contrasts(my_data$iv) = contr.sum

#fit the model
fit = lmer(dv~(iv|unit)+iv,data=my_data)

#obtain the variance estimates
vc = VarCorr(fit)
residual_var = attr(vc,'sc')^2
effect_var = attr(vc$id,'stddev')[2]^2

#compute the unadjusted repeatability
R = effect_var/(effect_var+residual_var)

#compute n0, the repeatability adjustment
n = as.data.frame(table(my_data$unit,my_data$iv))
k = nrow(n)
N = sum(n$Freq)
    n0 = (N-(sum(n$Freq^2)/N))/(k-1)

#compute the adjusted repeatability
Rn = R/(R+(1-R)/n0)

Trois questions:

Les calculs ci-dessus pour obtenir l'estimation ponctuelle de la répétabilité d'un effet ont-ils un sens?
Lorsque j'ai plusieurs variables dont je veux estimer la répétabilité, les ajouter toutes au même ajustement (par exemple lmer(dv~(iv1+iv2|unit)+iv1+iv2) semble donner des estimations de répétabilité plus élevées que de créer un modèle distinct pour chaque effet. Cela a du sens pour moi sur le plan du calcul, car l'inclusion d'effets multiples aura tendance à diminuer la variance résiduelle, mais je ne suis pas certain que les estimations de répétabilité qui en résultent soient valides. Sont-ils?
L'article cité ci-dessus suggère que le profil de vraisemblance pourrait m'aider à obtenir des intervalles de confiance pour les estimations de répétabilité, mais pour autant que je sache, confint(profile(fit))ne fournit que des intervalles pour les variances d'interception et d'effet, alors que j'aurais également besoin de l'intervalle pour la variance résiduelle pour calculer l'intervalle pour la répétabilité, non?

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit Mike Lawrence
la source

Je pense que je peux répondre à vos questions au moins concernant les estimations de répétabilité non ajustées, c'est-à-dire les corrélations classiques intra-classe (ICC). Quant aux estimations de répétabilité "ajustées", j'ai survolé le papier que vous avez lié et je n'ai pas vraiment vu où la formule que vous appliquez peut être trouvée dans le papier? Sur la base de l'expression mathématique, il semble que ce soit la répétabilité des scores moyens (plutôt que des scores individuels). Mais il n'est pas clair que c'est de toute façon une partie essentielle de votre question, donc je l'ignorerai.

(1.) Les calculs ci-dessus pour obtenir l'estimation ponctuelle de la répétabilité d'un effet ont-ils un sens?

Oui, l'expression que vous proposez a du sens, mais une légère modification de la formule que vous proposez est nécessaire. Ci-dessous, je montre comment on pourrait dériver votre coefficient de répétabilité proposé. J'espère que cela clarifie à la fois la signification conceptuelle du coefficient et montre également pourquoi il serait souhaitable de le modifier légèrement.

Pour commencer, prenons d'abord le coefficient de répétabilité dans votre premier cas et clarifions ce qu'il signifie et d'où il vient. Comprendre cela nous aidera à comprendre le deuxième cas plus compliqué.

Interceptions aléatoires uniquement

$i$ $j$

y_{je j} = β_{0} + u_{0 j} + e_{je j},

$y_{ij} = \beta_0 + u_{0j} + e_{ij},$

u_{0 j}

$u_{0j}$

σ_{u_{0}}^{2}

$\sigma^2_{u_0}$

e_{i j}

$e_{ij}$

σ_{e}^{2}

$\sigma^2_e$

$x$ $y$

c o r r = \frac{c o v (X, y)}{\sqrt{v une r (X) v une r (y)}} .

$corr = \frac{cov(x, y)}{\sqrt{var(x)var(y)}}.$

$x$ $y$ $j$

je C C = \frac{c o v (β_{0} + u_{0 j} + e_{{je}_{1} j}, β_{0} + u_{0 j} + e_{{je}_{2} j})}{\sqrt{v une r (β_{0} + u_{0 j} + e_{{je}_{1} j}) v une r (β_{0} + u_{0 j} + e_{{je}_{2} j})}},

$ICC = \frac{cov(\beta_0 + u_{0j} + e_{i_1j}, \beta_0 + u_{0j} + e_{i_2j})}{\sqrt{var(\beta_0 + u_{0j} + e_{i_1j})var(\beta_0 + u_{0j} + e_{i_2j})}},$

je C C = \frac{σ_{u_{0}}^{2}}{σ_{u_{0}}^{2} + σ_{e}^{2}} .

$ICC = \frac{\sigma^2_{u_0}}{\sigma^2_{u_0} + \sigma^2_e}.$

Interceptions aléatoires et pentes aléatoires

Maintenant, pour le deuxième cas, nous devons d'abord clarifier ce que l'on entend précisément par «la fiabilité des effets (c'est-à-dire l'effet de contraste de la somme d'une variable à 2 niveaux)» - vos mots.

Nous exposons d'abord le modèle. Le modèle mixte pour le $i$ $j$ $k$ $x$

y_{je j k} = β_{0} + β_{1} X_{k} + u_{0 j} + u_{1 j} X_{k} + e_{je j k},

$y_{ijk} = \beta_0 + \beta_1x_k + u_{0j} + u_{1j}x_k + e_{ijk},$

σ_{u_{0}}^{2}

$\sigma^2_{u_0}$

σ_{u_{1}}^{2}

$\sigma^2_{u_1}$

σ_{u_{01}}

$\sigma_{u_{01}}$

e_{i j}

$e_{ij}$

σ_{e}^{2}

$\sigma^2_e$

$j$ $i$

Ainsi, la paire de scores de différence en question serait (rappelez-vous que nous avons supposé que est codé en contraste de sorte que $x$ $|x_1|=|x_2|=x$

y_{{je}_{1} j k_{2}} - y_{{je}_{1} j k_{1}} = (β_{0} - β_{0}) + β_{1} (X_{k_{2}} - X_{k_{1}}) + (u_{0 j} - u_{0 j}) + u_{1 j} (X_{k_{2}} - X_{k_{1}}) + (e_{{je}_{1} j k_{2}} - e_{{je}_{1} j k_{1}}) = 2 X β_{1} + 2 X u_{1 j} + e_{{je}_{1} j k_{2}} - e_{{je}_{1} j k_{1}}

$y_{i_1jk_2}-y_{i_1jk_1}=(\beta_0-\beta_0)+\beta_1(x_{k_2}-x_{k_1})+(u_{0j}-u_{0j})+u_{1j}(x_{k_2}-x_{k_1})+(e_{i_1jk_2}-e_{i_1jk_1}) \\=2x\beta_1+2xu_{1j}+e_{i_1jk_2}-e_{i_1jk_1}$

y_{{je}_{2} j k_{2}} - y_{{je}_{2} j k_{1}} = 2 X β_{1} + 2 X u_{1 j} + e_{{je}_{2} j k_{2}} - e_{{je}_{2} j k_{1}} .

$y_{i_2jk_2}-y_{i_2jk_1}=2x\beta_1+2xu_{1j}+e_{i_2jk_2}-e_{i_2jk_1}.$

Le fait de les brancher à la formule de corrélation nous donne

je C C = \frac{c o v (2 X β_{1} + 2 X u_{1 j} + e_{{je}_{1} j k_{2}} - e_{{je}_{1} j k_{1}}, 2 X β_{1} + 2 X u_{1 j} + e_{{je}_{2} j k_{2}} - e_{{je}_{2} j k_{1}})}{\sqrt{v une r (2 X β_{1} + 2 X u_{1 j} + e_{{je}_{1} j k_{2}} - e_{{je}_{1} j k_{1}}) v une r (2 X β_{1} + 2 X u_{1 j} + e_{{je}_{2} j k_{2}} - e_{{je}_{2} j k_{1}})}},

$ICC = \frac{cov(2x\beta_1+2xu_{1j}+e_{i_1jk_2}-e_{i_1jk_1}, 2x\beta_1+2xu_{1j}+e_{i_2jk_2}-e_{i_2jk_1})}{\sqrt{var(2x\beta_1+2xu_{1j}+e_{i_1jk_2}-e_{i_1jk_1})var(2x\beta_1+2xu_{1j}+e_{i_2jk_2}-e_{i_2jk_1})}},$

je C C = \frac{2 X^{2} σ_{u_{1}}^{2}}{2 X^{2} σ_{u_{1}}^{2} + σ_{e}^{2}} .

$ICC = \frac{2x^2\sigma^2_{u_1}}{2x^2\sigma^2_{u_1} + \sigma^2_e}.$

x

$x$

x

$x$

$x$ $\pm\frac{1}{\sqrt{2}}$

(2.) Lorsque j'ai plusieurs variables dont je veux estimer la répétabilité, les ajouter toutes au même ajustement (par exemple lmer(dv~(iv1+iv2|unit)+iv1+iv2) semble donner des estimations de répétabilité plus élevées que la création d'un modèle distinct pour chaque effet. Cela a du sens pour moi sur le plan du calcul, car l'inclusion d'effets multiples aura tendance à diminuer la variance résiduelle, mais je ne suis pas certain que les estimations de répétabilité qui en résultent soient valides. Sont-ils?

Je crois que travailler sur une dérivation similaire à celle présentée ci-dessus pour un modèle à prédicteurs multiples avec leurs propres pentes aléatoires montrerait que le coefficient de répétabilité ci-dessus serait toujours valide, à l' exception de la complication supplémentaire que les scores de différence qui nous intéressent conceptuellement le seraient désormais. ont une définition légèrement différente: à savoir, nous nous intéressons à la corrélation attendue des différences entre les moyennes ajustées après contrôle des autres prédicteurs du modèle.

Si les autres prédicteurs sont orthogonaux au prédicteur d'intérêt (comme, par exemple, dans une expérience équilibrée), je pense que le coefficient ICC / répétabilité élaboré ci-dessus devrait fonctionner sans aucune modification. S'ils ne sont pas orthogonaux, vous devrez modifier la formule pour en tenir compte, ce qui pourrait se compliquer, mais j'espère que ma réponse a donné quelques indications sur ce à quoi cela pourrait ressembler.

Jake Westfall
la source

$R$ $R_n$

Calcul de la répétabilité des effets d'un modèle lmer

Réponses:

Interceptions aléatoires uniquement

Interceptions aléatoires et pentes aléatoires