Pourquoi est-il difficile d'incorporer l'incertitude dans les effets aléatoires lors des prévisions à partir de modèles mixtes?

Il existe plusieurs discussions sur R-sig-ME sur l'obtention d'intervalles de confiance pour les prédictions utilisant lme4et nlmedans R. Par exemple ici et ici en 2010, y compris certains commentaires de Dougals Bates, l'un des auteurs des deux packages. J'hésite à le citer mot pour mot, de peur de les sortir de leur contexte, mais de toute façon, un commentaire qu'il fait est

"Vous combinez des paramètres et des variables aléatoires dans vos prédictions et je ne sais pas ce que cela signifierait pour évaluer la variabilité de ces prédictions. Un bayésien peut peut-être donner un sens à cela, mais je ne peux pas m'y mettre. " https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

Je sais que le paquet glmm bayésien MCMCglmmpeut produire des intervalles crédibles pour les prédictions.

Dernièrement, la version de développement de lme4on github a reçu une predictméthode, mais elle est accompagnée du commentaire suivant:

"@note Il n'y a pas d'option pour calculer les erreurs standard des prédictions car il est difficile de définir une méthode efficace qui incorpore l'incertitude dans les paramètres de variance; nous recommandons \ code {\ link {bootMer}} pour cette tâche." https://github.com/lme4/lme4/blob/master/R/predict.R

Alors, pourquoi est-il difficile d'incorporer l'incertitude dans les effets aléatoires lorsque l'on fait des prédictions à partir de modèles mixtes dans un cadre fréquentiste?

mixed-model P Sellaz
la source

Réponses:

Je ne suis pas sûr du commentaire de la méthode de prédiction, mais un problème principal est lié à la génération de mesures de variance facilement interprétables, et non de mesures de variance en soi. Bates ne commente pas dans la première citation si vous pouvez le faire, juste ce que cela signifie.

Prenez un modèle simple à plusieurs niveaux d'une conception de mesures répétées à deux niveaux. Disons que vous disposez des données suivantes où chaque ligne est un sujet:

entrez la description de l'image ici

Dans lmerle modèle pourrait être exprimé comme:

y ~ x + (1|subject)

Vous prédisez la valeur y de x comme un effet fixe (la différence entre A et B); et l'interception d'un effet aléatoire **. Regardez attentivement le graphique et notez que bien qu'il existe une variabilité dans l'effet x pour chaque sujet (pente de chaque ligne), elle est relativement petite par rapport à la variabilité entre les sujets (la hauteur de chaque ligne).

Le modèle analyse ces deux ensembles de variabilité et chacun est significatif. Vous pouvez utiliser les effets aléatoires pour prédire les hauteurs de lignes et vous pouvez utiliser les effets fixes de x pour prédire les pentes. Vous pouvez même utiliser les deux combinés pour travailler nos valeurs y individuelles. Mais ce que vous ne pouvez pas faire, c'est vraiment dire quelque chose de significatif par rapport à votre modèle lorsque vous combinez la variabilité des pentes et des hauteurs de lignes. Vous devez parler séparément de la variabilité de vos pentes et des hauteurs de lignes. C'est une caractéristique du modèle, pas un passif.

Vous aurez une variabilité de l'effet de x qui est relativement facile à estimer. Vous pourriez dire quelque chose sur un intervalle de confiance autour de cela. Mais notez que cet intervalle de confiance va avoir une petite relation avec la prédiction de toute valeur y particulière car la valeur y est influencée par une combinaison d'effet et de variance de sujet différente de la variabilité de l'effet seul.

Lorsque Bates écrit des choses comme vous l'avez cité, j'imagine qu'il pense souvent à des conceptions à plusieurs niveaux beaucoup plus complexes que cela n'approche même pas. Mais même si vous considérez simplement cet exemple simple, vous vous demandez quel type de sens réel peut être extrait de la combinaison de toutes les mesures de variance.

** J'ai ignoré l'effet fixe de l'interception pour des raisons de simplicité et je l'ai simplement traité comme un effet aléatoire. Vous pouvez extraire des conclusions similaires d'un modèle encore plus simple avec une interception aléatoire et fixe uniquement, mais je pense que ce serait plus difficile à transmettre. Dans ce cas, encore une fois, l'effet fixe et l'effet aléatoire sont analysés pour une raison et signifient des choses différentes et le fait de regrouper leur variabilité pour les valeurs prédites fait que cette variabilité n'a guère de sens par rapport au modèle.

John
la source

Donc, ce que je vous entends dire, c'est que cela revient à la même vieille scie de ne pas être sûr de savoir si nous voulons traiter la variance du sujet comme une erreur ou la partitionner séparément et prétendre qu'elle n'existe pas? Est-ce correct?

russellpierce

Je n'ai jamais entendu cette vieille scie. Je n'ai jamais entendu dire que vous devriez prétendre que la variance du sujet n'existe pas. Mais je suppose que c'est lié à cet exemple particulier. Le modèle analyse la variance. Cette fonctionnalité du processus de modélisation permet de comprendre le modèle. Si vous recombinez à nouveau la variance, vous battez en premier lieu l'objectif du modèle. Je ne dis pas ignorer la variance du sujet, juste que l'effet aléatoire du sujet est séparé. Vous voudrez peut-être lire Blouin et Riopelle (2005) et voir comment le sens des SE change lorsque vous combinez la variance.

John

Peut-être que je manque quelque chose, mais cela ressemble beaucoup aux allers-retours sur la meilleure taille d'effet à utiliser pour les sujets dans les sujets / mesures répétées ANOVA et comment ces intervalles de confiance sont mieux tracés ... mais je suppose qu'après lisez ce que vous m'avez indiqué, je ne manquerai plus quoi que ce soit qui me manque. :) Merci.

russellpierce

Comme je l'ai dit, ils sont liés. Je ne savais pas qu'il y avait des allers-retours, j'aimerais voir une référence. Le fait est que les deux CI et les effets dont vous parlez signifient des choses différentes. Donc, vous utilisez celui qui exprime ce que vous voulez dire. Et vous devez les faire paraître sensés. [Il est difficile de prétendre (même si certains l'ont fait) qu'il est judicieux de placer un IC incorporant la variance du sujet autour d'une moyenne dans un plan de mesures répétées et de l'utiliser pour dire quelque chose sur l'effet des mesures répétées.]

John

Je n'ai rien vu dans la littérature, juste beaucoup d'essorages informels et de tentatives pour deviner ce que le critique du jour va penser.

russellpierce

Pendant longtemps, je me suis interrogé sur la croyance apparemment commune qu'il existe une différence fondamentale dans les effets fixes et aléatoires pour les modèles d'effets mixtes (généralement non linéaires). Cette croyance est par exemple exprimée par Bates dans la réponse suivante

https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

Bates déclare clairement qu'il pense qu'il existe une différence fondamentale entre les effets fixes et les effets aléatoires, de sorte qu'ils ne peuvent pas être combinés. Je pense qu'il a tort et j'espère convaincre quelques lecteurs d'un point de vue alternatif. Je prends une approche fréquentiste donc ce que je veux faire est de définir une notion de probabilité de profil pour une fonction à la fois des effets fixes et aléatoires. Pour motiver la discussion, supposons que nous ayons un modèle à deux paramètres avec les paramètres x et u (rien sur les effets aléatoires jusqu'à présent). Soit la fonction de vraisemblance où nous supprimons toute référence aux données. Soit toute fonction (agréable) de x et u. La probabilité de profil $L(x,u)$ $g(x,u)$ pour la fonction est donnée par $P_g(t)$ $g$

P_{g} (t) = max_{X, u} {L (X, u) | g (X, u) = t} \ eqno (1)

$P_g(t)=\max_{x,u} \{L(x,u)\ |\ g(x,u)=t \} \eqno(1)$

Je pense que personne ne contesterait cela. Supposons maintenant que nous ayons une distribution de probabilité antérieure pour u. Je dirais alors que la vraisemblance du profil pour toujours logique, mais nous devrions modifier (1) en incluant l'a priori. $p(u)$ $g$

P_{g} (t) = max_{X, u} {L (X, u) p (u) | g (X, u) = t} \ eqno (2)

$P_g(t)=\max_{x,u} \{L(x,u)p(u)\ |\ g(x,u)=t \} \eqno(2)$

u

$u$

F (x)

$F(x)$

F (X) = \int L (X, u) p (u) ré u

$F(x) = \int L(x,u)p(u)du$

u

$u$

F (x)

$F(x)$

g (x, u)

$g(x,u)$

$g(x,u)$ $u$ $n$ $u=(u_1,u_2,...,u_{n-1},u_n)$ $g(x,u)$ $u_n$ $g(x,u)=u_n$ $u_1,u_2,...,u_{n-1}$

F (X, u_{n}) = \int L (X, u_{1}, . . ., u_{n}) p (u_{1}, . . ., u_{n})) ré u_{1} ré u_{2} . . . ré u_{n - 1} \ eqno (4)

$F(x,u_n) = \int L(x,u_1,...,u_n)p(u_1,...,u_n))du_1du_2...du_{n-1}\eqno(4)$

P_{g} (t) = max_{X, u_{n}} {F (X, u_{n}) | u_{n} = t} \ eqno (3)

$P_g(t)=\max_{x,u_n} \{F(x,u_n) | u_n=t \} \eqno(3)$

(3)

$(3)$

g (x, u)

$g(x,u)$

F (x, u_{n})

$F(x,u_n)$

(4)

$(4)$

F (X, s) = lim_{ϵ \to 0} \frac{1}{ϵ} \int_{{(X, u_{n}) | s - ϵ / 2 < g (X, u_{n}) < s + ϵ / 2}} L (X, u_{1}, . . ., u_{n}) p (u_{1}, . . ., u_{n})) ré u_{1} ré u_{2} . . . ré u_{n} \ eqno (5)

$F(x,s) = \lim_{\epsilon\rightarrow 0}{1\over\epsilon} \int_{\{(x,u_n) | s-\epsilon/2<g(x,u_n)<s+\epsilon/2\}} L(x,u_1,...,u_n)p(u_1,...,u_n))du_1du_2...du_n\eqno(5)$

g (x, u) = u_{n}

$g(x,u)=u_n$

(5)

$(5)$

F (X, s) = lim_{ϵ \to 0} \frac{1}{ϵ} \int_{{(X, u_{n}) | s - ϵ / 2 < u_{n} < s + ϵ / 2}} F (X, u_{n}) ré u_{n} \ eqno (6)

$F(x,s)=\lim_{\epsilon\rightarrow 0}{1\over\epsilon} \int_{\{(x,u_n) | s-\epsilon/2<u_n<s+\epsilon/2\}} F(x,u_n)du_n\eqno(6)$

$g(x,u)$ $F(x,s)$ $(5)$

P_{g} (s) = max_{X, u} {F (X, s) | g (X, u) = s} \ eqno (3)

$P_g(s)=\max_{x,u} \{F(x,s) | g(x,u)=s \} \eqno(3)$

$F(x,s)$ $\hat x(s),\hat u(s)$

\hat{X} (s), \hat{u} (s) = max_{X, u} {L (X, u) p (u) | g (X, u) = s}

$\hat x(s),\hat u(s)= \max_{x,u} \{L(x,u)p(u)\ |\ g(x,u)=s\}$

- L (x, u) p (u)

$-L(x,u)p(u)$

x

$x$

u

$u$

$g$ $m+n-1$ $n+m$ $m$ $n$ $n$ $du_1\wedge du_2\wedge\ldots\wedge du_n$ $\hat x(s),\hat u(s)$ $g_{x_n}(\hat x(s),\hat u(s))\ne 0$ $\hat x(s)=0$ $\hat u(s)=0$

(X_{1}, X_{2}, \dots, X_{m - 1}, u_{1}, u_{2}, \dots, u_{n}) \to (X_{1}, X_{2}, \dots, X_{m - 1}, \frac{- \sum_{je = 1}^{m - 1} g_{X_{je}} X_{je} - \sum_{je = 1}^{n} g_{u_{je}} u_{je}}{g_{X_{m}}}, u_{1}, u_{2}, \dots, u_{n})

$(x_1,x_2,\ldots,x_{m-1},u_1,u_2,\ldots,u_n) \rightarrow (x_1,x_2,\ldots,x_{m-1}, {-\sum_{i=1}^{m-1}g_{x_i}x_i-\sum_{i=1}^ng_{u_i}u_i\over g_{x_m}}, u_1,u_2,\ldots,u_n)$

g_{x_{i}}

$g_{x_i}$

g

$g$

x_{i}

$x_i$

m + n - 1

$m+n-1$

g

$g$

d u_{i}

$du_i$

T_{je, j} = H_{je + m, j + m} + \frac{g_{u_{je}} g_{u_{j}}}{{g_{X_{m}}}^{2}} H_{m, m} \ rm pour 1 <= je, j <= n

$T_{i,j} =H_{i+m,j+m}+{g_{u_i}g_{u_j}\over {g_{x_m}}^2}H_{m,m}\quad \hbox{\rm for} \ 1<=i,j<=n$

$T$

L (\hat{X} (s), \hat{u} (s)) | - T |^{\frac{1}{2}}

$L(\hat x(s),\hat u(s))|-T|^{1\over2}$

| \cdot |

$|\cdot|$

g

$g$

ϵ \to 0

$\epsilon\rightarrow 0$

ϵ / ‖ \nabla g (\hat{x} (s), \hat{u} (s)) ‖

$\epsilon/\|\nabla g(\hat x(s),\hat u(s))\|$

\nabla g (\hat{x} (s), \hat{u} (s)))

$\nabla g(\hat x(s),\hat u(s)))$

g

$g$

(g_{x_{1}}, g_{x_{2}}, \dots, g_{x_{m}}, g_{u_{1}}, g_{u_{2}}, \dots, g_{u_{n}})

$( g_{x_1}, g_{x_2}, \ldots, g_{x_m}, g_{u_1}, g_{u_2}, \ldots, g_{u_n})$

g

$g$

\frac{L (\hat{X} (s), \hat{u} (s)) | - T |^{\frac{1}{2}}}{‖ \nabla g (\hat{X} (s), \hat{u} (s)) ‖}

${L(\hat x(s),\hat u(s))|-T|^{1\over2}\over \|\nabla g(\hat x(s),\hat u(s))\|}$

dave fournier
la source