Montrant que 100 mesures pour 5 sujets fournissent beaucoup moins d'informations que 5 mesures pour 100 sujets

21

Lors d'une conférence, j'ai entendu la déclaration suivante:

100 mesures pour 5 sujets fournissent beaucoup moins d'informations que 5 mesures pour 100 sujets.

C'est un peu évident que c'est vrai, mais je me demandais comment on pouvait le prouver mathématiquement ... Je pense qu'un modèle mixte linéaire pourrait être utilisé. Cependant, je ne connais pas grand-chose aux mathématiques utilisées pour les estimer (je lance juste lmer4pour les LMM et bmrspour les GLMM :) Pourriez-vous me montrer un exemple où cela est vrai? Je préférerais une réponse avec quelques formules, plutôt qu'un simple code en R. N'hésitez pas à supposer un paramètre simple, comme par exemple un modèle mixte linéaire avec des interceptions et des pentes aléatoires normalement distribuées.

PS une réponse mathématique qui n'implique pas de LMM serait également acceptable. J'ai pensé aux LMM parce qu'ils me semblaient l'outil naturel pour expliquer pourquoi moins de mesures de plus de sujets sont meilleures que plus de mesures de peu de sujets, mais je peux très bien me tromper.

DeltaIV
la source
3
+1. Je suppose que le cadre le plus simple serait d'envisager une tâche d'estimation de la moyenne de la population où chaque sujet a sa propre moyenne a N ( μ , σ 2 a ) et chaque mesure de ce sujet est distribuée comme x N ( a , σ 2 ) . Si nous prenons n mesures de chacun des m sujets, alors quelle est la meilleure façon de définir n et m étant donné le produit constant n m = NμaN(μ,σa2)xN(a,σ2)nmnmnm=N .
amibe, dit Reinstate Monica
"Optimal" dans le sens de minimiser la variance de la moyenne de l'échantillon des points de données acquis. N
Amoeba dit Reinstate Monica
1
Oui. Mais pour votre question, nous n'avons pas besoin de nous soucier de la façon d'estimer les écarts; votre question (c.-à-d. la citation dans votre question) concerne, je crois, uniquement l'estimation de la moyenne globale et il semble évident que le meilleur estimateur est donné par la grande moyenne ˉ x de tous les N = n m points de l'échantillon. La question est alors: étant donné μ , σ 2 , σ 2 a , n et m , quelle est la variance de ˉ x ? Si nous le savons, nous pourrons le minimiser par rapport à la nμX¯N=nmμσ2σune2nmX¯n étant donné le Contrainte N. nm=N
amibe dit Réintégrer Monica
1
Je ne sais pas comment dériver tout cela, mais je conviens que cela semble évident: pour estimer la variance d'erreur, il serait préférable d'avoir toutes les mesures d'un seul sujet; et pour estimer la variance des sujets, il serait (probablement?) préférable d'avoir N sujets différents avec 1 mesure chacun. Cependant, la moyenne n'est pas aussi claire, mais mon intuition me dit qu'avoir N sujets avec 1 mesure chacun serait mieux aussi. Je me demande si c'est vrai ...NNN
amibe dit Reinstate Monica
2
Peut-être quelque chose comme ça: La variance des moyennes d'échantillon par sujet devrait être , où le premier terme est la variance du sujet et le second est la variance de l'estimation de la moyenne de chaque sujet. La variance de la moyenne des sur-sujets (c.-à-d. La moyenne générale) sera ( σ 2 a + σ 2 / n ) / m = σ 2 a / m + σ 2 / ( n m ) = σ 2 a / mσune2+σ2/n qui est minimisé lorsque m = N .
(σune2+σ2/n)/m=σune2/m+σ2/(nm)=σune2/m+σ2/N=σune2/m+const,
m=N
amibe dit Réintégrer Monica

Réponses:

25

La réponse courte est que votre conjecture est vraie quand et seulement quand il y a une corrélation intra-classe positive dans les données . Sur le plan empirique, la plupart des ensembles de données en cluster présentent la plupart du temps une corrélation intra-classe positive, ce qui signifie qu'en pratique, votre conjecture est généralement vraie. Mais si la corrélation intra-classe est 0, alors les deux cas que vous avez mentionnés sont tout aussi instructifs. Et si la corrélation intra-classe est négative , il est en fait moins instructif de prendre moins de mesures sur plus de sujets; nous préférerions en fait (en ce qui concerne la réduction de la variance de l'estimation des paramètres) prendre toutes nos mesures sur un même sujet.

Statistiquement, il y a deux perspectives à partir desquelles nous pouvons penser à cela: un effets aléatoires (ou mixtes ) modèle , que vous mentionnez dans votre question, ou un modèle marginal , qui finit par être un peu plus d' information ici.

Modèle à effets aléatoires (mixtes)

Supposons que nous ayons un ensemble de sujets sur lesquels nous avons pris m mesures chacun. Alors un simple modèle à effets aléatoires de la j ème mesure du i ème sujet pourrait être y i j = β + u i + e i j ,β est l'ordonnée à l'origine fixe, u i est l'effet du sujet aléatoire (avec variance σ 2 u ), e i j est le terme d'erreur au niveau de l'observation (avec variance σ 2 enmjje

yjej=β+uje+ejej,
βujeσu2ejejσe2), et les deux derniers termes aléatoires sont indépendants.

Dans ce modèle, représente la moyenne de la population, et avec un ensemble de données équilibré (c'est-à-dire un nombre égal de mesures de chaque sujet), notre meilleure estimation est simplement la moyenne de l'échantillon. Donc, si nous prenons "plus d'informations" pour signifier une variance plus petite pour cette estimation, alors fondamentalement, nous voulons savoir comment la variance de la moyenne de l'échantillon dépend de n et m . Avec un peu d'algèbre, nous pouvons déterminer que var ( 1βnm En examinant cette expression, nous pouvons voir quechaque fois qu'il y a une variance de sujet(c'est-à-dire,σ2u>0), l'augmentation du nombre de sujets (n) réduira ces deux termes, tout en augmentant le nombre de mesures par sujet (m) ne fera que réduire le deuxième terme. (Pour une implication pratique de ceci pour la conception de projets de réplication multisite, voir

var(1nmijyij)=var(1nmijβ+ui+eij)=1n2m2var(ijui+ijeij)=1n2m2(m2jevar(uje)+jejvar(ejej))=1n2m2(nm2σu2+nmσe2)=σu2n+σe2nm.
σu2>0nm ce billet de blog que j'ai écrit il y a un moment .)

Vous vouliez maintenant savoir ce qui se passe lorsque nous augmentons ou diminuons ou n tout en maintenant constant le nombre total d'observations. Donc, pour cela, nous considérons n m comme une constante, de sorte que toute l'expression de la variance ressemble à σ 2 umnnm qui est aussi petite que possible lorsquenest aussi grande que possible (jusqu'à un maximum den=nm, auquel casm=1, ce qui signifie que nous prenons une seule mesure de chaque sujet).

σu2n+constant,
nn=nmm=1

ρ=σu2σu2+σe2
var(1nmijyij)=σu2n+σe2nm=(ρn+1ρnm)(σu2+σe2)

σu2ρ que le concept d'une corrélation intra-classe négative n'a pas de sens; cela signifie simplement que le modèle à effets aléatoires n'a aucun moyen d'exprimer ce concept, qui est un échec du modèle, pas du concept. Pour exprimer ce concept de manière adéquate, nous devons considérer le modèle marginal.

Modèle marginal

yij

yij=β+ejej,
ujeejejejej=uje+ejejujeejej i.idejejC
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
ρeρρ.)

var(1nmjejyjej)=var(1nmjejβ+ejej)=1n2m2var(jejejej)=1n2m2(n(mσ2+(m2-m)ρσ2))=σ2(1+(m-1)ρ)nm=(ρn+1-ρnm)σ2,
σe2+σu2=σ2ejej=uje+ejej

ρ-1/(m-1)m=2ρ=-1m=3ρ=-1/2

Donc enfin, en considérant une fois de plus le nombre total d'observations nm

(1+(m-1)ρ)×constante positive.
ρ>0mρ<0mnmρ=0mn
Jake Westfall
la source
3
ρ<0nmσuβ
3
mρ
1
σu2Σ
2
σu2+σe2/mje
1
mρm