Lors d'une conférence, j'ai entendu la déclaration suivante:
100 mesures pour 5 sujets fournissent beaucoup moins d'informations que 5 mesures pour 100 sujets.
C'est un peu évident que c'est vrai, mais je me demandais comment on pouvait le prouver mathématiquement ... Je pense qu'un modèle mixte linéaire pourrait être utilisé. Cependant, je ne connais pas grand-chose aux mathématiques utilisées pour les estimer (je lance juste lmer4
pour les LMM et bmrs
pour les GLMM :) Pourriez-vous me montrer un exemple où cela est vrai? Je préférerais une réponse avec quelques formules, plutôt qu'un simple code en R. N'hésitez pas à supposer un paramètre simple, comme par exemple un modèle mixte linéaire avec des interceptions et des pentes aléatoires normalement distribuées.
PS une réponse mathématique qui n'implique pas de LMM serait également acceptable. J'ai pensé aux LMM parce qu'ils me semblaient l'outil naturel pour expliquer pourquoi moins de mesures de plus de sujets sont meilleures que plus de mesures de peu de sujets, mais je peux très bien me tromper.
Réponses:
La réponse courte est que votre conjecture est vraie quand et seulement quand il y a une corrélation intra-classe positive dans les données . Sur le plan empirique, la plupart des ensembles de données en cluster présentent la plupart du temps une corrélation intra-classe positive, ce qui signifie qu'en pratique, votre conjecture est généralement vraie. Mais si la corrélation intra-classe est 0, alors les deux cas que vous avez mentionnés sont tout aussi instructifs. Et si la corrélation intra-classe est négative , il est en fait moins instructif de prendre moins de mesures sur plus de sujets; nous préférerions en fait (en ce qui concerne la réduction de la variance de l'estimation des paramètres) prendre toutes nos mesures sur un même sujet.
Statistiquement, il y a deux perspectives à partir desquelles nous pouvons penser à cela: un effets aléatoires (ou mixtes ) modèle , que vous mentionnez dans votre question, ou un modèle marginal , qui finit par être un peu plus d' information ici.
Modèle à effets aléatoires (mixtes)
Supposons que nous ayons un ensemble de sujets sur lesquels nous avons pris m mesures chacun. Alors un simple modèle à effets aléatoires de la j ème mesure du i ème sujet pourrait être y i j = β + u i + e i j , où β est l'ordonnée à l'origine fixe, u i est l'effet du sujet aléatoire (avec variance σ 2 u ), e i j est le terme d'erreur au niveau de l'observation (avec variance σ 2 en m j je
Dans ce modèle, représente la moyenne de la population, et avec un ensemble de données équilibré (c'est-à-dire un nombre égal de mesures de chaque sujet), notre meilleure estimation est simplement la moyenne de l'échantillon. Donc, si nous prenons "plus d'informations" pour signifier une variance plus petite pour cette estimation, alors fondamentalement, nous voulons savoir comment la variance de la moyenne de l'échantillon dépend de n et m . Avec un peu d'algèbre, nous pouvons déterminer que var ( 1β n m
En examinant cette expression, nous pouvons voir quechaque fois qu'il y a une variance de sujet(c'est-à-dire,σ2u>0), l'augmentation du nombre de sujets (n) réduira ces deux termes, tout en augmentant le nombre de mesures par sujet (m) ne fera que réduire le deuxième terme. (Pour une implication pratique de ceci pour la conception de projets de réplication multisite, voir
Vous vouliez maintenant savoir ce qui se passe lorsque nous augmentons ou diminuons ou n tout en maintenant constant le nombre total d'observations. Donc, pour cela, nous considérons n m comme une constante, de sorte que toute l'expression de la variance ressemble à σ 2 um n nm
qui est aussi petite que possible lorsquenest aussi grande que possible (jusqu'à un maximum den=nm, auquel casm=1, ce qui signifie que nous prenons une seule mesure de chaque sujet).
Modèle marginal
Donc enfin, en considérant une fois de plus le nombre total d'observationsn m
la source