Je mène une étude clinique où je détermine une mesure anthropométrique des patients. Je sais comment gérer la situation où j'ai une mesure par patient: je fais un modèle, où j'ai un échantillon aléatoire d'une certaine densité , et je fais le truc habituel: écrire la probabilité de l'échantillon, estimer les paramètres, déterminer les ensembles de confiance et tester l'hypothèse, ou même faire une analyse bayésienne si le patron ne regarde pas. ;-)f θ
Mon problème est que pour certains patients, nous avons plus d'une mesure, car nous pensons que c'est une bonne idée d'avoir plus d'un chercheur manipulant l'appareil de mesure, lorsque cela est possible (parfois, nous n'avons qu'un seul chercheur travaillant à la clinique ). Par conséquent, pour certains patients, nous avons une mesure prise par un chercheur, pour d'autres unités d'échantillonnage, nous avons deux mesures prises par deux chercheurs différents, et ainsi de suite. La mesure en question est l'épaisseur d'un pli cutané spécifique.
Ma question: quel type de modèle statistique convient à mon problème?
Réponses:
Jetez un coup d'œil à l'article de Brennan (1992) sur la théorie de la généralisation ou à son livre, également intitulé "Théorie de la généralisation" (2010, Springer). Brennan écrit sur GT en utilisant l'ANOVA, mais les modèles mixtes pourraient être utilisés de la même manière - et beaucoup les considéreraient comme une méthode plus récente.
Vous pourriez penser à un modèle mixte pour les données de classification croisée (par exemple Raudenbush, 1993 ). Disons que vous avez patients mesurés par chercheurs et votre mesure est notée pour et . Dans ce cas, la mesure a à la fois des effets sur les patients et les chercheurs, les patients étant "imbriqués" dans les chercheurs (plusieurs mesures pour un seul patient) et les chercheurs "imbriqués" dans les patients (plusieurs mesures pour chaque patient), doncR X i j i = 1 , . . . , N j = 1 , . . . , RN R Xje j i = 1 , . . . , N j = 1 , . . . , R
où est une interception fixe (si les données ne sont pas centrées), est un effet aléatoire du patient (interception aléatoire) et est un effet aléatoire du chercheur, tandis que est un terme d'erreur. Dans lme4, ce seraitb i b j ε i jβ0 bje bj εje j
x ~ (1|patient) + (1|researcher)
vous pouvez étendre cette approche à l'utilisation de comme variable indépendante ou définir un modèle bayésien hiérarchique dans lequel vous incluez les deux sources de variabilité.X
la source
Je vais essayer de le faire même si je ne peux fournir qu'un modèle mathématique, car je suis un peu un nerd mathématique, mais pas un statisticien.
Les filtres de Kalman peuvent gérer l'estimation d'état avec des entrées multiples et des informations manquantes.
Si je devais montrer cela aux ingénieurs, ils me demanderaient de faire des graphiques de variabilité des mesures entre les techniciens de mesure pour montrer qu'il n'y a pas de variabilité d'un opérateur à l'autre. Ils traiteraient deux mesures comme appariées. Les statistiques sont bonnes à cela. Si la variabilité d'un opérateur à l'autre était négligeable, je pourrais formuler mes données avec chacune en une seule ligne.
si un seul technicien effectuait la mesure, il n'y aurait qu'une seule ligne de données
sinon, je voudrais avoir une indication de l'opérateur dans les données
Si vous pouvez caractériser la différence de chaque opérateur sur la même mesure, vous pouvez en tenir compte dans votre modèle. Si vous ne fournissez pas d'indicateur d'opérateur, alors qu'il s'agit d'une source importante de variabilité ... cela pourrait être un problème.
Le modèle de données informe le modèle mathématique. Je pense que les GLM ont eu de bons résultats dans ces domaines. http://www.uta.edu/faculty/sawasthi/Statistics/stglm.html
la source
Je viens également à cette question d'un domaine différent. Quoi qu'il en soit, il me semble que le but d'avoir plusieurs personnes utilisant l'appareil de mesure est de pouvoir tenir compte des erreurs de mesure? Si je comprends bien ce que vous essayez de faire, cela ressemble à un cas de modélisation d'équation structurelle (SEM), qui vous permettrait d'exécuter votre modèle sans erreur de mesure. SEM peut tenir compte des données manquantes si vous utilisez des techniques d'estimation FIML, vous devez faire les hypothèses habituelles sur les données manquantes (c'est-à-dire au moins manquer au hasard). Les modèles SEM ont été de plus en plus utilisés dans les paramètres RCT, donc je ne pense pas qu'il serait rare d'utiliser cette technique. La question que je me pose est la suivante: avez-vous suffisamment d'informations pour créer un modèle SEM correctement identifiable?
la source