Est-il acceptable d'exécuter deux modèles linéaires sur le même ensemble de données?

Pour une régression linéaire avec plusieurs groupes (groupes naturels définis a priori), est-il acceptable d'exécuter deux modèles différents sur le même ensemble de données pour répondre aux deux questions suivantes?

Chaque groupe a-t-il une pente non nulle et une intersection non nulle et quels sont les paramètres pour chaque régression au sein du groupe?
Existe-t-il, indépendamment de l'appartenance à un groupe, une tendance non nulle et une interception non nulle et quels sont les paramètres pour cela à travers la régression des groupes?

Dans R, le premier modèle serait lm(y ~ group + x:group - 1), de sorte que les coefficients estimés pourraient être directement interprétés comme l'ordonnée à l'origine et la pente pour chaque groupe lm(y ~ x + 1).

L'alternative serait lm(y ~ x + group + x:group + 1), ce qui aboutirait à un tableau récapitulatif compliqué des coefficients, les pentes et les intersections au sein du groupe devant être calculées à partir des différences de pentes et des interceptions à partir d'une certaine référence. Vous devez également réorganiser les groupes et exécuter le modèle une deuxième fois de toute façon afin d'obtenir une valeur de p pour la dernière différence de groupe (parfois).

Cette utilisation de deux modèles distincts affecte-t-elle de quelque manière que ce soit l'inférence ou cette pratique standard?

Pour mettre cela en contexte, considérez x comme un dosage de médicament et les groupes comme des races différentes. Il peut être intéressant de connaître la relation dose-réponse pour une race particulière pour un médecin, ou pour quelle race le médicament fonctionne, mais il peut également être intéressant de connaître parfois la relation dose-réponse pour l'ensemble de la population (humaine). quelle que soit la race d'un responsable de la santé publique. Ceci est juste un exemple de la façon dont on pourrait être intéressé à la fois au sein du groupe et entre les régressions de groupe séparément. Il n'est pas important de savoir si une relation dose-réponse doit être linéaire.

r regression multiple-comparisons inference ancova Jdub
la source

Voulez-vous vraiment utiliser des régressions linéaires? Les relations dose-réponse ne sont presque jamais linéaires sur une gamme de doses substantielle.

Michael Lew

@Michael, désolé, c'était un mauvais choix d'exemple, je suppose. Je me pose des questions à ce sujet en général. Les détails des relations dose-réponse ne devraient pas gêner. J'ai édité la question pour le noter.

Jdub

Avez-vous envisagé un modèle d'interception aléatoire et de pente aléatoire?

supposé normal

Permettez-moi de commencer en disant que je pense que votre première question et votre premier modèle R sont incompatibles. Dans R, lorsque nous écrivons une formule avec l'un -1ou l' autre +0, nous supprimons l'ordonnée à l'origine. Ainsi, vous lm(y ~ group + x:group - 1) empêche de savoir si les interceptions diffèrent significativement de 0. Dans le même ordre d'idées, dans vos deux modèles suivants, +1c'est superflu, l'ordonnée à l'origine est automatiquement estimée en R. Je vous conseille d'utiliser le codage des cellules de référence ( également appelé «codage factice») pour représenter vos groupes. Autrement dit, avec les groupes , créez $g$ $g-1$ nouvelles variables, choisissez un groupe par défaut et attribuez des 0 aux unités de ce groupe dans chacune des nouvelles variables. Ensuite, chaque nouvelle variable est utilisée pour représenter l'appartenance à l'un des autres groupes; les unités qui appartiennent à un groupe donné sont indiquées par un 1 dans la variable correspondante et un 0 ailleurs. Lorsque vos coefficients sont renvoyés, si l'interception est «significative», votre groupe par défaut a une interception non nulle. Malheureusement, les tests de signification standard pour les autres groupes ne vous diront pas s'ils diffèrent de 0, mais plutôt s'ils diffèrent du groupe par défaut. Pour déterminer s'ils diffèrent de 0, ajoutez leurs coefficients à l'ordonnée à l'origine et divisez la somme par leurs erreurs standard pour obtenir leurs valeurs t. La situation avec les pistes sera similaire: c'est-à-dire le test de $X$ vous indiquera si la pente du groupe par défaut diffère considérablement de 0, et les termes d'interaction vous diront si les pentes de ces groupes diffèrent des groupes par défaut. Des tests pour les pentes des autres groupes contre 0 peuvent être construits comme pour les intersections. Encore mieux serait de simplement ajuster un modèle `` restreint '' sans aucune des variables d'indicateur de groupe ou les termes d'interaction, et de tester ce modèle par rapport au modèle complet avec anova(), qui vous dira si vos groupes diffèrent significativement.

Cela dit, votre principale question est de savoir si tout cela est acceptable . Le problème sous-jacent ici est le problème des comparaisons multiples . Il s'agit d'un problème épineux de longue date, avec de nombreuses opinions. (Vous trouverez plus d' informations à ce sujet sur CV en parcourant les question marqué avec ce mot - clé .) Bien que les opinions ont certainement varié sur ce sujet, je pense que personne ne vous la faute pour l' exécution de nombreuses analyses sur le même ensemble de données fourni les analyses sont orthogonales . Généralement, les contrastes orthogonaux sont pensés dans le contexte de la façon de comparer un ensemble de groupes uns aux autres $g$ cependant, ce n'est pas le cas ici; votre question est inhabituelle (et, je pense, intéressante). Pour autant que je puisse voir, si vous vouliez simplement partitionner votre ensemble de données en sous-ensembles séparés et exécuter un modèle de régression simple sur chacun, cela devrait être OK. La question la plus intéressante est de savoir si l'analyse «effondrée» peut être considérée comme orthogonale à l'ensemble des analyses individuelles; Je ne le pense pas, car vous devriez pouvoir recréer l'analyse réduite avec une combinaison linéaire des analyses de groupe. $g$

Une question légèrement différente est de savoir si cela est vraiment significatif. Imaginez que vous exécutez une analyse initiale et découvrez que les groupes diffèrent les uns des autres d'une manière substantiellement significative; Quel sens cela fait-il de rassembler ces groupes divergents en un tout décomposé? Par exemple, imaginez que les groupes diffèrent (d'une manière ou d'une autre) sur leurs interceptions, puis, au moins certains groupes n'ont pas d'interception 0. S'il n'y a qu'un seul de ces groupes, l'ordonnée à l'origine pour l'ensemble ne sera que de 0 si ce groupe a dans la population concernée. Alternativement, disons qu'il y a exactement 2 groupes avec des interceptions non nulles avec un positif et un négatif, alors le tout aura une interception de 0 uniquement si le $n_g=0$ $n$ Ces groupes sont inversement proportionnels aux amplitudes des divergences des intersections. Je pourrais continuer ici (il y a beaucoup plus de possibilités), mais le fait est que vous posez des questions sur la façon dont la taille des groupes est liée aux différences de valeurs des paramètres. Franchement, ce sont des questions étranges pour moi.

Je vous suggère de suivre le protocole que je décris ci-dessus. À savoir, coder factiquement vos groupes. Ajustez ensuite un modèle complet avec tous les variables muettes et les termes d'interaction inclus. Ajustez un modèle réduit sans ces termes et effectuez un test de modèle imbriqué. Si les groupes diffèrent d'une manière ou d'une autre, effectuez un suivi (espérons-le) avec des contrastes orthogonaux a priori (théoriquement déterminés) pour mieux comprendre en quoi les groupes diffèrent. (Et l'intrigue - toujours, toujours l' intrigue.)

gung - Réintégrer Monica
la source

Est-il acceptable d'exécuter deux modèles linéaires sur le même ensemble de données?

Réponses: