Comparaison de deux modèles de régression linéaire

12

Je voudrais comparer deux modèles de régression linéaire qui représentent les taux de dégradation d'un ARNm dans le temps dans deux conditions différentes. Les données de chaque modèle ont été collectées indépendamment.

Voici l'ensemble de données.

Journal de temps (heures) (traitement A) journal (traitement B)
0 2,02 1,97
0 2,04 2,06
0 1,93 1,96
2 2,02 1,91
2 2,00 1,95
2 2,07 1,82
4 1,96 1,97
4 2,02 1,99
4 2,02 1,99
6 1,94 1,90
6 1,94 1,97
6 1,86 1,88
8 1,93 1,97
8 2,12 1,99
8 2,06 1,93
12 1,71 1,70
12 1,96 1,73
12 1,71 1,76
24 1,70 1,46
24 1,83 1,41
24 1,62 1,42

Ce sont mes modèles:

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))
Appel:
lm (formule = Exp1 $ Time ~ Exp1 $ (Traitement A))

Résidus:
    Min 1Q Médian 3Q Max 
-6.8950 -1.2322 0.2862 1.2494 5.2494 

Coefficients:
                   Estimer Std. Erreur t valeur Pr (> | t |)    
(Interception) 74,68 6,27 11,91 2,94e-10 ***
Exp1 $ (Traitement A) -36,14 3,38 -10,69 1,77e-09 ***
---
Signif. codes: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1

Erreur standard résiduelle: 2,97 sur 19 degrés de liberté
Multiple R-carré: 0,8575, R-carré ajusté: 0,85 
Statistique F: 114,3 sur 1 et 19 DF, valeur p: 1,772e-09

Appel:
lm (formule = Exp1 $ Time ~ Exp1 $ (Traitement B))

Résidus:
   Min 1Q Médian 3Q Max 
-7,861 -3,278 -1,444 3,222 11,972 

Coefficients:
                      Estimer Std. Erreur t valeur Pr (> | t |)    
(Interception) 88,281 16,114 5,478 2,76e-05 ***
Exp1 $ (Traitement B) -41.668 8.343 -4.994 8.05e-05 ***
---
Signif. codes: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1

Erreur standard résiduelle: 5.173 sur 19 degrés de liberté
Multiple R-carré: 0,5676, R-carré ajusté: 0,5449 
Statistique F: 24,94 sur 1 et 19 DF, valeur p: 8,052e-05

Pour comparer ces deux modèles, j'ai utilisé ce code suivant.

anova(Exp1.A.lm,Exp1.B.lm)
Tableau d'analyse de la variance

Modèle 1: Exp1 $ Time ~ Exp1 $ Exp1 $ (Traitement A)
Modèle 2: Exp1 $ Time ~ Exp1 $ Exp1 $ (Traitement B)
  Res.Df RSS Df Somme de Sq F Pr (> F)
1 19 167,60                      
2 19 508,48 0 -340,88

Ma question est pourquoi l'analyse ANOVA ne montre pas de statistiques F et de p.val. Mes excuses si c'est une question naïve.

Sur la base de différentes pentes, le taux de dégradation est différent dans ces deux modèles, mais j'aimerais savoir à quel point cette différence est statistiquement significative. J'espère que cela a du sens.

Rooz
la source
2
Vous pouvez remarquer que le tableau ANOVA répertorie les degrés de liberté associés à l'analyse à 0 ; vous avez le même nombre de variables dans les deux modèles, c'est la raison pour laquelle aucune valeur F ou p ne peut être calculée.
gung - Rétablir Monica
5
Je ne prendrais pas la peine de comparer ces modèles avant d'avoir vérifié leur qualité d'ajustement. Je pense que vous trouverez dans la seconde que ni la réponse ni son logarithme ne sont des fonctions linéaires du temps. Cela remet (sérieusement) en question toute comparaison des estimations de pente.
whuber

Réponses:

11

Si vous configurez les données dans une longue colonne avec A et B comme nouvelle colonne, vous pouvez alors exécuter votre modèle de régression en tant que GLM avec une variable de temps continue et une variable "d'expérience" nominale (A, B). La sortie de l'ANOVA vous donnera la signification de la différence entre les paramètres. "intercepter" est l'ordonnée à l'origine commune et le facteur "expérience" reflétera les différences entre les interceptions (en fait les moyennes globales) entre les expériences. le facteur "temps" sera la pente commune, et l'interaction est la différence entre les expériences en ce qui concerne à la pente.

Je dois admettre que je triche (?) Et exécute les modèles séparément d'abord pour obtenir les deux ensembles de paramètres et leurs erreurs, puis exécute le modèle combiné pour acquérir les différences entre les traitements (dans votre cas A et B) ...

user24187
la source
3
Il s'agit d'une approche intelligente. Lorsque vous "trichez", vérifiez-vous que les variances d'erreur sont approximativement les mêmes dans chaque modèle? Et s'ils semblent sensiblement différents, comment cela affecte-t-il vos recommandations?
whuber
Le GLM est une bonne approche, et pour explorer les données, l'ajustement de modèles séparés est un bon moyen de juger la variance d'erreur entre les expériences. Si l'on était vraiment préoccupé, ils pourraient étendre le modèle GLM pour inclure les variances d'erreur spécifiques au groupe plutôt que l'hypothèse implicite d'une variance d'erreur commune pour toutes les données expérimentales.
prince_of_pears
Une autre chose qui me vient à l'esprit est de savoir si OP souhaite échanger si les taux de dégradation entre les expériences sont simplement différents les uns des autres (en ignorant le taux absolu), ou si ces taux sont également statistiquement (ou pratiquement) différents de zéro. Le premier revient à tester l'hypothèse que le coefficient d'interaction entre traitement et temps est égal à zéro. La seconde consiste à effectuer soit deux tests distincts (ou un test d'hypothèse conjointe) que chaque taux est différent de zéro. Je serais peut-être plus intéressé à tester le second avant le premier.
prince_of_pears
5

L'analyse ANOVA ne montre pas de statistiques F et une valeur p puisque les deux modèles ont les mêmes degrés de liberté résiduels (soit 19) et si vous prenez la différence, ce serait zéro! Il doit y avoir au moins un degré de liberté après avoir pris la différence pour effectuer le test F.

Stat
la source
Je ne sais pas si je comprends votre réponse. Y a-t-il une raison pour que les degrés de liberté résiduels soient égaux? Une suggestion sur une approche alternative pour comparer les pistes?
Rooz
Oui il y a. Dans vos deux modèles, vous avez 21 observations, c'est-à-dire . Dans la régression linéaire avec une variable aléatoire explicative (c.-à-d. Soit Exp1 (Traitement B)), le degré de liberté pour les régresseurs est un. Le degré de liberté total est . Notez que . Donc dans les deux modèles, vous ne pouvez donc pas utiliser le test F ici. n=21(TreatmentA)orExp1dfT=n1=20dfT=dferror+dfregressorsdferror=19
Stat
Il existe de nombreuses façons de les comparer autres que le test F. Le plus simple est d'utiliser le R au carré multiple et le R ajusté au carré comme vous l'avez fait dans les résumés. Le modèle avec un R au carré plus élevé ou un R ajusté au carré est meilleur. Ici, le meilleur modèle semble être celui avec Exp1 $ (Traitement A). Mais rappelez-vous que vous devez vérifier les résidus de votre modèle pour vérifier l'adéquation du modèle ajusté. Personnellement, je ne recommande pas de s'appuyer uniquement sur des critères R au carré et vous devriez également vérifier d'autres hypothèses dans le modèle linéaire. Voir en particulier si les résidus sont autocorrélés ou non.
Stat