J'ai deux régressions du même Y et du X à trois niveaux. Globalement n = 15, avec n = 5 dans chaque groupe ou niveau de X. La première régression traite le X comme catégorique, attribuant des variables indicatrices aux niveaux 2 et 3 avec le niveau l'un étant la référence. Les indicateurs / mannequins sont comme ceci: X1 = 1 si niveau = 2, 0 si autre X2 = 1 si niveau = 3, 0 si autre
En conséquence, mon modèle ajusté ressemble à ceci: y = b0 + b1 (x1) + b2 (x2)
J'exécute la régression, et la sortie comprend cette table d'analyse de la variance:
Le reste de la sortie n'est pas pertinent ici.
Bon alors maintenant je lance une régression différente sur les mêmes données. Je laisse tomber l'analyse catégorique et traite X comme continu, mais j'ajoute une variable à l'équation: X ^ 2, le carré de X. Alors maintenant j'ai le modèle suivant: y = b0 + b1 (X) + b2 (X) ^ 2
Si je l'exécute, il crache le même tableau d'analyse de variance que je vous ai montré ci-dessus. Pourquoi ces deux régressions donnent-elles naissance aux mêmes tableaux?
[Le mérite de cette petite énigme revient à Thomas Belin du Département de biostatistique de l'Université de Californie à Los Angeles.]
la source
Réponses:
En termes matriciels, vos modèles sont sous la forme habituelle .E[ Oui] = Xβ
Le premier modèle représente un élément du premier groupe par la ligne en X , correspondant à l'ordonnée à l'origine, l'indicateur pour la catégorie 2 et l'indicateur pour la catégorie 3. Il représente un élément du deuxième groupe par la ligne ( 1 , 1 , 0 ) et un élément du troisième groupe par ( 1 , 0 , 1 ) .( 1 , 0 , 0 ) X ( 1 , 1 , 0 ) ( 1 , 0 , 1 )
Le deuxième modèle utilise à la place des lignes , ( 1 , 2 , 2 2 ) = ( 1 , 2 , 4 ) et ( 1 , 3 , 3 2 ) = ( 1 , 3 , 9 ) , respectivement.( 1 , 1 , 12) = ( 1 , 1 , 1 ) ( 1 , 2 , 22)=(1,2,4) (1,3,32)=(1,3,9)
Appelons les matrices de modèles résultantes et X 2 . Ils sont simplement liés: les colonnes de l'une sont des combinaisons linéaires des colonnes de l'autre. Par exemple, laissezX1 X2
Depuis
il s'ensuit que
Les modèles eux-mêmes sont donc liés par
La même relation vaut donc pour leurs estimations des moindres carrés. Cela montre que les modèles ont des ajustements identiques : ils les expriment simplement différemment.
Étant donné que les premières colonnes des deux matrices de modèle sont identiques, toute table ANOVA qui décompose la variance entre la première colonne et les colonnes restantes ne changera pas. Une table ANOVA qui fait la distinction entre les deuxième et troisième colonnes dépendra cependant de la façon dont les données sont codées.
Pour illustrer, voici des données comme les vôtres (mais avec des réponses différentes) et les analyses correspondantes générées dans
R
.Montez les deux modèles:
Affichez leurs tableaux ANOVA:
La sortie du premier modèle est
Pour le deuxième modèle, il est
Vous pouvez voir que les sommes résiduelles des carrés sont les mêmes. En ajoutant les deux premières lignes du deuxième modèle, vous obtiendrez le même DF et la même somme de carrés, à partir desquels les mêmes carrés, valeurs F et valeurs p peuvent être calculés.
Enfin, comparons les estimations des coefficients.
La sortie est
Les ajustements sont vraiment les mêmes que ceux revendiqués.
la source
En bref, les deux modèles sont saturés en ce sens qu'ils fournissent des prédictions empiriques uniques de la réponse aux trois niveaux de X. Cela peut être évident pour le codage des variables factorielles dans le modèle 1. Pour une tendance quadratique, il est intéressant de noter qu'un la formule quadratique peut interpoler 3 points quelconques. Bien que les contrastes soient différents, dans les deux modèles, le test global contre le zéro d'un modèle d'interception seule fournit une inférence identique.
la source