Si dans une régression linéaire j'ai une variable catégorielle ... comment puis-je connaître la signification statique de la variable catégorielle?
Disons que le facteur a 10 niveaux ... il y aura 10 valeurs t résultantes différentes, sous l'égide d'une variable de facteur ...
Il me semble que la signification statistique est testée pour chaque niveau de la variable factorielle? Non?
@Macro: Suite à votre suggestion, j'ai construit l'exemple suivant:
Il semble que x3 soit utile et doit être inclus dans le modèle, à partir de la comparaison de modèles ci-dessous.
Mais en fait c'est faux ...
n=100
x1=1:n
x2=(1:n)^2
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)
lm2=lm(y~x1+x2)
summary(lm2)
anova(lm1, lm2)
> anova(lm1, lm2)
Analysis of Variance Table
Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
Res.Df RSS Df Sum of Sq F Pr(>F)
1 96 82.782
2 97 146.773 -1 -63.99 74.207 1.401e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
x3
pour générer ley
s, il devrait donc être inclus dans le modèle et la valeur est d'accord avec cette conclusion.Réponses:
Vous avez raison de dire que ces valeurs vous indiquent uniquement si la moyenne de chaque niveau est significativement différente de la moyenne du niveau de référence. Par conséquent, ils ne vous parlent que des différences par paire entre les niveaux. Tester si le prédicteur catégorique, dans son ensemble, est significatif équivaut à tester s'il existe une hétérogénéité dans les moyennes des niveaux du prédicteur. Lorsqu'il n'y a pas d'autres prédicteurs dans le modèle, c'est un classiquep ANOVA problème.
Lorsqu'il existe d'autres prédicteurs dans le modèle. vous avez deux options pour tester la signification d'un prédicteur catégorique:
(1) Le test de rapport de vraisemblance: Supposons que vous avez un résultat , les facteurs prédictifs quantitatifs X i 1 , . . . , X i p et le prédicteur catégorique C i avec k niveaux. Le modèle sans prédicteur catégorique estYi Xi1,...,Xip Ci k
DansL0
R
vous pouvez adapter ce modèle avec lalm()
commande et extraire la vraisemblance du journal avec lalogLik
commande. Appelons cette log-vraisemblance . Ensuite, vous pouvez ajuster le modèle avec le prédicteur catégorique:R
lm()
1-pchisq(2*(L1-L0),df=k-1)
R
R
R
lm()
g1
g0
anova(g1,g0)
la source