J'ai un modèle (mixte) dans lequel l'un de mes prédicteurs ne devrait a priori être associé de manière quadratique au prédicteur (en raison de la manipulation expérimentale). Par conséquent, je voudrais ajouter uniquement le terme quadratique au modèle. Deux choses m'empêchent de le faire:
- Je pense avoir lu quelque part que vous devriez toujours inclure le polynôme d’ordre inférieur lors de l’ajustement de polynômes d’ordre supérieur. J'ai oublié où je l'ai trouvé et dans la littérature que j'ai consultée (par exemple, Faraway, 2002; Fox, 2002), je ne trouve pas de bonne explication.
- Lorsque j'ajoute les deux termes, linéaire et quadratique, les deux sont significatifs. Quand je n'en ajoute qu'un, ils ne sont pas significatifs. Cependant, une relation linéaire entre le prédicteur et les données n'est pas interprétable.
Le contexte de ma question est spécifiquement un modèle mixte utilisant lme4
, mais je voudrais obtenir des réponses qui pourraient expliquer pourquoi ou pourquoi il n’est pas acceptable d’inclure un polynôme d’ordre supérieur et non le polynôme d’ordre inférieur.
Si nécessaire, je peux fournir les données.
regression
polynomial
Henrik
la source
la source
Réponses:
1. Pourquoi inclure le terme linéaire?
Il est éclairant de noter qu’une relation quadratique peut s’écrire de deux manières:
(où, en égalisant les coefficients, nous trouvons et ). La valeur correspond à un extremum global de la relation (géométriquement, il localise le sommet d'une parabole).a 2 b 2 + c = a 0 x = b−2a2b=a1 a2b2+c=a0 x=b
Si vous n'incluez pas le terme linéaire , les possibilités sont réduites àa1x
(où maintenant, évidemment, et il est supposé que le modèle contient un terme constant ). C'est-à-dire que vous forcez .a 0 b = 0c=a0 a0 b=0
À la lumière de cela, la question n ° 1 consiste à savoir si vous êtes certain que l’extremum global doit se produire à . Si tel est le cas, vous pouvez omettre en toute sécurité le terme linéaire . Sinon, vous devez l' inclure.a 1 xx=0 a1x
2. Comment comprendre les changements de signification lorsque les termes sont inclus ou exclus?
Cette question est discutée en détail dans un fil de discussion lié à l' adresse https://stats.stackexchange.com/a/28493 .
Dans le cas présent, la signification de indique qu'il existe une courbure dans la relation et la signification de indique que est différent de zéro: il semble que vous deviez inclure les deux termes (ainsi que la constante, bien sûr).a 1 ba2 a1 b
la source
@whuber a donné une excellente réponse ici. Je veux juste ajouter un petit point complémentaire. La question indique qu '"une relation linéaire entre prédicteur et données n'est pas interprétable". Cela suggère un malentendu courant, même si je l’entends généralement à l’autre bout («quelle est l’interprétation du terme carré [cubique, etc.]?»).
Lorsque nous avons un modèle avec plusieurs covariables différentes , chaque beta (terme) peut généralement avoir sa propre interprétation. Par exemple, si:
nous pouvons alors attribuer des interprétations distinctes à chaque bêta / terme. Par exemple, si la GPA d'un élève au secondaire était supérieure d'un point - toutes choses étant égales par ailleurs -, on s'attendrait à ce que sa GPA au collège soit de points plus élevé.β1
Il est toutefois important de noter qu’il n’est pas toujours possible d’interpréter un modèle de cette manière. Un cas évident est le cas où il existe une interaction entre certaines variables, car il ne serait pas possible que le terme individuel diffère et que tout le reste soit maintenu constant - le terme d’interaction changerait également. Ainsi, quand il y a interaction, nous n'interprétons pas les effets principaux mais seulement les effets simples , comme il est bien compris.
La situation avec les termes de pouvoir est directement analogue, mais malheureusement, elle ne semble pas être comprise largement. Considérez le modèle suivant: (Dans cette situation, est destiné à représenter une covariable prototypique continue.) Il n’est pas possible que change sans que change également, et vice versa. En termes simples, quand un modèle contient des termes polynômes, les différents termes basés sur la même covariable sous-jacente ne peuvent pas être interprétés séparément. Le terme ( , , etc.) n'a pas de signification indépendante. Le fait que
la source
La réponse de @wuber ci - dessus montre clairement que supprimer le terme linéaire est le modèle quadratique "habituel" revient à dire "je suis absolument certain que l'extremum est à ".x=0
Cependant, vous devez également vérifier si le logiciel que vous utilisez a un "gotcha". Certains logiciels peuvent automatiquement centrer les données lors de l'ajustement d'un polynôme et du test de ses coefficients, à moins que vous ne désactiviez le centrage polynomial. Autrement dit, cela peut correspondre à une équation qui ressemble à quelque chose comme où est la moyenne de vos s. Cela forcerait l'extremum à être . ˉ x x x = ˉ xY=b0+b2(x−x¯)2 x¯ x x=x¯
Votre déclaration selon laquelle les termes linéaires et quadratiques sont significatifs lorsque les deux sont entrés nécessite des éclaircissements. Par exemple, SAS peut signaler un test de type I et / ou de type III pour cet exemple. Le type I teste le linéaire avant de placer le quadratique. Le type III teste le linéaire avec le quadratique dans le modèle.
la source
Brambor, Clark et Golder (2006) (accompagnés d’une annexe Internet ) expliquent très clairement comment comprendre les modèles d’interaction et éviter les pièges courants, y compris les raisons pour lesquelles vous devriez (presque) toujours inclure les termes de poids faible ( "termes constitutifs") dans les modèles d'interaction.
Dans le cas contraire, un modèle sous-spécifié peut conduire à des estimations biaisées. Cela peut conduire à des erreurs inférentielles.
la source