Est-il judicieux d’ajouter un terme quadratique mais pas le terme linéaire à un modèle?

57

J'ai un modèle (mixte) dans lequel l'un de mes prédicteurs ne devrait a priori être associé de manière quadratique au prédicteur (en raison de la manipulation expérimentale). Par conséquent, je voudrais ajouter uniquement le terme quadratique au modèle. Deux choses m'empêchent de le faire:

  1. Je pense avoir lu quelque part que vous devriez toujours inclure le polynôme d’ordre inférieur lors de l’ajustement de polynômes d’ordre supérieur. J'ai oublié où je l'ai trouvé et dans la littérature que j'ai consultée (par exemple, Faraway, 2002; Fox, 2002), je ne trouve pas de bonne explication.
  2. Lorsque j'ajoute les deux termes, linéaire et quadratique, les deux sont significatifs. Quand je n'en ajoute qu'un, ils ne sont pas significatifs. Cependant, une relation linéaire entre le prédicteur et les données n'est pas interprétable.

Le contexte de ma question est spécifiquement un modèle mixte utilisant lme4, mais je voudrais obtenir des réponses qui pourraient expliquer pourquoi ou pourquoi il n’est pas acceptable d’inclure un polynôme d’ordre supérieur et non le polynôme d’ordre inférieur.

Si nécessaire, je peux fournir les données.

Henrik
la source
5
Je pense que les réponses à cette question pourraient être utiles.
6
Oui, je suis d'accord avec Procrastinator, et les questions d'interaction sont essentiellement les mêmes. Nous avons quelques questions hautement votées sur le sujet. En plus de la suggestion de Pro, voir aussi Tous les termes d'interaction ont-ils besoin de leurs termes individuels dans un modèle de régression? et si l' interaction efface mes effets directs dans la régression? .
Andy W
Merci pour le rappel à ces questions. D'après les réponses données, il semble que la stratégie soit acceptable si vous avez de bonnes raisons a priori d'inclure uniquement le terme quadratique et de ne pas vous tromper. La question qui reste est celle de l'évolutivité (voir: stats.stackexchange.com/a/27726/442 ). Devrais-je centrer ma variable avant l'ajustement en utilisant uniquement le terme quadratique?
Henrik
1
@Henrik - ma réponse dans le lien que vous avez posté concernait le fait que l'inférence de modèle dépend de modifications arbitraires des valeurs de prédicteur (telles que le centrage moyen) - il n'est pas souhaitable d'avoir une conclusion de fond dépend de quelque chose d'aussi arbitraire, raison pour laquelle ma réponse à votre la question est «non», pour la même raison.
Macro
2
La question du quadratique vs linéaire est suffisamment distincte conceptuellement des interactions pour que je pense que cela ne devrait pas être considéré comme un doublon.
gung - Réintégrer Monica

Réponses:

66

1. Pourquoi inclure le terme linéaire?

Il est éclairant de noter qu’une relation quadratique peut s’écrire de deux manières:

y=a0+a1x+a2x2=a2(xb)2+c

(où, en égalisant les coefficients, nous trouvons et ). La valeur correspond à un extremum global de la relation (géométriquement, il localise le sommet d'une parabole).a 2 b 2 + c = a 0 x = b2a2b=a1a2b2+c=a0x=b

Si vous n'incluez pas le terme linéaire , les possibilités sont réduites àa1x

y=a0+a2x2=a2(x0)2+c

(où maintenant, évidemment, et il est supposé que le modèle contient un terme constant ). C'est-à-dire que vous forcez .a 0 b = 0c=a0a0b=0

À la lumière de cela, la question n ° 1 consiste à savoir si vous êtes certain que l’extremum global doit se produire à . Si tel est le cas, vous pouvez omettre en toute sécurité le terme linéaire . Sinon, vous devez l' inclure.a 1 xx=0a1x

2. Comment comprendre les changements de signification lorsque les termes sont inclus ou exclus?

Cette question est discutée en détail dans un fil de discussion lié à l' adresse https://stats.stackexchange.com/a/28493 .

Dans le cas présent, la signification de indique qu'il existe une courbure dans la relation et la signification de indique que est différent de zéro: il semble que vous deviez inclure les deux termes (ainsi que la constante, bien sûr).a 1 ba2a1b

whuber
la source
1
Merci beaucoup. Très bonne réponse. Donc, si je centre l'extremum théorique sur 0 (c'est en fait un minimum), je peux me permettre d'omettre le terme linéaire. Ceci conduit effectivement à un prédicteur quadratique hautement significatif (sans le linéaire).
Henrik
si les termes linéaires et quadratiques d'une variable sont corrélés, puis-je les inclure tous les deux dans un modèle, ou dois-je en exclure un (ce qui, je suppose, devrait être le quadratique)?
mtao
@Teresa Il n'y a pas de raison générale pour éliminer les termes corrélés dans une régression. (Si tel était le cas, la grande majorité des modèles de régression jamais créé serait en difficulté!) Très fortement termes corrélés qui , ensemble , contribuent seul rien de significatif à l'ajustement du modèle par rapport à l' autre terme peut être réduit à un sous - ensemble de ces termes.
whuber
@ Whuber, merci beaucoup! En outre, pour un modèle de régression logistique, j'ai utilisé un odds ratio pour estimer la taille de l'effet, mais uniquement avec des termes linéaires. Quand j'ai linéaire et quadratique, puis-je utiliser la même approche et interpréter les résultats de la même manière?
mtao
Pas assez. La raison en est que vous ne pouvez pas modifier séparément les termes linéaire et quadratique. Vous devez tenir compte de l'évolution de la réponse lorsque vous modifiez un peu la variable d'origine.
whuber
22

@whuber a donné une excellente réponse ici. Je veux juste ajouter un petit point complémentaire. La question indique qu '"une relation linéaire entre prédicteur et données n'est pas interprétable". Cela suggère un malentendu courant, même si je l’entends généralement à l’autre bout («quelle est l’interprétation du terme carré [cubique, etc.]?»).

Lorsque nous avons un modèle avec plusieurs covariables différentes , chaque beta (terme) peut généralement avoir sa propre interprétation. Par exemple, si:

GPA^college=β0+β1GPAhighschool+β2class rank+β3SAT,

(GPA signifie moyenne générale; le
rang correspond au classement de la moyenne pondérée d'un étudiant par rapport à d'autres étudiants du même lycée; &
SAT signifie 'test d'aptitude à la scolarité ', test national standard pour les étudiants qui vont à l'université)

nous pouvons alors attribuer des interprétations distinctes à chaque bêta / terme. Par exemple, si la GPA d'un élève au secondaire était supérieure d'un point - toutes choses étant égales par ailleurs -, on s'attendrait à ce que sa GPA au collège soit de points plus élevé. β1

Il est toutefois important de noter qu’il n’est pas toujours possible d’interpréter un modèle de cette manière. Un cas évident est le cas où il existe une interaction entre certaines variables, car il ne serait pas possible que le terme individuel diffère et que tout le reste soit maintenu constant - le terme d’interaction changerait également. Ainsi, quand il y a interaction, nous n'interprétons pas les effets principaux mais seulement les effets simples , comme il est bien compris.

La situation avec les termes de pouvoir est directement analogue, mais malheureusement, elle ne semble pas être comprise largement. Considérez le modèle suivant: (Dans cette situation, est destiné à représenter une covariable prototypique continue.) Il n’est pas possible que change sans que change également, et vice versa. En termes simples, quand un modèle contient des termes polynômes, les différents termes basés sur la même covariable sous-jacente ne peuvent pas être interprétés séparément. Le terme ( , , etc.) n'a pas de signification indépendante. Le fait que

y^=β0+β1x+β2x2
xxx2x2xx17pLe terme polynomial -power est "significatif" dans un modèle indique qu'il existe "courbures" dans la fonction reliant et . Il est regrettable, mais inévitable, que lorsque la courbure existe, l'interprétation devienne plus compliquée et peut-être moins intuitive. Pour évaluer le changement de lorsque change, nous devrons utiliser le calcul. La dérivée du modèle ci-dessus est: qui correspond au taux de variation instantané de la valeur attendue de lorsque change, toutes choses égales par ailleurs. Ce n’est pas aussi net que l’interprétation du très haut modèle; surtout, le taux de changement instantané dep1xyy^x
dydx=β1+2β2x
yxy dépend du niveau de partir duquel le changement est évaluéx . De plus, le taux de variation de est un taux instantané; c'est-à-dire qu'il est lui-même en constante évolution tout au long de l'intervalle de à . C’est tout simplement la nature d’une relation curviligne. yxoldxnew
gung - Rétablir Monica
la source
1
Excellente réponse! Cela me rappelle quelques excellentes réponses de l'utilisateur chl sur l' interprétation des effets d'interaction . Il donne des références d'article dans cette réponse. Quelles sont les meilleures pratiques pour identifier les effets d'interaction? . Et donne un exemple merveilleux d’affichage graphique d’une interaction utilisant des coplots dans cette réponse. Une interaction est-elle possible entre deux variables continues? .
Andy W
1
Pour répondre à la question de Gung, je tiens simplement à dire que la modélisation statistique implique du bruit qui peut dissimuler des détails dans un modèle de régression polynomiale. Je pense que le problème de centrage soulevé par Bill Huber était un problème important car, dans une forme, il manque un terme linéaire et dans l’autre, il s’agit du terme quadratique. La force de la courbure dans le signal dicte la nécessité d'un terme supérieur au premier ordre, mais ne nous dit rien sur la nécessité d'un terme linéaire également.
Michael Chernick
7

La réponse de @wuber ci - dessus montre clairement que supprimer le terme linéaire est le modèle quadratique "habituel" revient à dire "je suis absolument certain que l'extremum est à ".x=0

Cependant, vous devez également vérifier si le logiciel que vous utilisez a un "gotcha". Certains logiciels peuvent automatiquement centrer les données lors de l'ajustement d'un polynôme et du test de ses coefficients, à moins que vous ne désactiviez le centrage polynomial. Autrement dit, cela peut correspondre à une équation qui ressemble à quelque chose comme où est la moyenne de vos s. Cela forcerait l'extremum à être . ˉ x x x = ˉ xY=b0+b2(xx¯)2x¯xx=x¯

Votre déclaration selon laquelle les termes linéaires et quadratiques sont significatifs lorsque les deux sont entrés nécessite des éclaircissements. Par exemple, SAS peut signaler un test de type I et / ou de type III pour cet exemple. Le type I teste le linéaire avant de placer le quadratique. Le type III teste le linéaire avec le quadratique dans le modèle.

Emil Friedman
la source
2
Ceci est un point raisonnable, mais le fait que les données aient été centrées avant de créer ne signifie pas que vous pouvez être "absolument certain que l'extremum est à ". Dire que maintenant équivaut à avoir dit "l'extremum est à " auparavant . Dans les deux cas, vous misez sur le caractère impartial de votre modèle sur votre capacité à spécifier la valeur x de l'extremum avec une précision infinie. La différence b / t des tests de types I et III est également une addition potentiellement intéressante, mais nb, ils ne différeraient que si et étaient corrélés, c'est-à-dire si le centrage ne s'était pas produit. x = 0 x = ˉ x x x 2x2x=0x=x¯xx2
gung - Rétablir Monica
Sur une note différente, vous pouvez faire référence aux contributions d'un utilisateur en indiquant son nom d'utilisateur, éventuellement avec le symbole "at". Par exemple, dans ce cas-ci, 'la réponse de @ whuber est exacte à la cible ...' (Un sentiment avec lequel je suis d'accord.)
gung - Réintégrer Monica
1
Merci, Emil, d’avoir contribué à ces rappels: ils méritent tous deux d’être pris en compte.
whuber
3

Brambor, Clark et Golder (2006) (accompagnés d’une annexe Internet ) expliquent très clairement comment comprendre les modèles d’interaction et éviter les pièges courants, y compris les raisons pour lesquelles vous devriez (presque) toujours inclure les termes de poids faible ( "termes constitutifs") dans les modèles d'interaction.

Les analystes doivent inclure tous les termes constitutifs lors de la spécification des modèles d'interaction multiplicative, sauf dans de très rares circonstances. Par termes constitutifs, nous entendons chacun des éléments qui constituent le terme d'interaction. [..]

X2XZJXX2XZJXZXJZJXZJ

Dans le cas contraire, un modèle sous-spécifié peut conduire à des estimations biaisées. Cela peut conduire à des erreurs inférentielles.

ZXZXZβ0β1β3

Landroni
la source