Tous les termes d'interaction ont-ils besoin de leurs termes individuels dans un modèle de régression?

68

En fait, je suis en train de passer en revue un manuscrit où les auteurs comparent 5 à 6 modèles de régression logit et AIC. Cependant, certains modèles comportent des termes d'interaction sans inclure les termes de covariable individuels. Cela a-t-il un sens de faire cela?

Par exemple (non spécifique aux modèles logit):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

J'ai toujours eu l'impression que si vous avez le terme d'interaction X1 * X2, vous avez également besoin de X1 + X2. Par conséquent, les modèles 1 et 2 conviendraient, mais les modèles 3 à 5 seraient problématiques (même si la valeur AIC est inférieure). Est-ce correct? Est-ce une règle ou plus d'une ligne directrice? Quelqu'un at-il une bonne référence qui explique le raisonnement derrière cela? Je veux juste m'assurer que je ne communique rien d'important dans l'examen.

Merci pour vos pensées, Dan

djhocking
la source
8
+1, je pense que c'est une très bonne question. Vous voudrez peut-être aussi consulter cette question précédente qui couvre une bonne partie du même territoire. Les réponses sont vraiment excellentes.
gung - Réintégrer Monica
Beaucoup de bonnes réponses déjà. Rindskopf a rédigé un article sur certains cas où vous n’avez pas besoin des effets principaux. (Voir aussi celui-ci )
Peter Flom - Réintégrer Monica
3
Autant que je sache, dans R's lm (), :c'est pour les interactions, comme dans A: B. Et *est à la fois pour les effets principaux et les interactions, donc A * B = A + B + A: B. Donc, si (!) Les auteurs du document suivent cette notation, je ne pense pas qu’un des modèles manque les principaux effets?
Zhubarb
En outre, la même logique que dans les réponses actuelles s’applique aux interactions d’ordre supérieur (par exemple, vous avez besoin de toutes les interactions à 2 voies si vous incluez une 3 voies)
Peter Flom - Réintégrer Monica

Réponses:

38

La plupart du temps, c'est une mauvaise idée. La raison principale est que le modèle n'est plus invariant par rapport aux changements d'emplacement. Par exemple, supposons que vous ayez un seul résultat et deux prédicteurs et et spécifiez le modèle:yixizi

yi=β0+β1xizi+ε

Si vous deviez centrer les prédicteurs par leur moyen, devientxizi

(xix¯)(ziz¯)=xizixiz¯zix¯+x¯z¯

Ainsi, vous pouvez voir que les principaux effets ont été réintroduits dans le modèle.

J'ai donné un argument heuristique ici, mais cela pose un problème pratique. Comme indiqué dans Faraway (2005) à la page 114, un changement d'échelle supplémentaire modifie l'inférence du modèle lorsque les principaux effets sont omis du modèle, alors que cela ne se produit pas lorsque les termes d'ordre inférieur sont inclus. Il est généralement indésirable que des éléments arbitraires, comme un changement de localisation, modifient fondamentalement l'inférence statistique (et donc les conclusions de votre enquête), comme cela peut arriver lorsque vous incluez des termes polynomiaux ou des interactions dans un modèle sans les effets d'ordre inférieur.

Remarque: Dans certaines circonstances particulières, vous voudrez peut-être inclure uniquement l'interaction, si a une signification particulière ou si vous observez uniquement le produit et non les variables individuelles . Mais dans ce cas, on peut aussi bien penser au prédicteur et poursuivre avec le modèlex i , z i a i = x i z ixizixi,ziai=xizi

yi=α0+α1ai+εi

plutôt que de considérer comme un terme d'interaction.ai

Macro
la source
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the modelLe changement additif de prédicteurs modifie généralement t de leurs effets principaux (termes d'ordre inférieur) même dans un modèle complet. C'est l'ajustement global (R ^ 2) qui est préservé (mais n'est pas préservé en cas de modification additive dans un modèle avec certains effets principaux supprimés). Est-ce ce que tu voulais dire?
ttnphns
Oui, c'est vrai @ttnphns - merci de l'avoir signalé - j'ai un peu modifié ma réponse pour refléter cela.
Macro
28

Jusqu'à présent, toutes les réponses semblent manquer un élément fondamental: la forme fonctionnelle que vous choisissez doit être suffisamment souple pour saisir les caractéristiques scientifiquement pertinentes. Les modèles 2 à 5 imposent des coefficients nuls à certains termes sans justification scientifique. Et même si cela est scientifiquement justifié, le modèle 1 reste attrayant, car vous pourriez aussi bien tester les coefficients nuls que les imposer.

La clé est de comprendre ce que les restrictions signifient. L'avertissement typique d'éviter les modèles 3 à 5 est que, dans la plupart des applications, les hypothèses qu'ils imposent sont scientifiquement invraisemblables. Le modèle 3 suppose que X2 n'influence que la pente dY / dX1 mais pas le niveau. Le modèle 4 suppose que X1 n'influence que la pente dY / dX2 mais pas le niveau. Et le modèle 5 suppose que ni X1 ni X2 n’affectent le niveau, mais seulement dY / dX1 ou dY / dX2. Dans la plupart des applications, ces hypothèses ne semblent pas raisonnables. Le modèle 2 impose également un coefficient nul, mais présente toujours un intérêt. Il donne la meilleure approximation linéaire des données, ce qui, dans de nombreux cas, satisfait à l'objectif scientifique.

Tristan
la source
5
(+1) Tout cela est vrai, mais l'affiche originale semblait décrire une situation dans laquelle les auteurs essayaient de sélectionner des modèles, et certains de leurs modèles candidats n'incluaient pas les interactions - leur motivation a donc été guidée par l'AIC. plutôt que par quelque chose de substantiel (ce qui est toujours une chose dangereuse à faire, mais apparemment, ils l'ont fait). Lorsque vous êtes guidé par quelque chose de concret, la structure du modèle devrait en être dictée. Mais, lorsque vous êtes guidé par un critère statistique, laisser de côté les effets principaux peut avoir de mauvaises propriétés, comme je l’ai indiqué dans ma réponse.
Macro
16

+1 à @Macro. Permettez-moi de faire ressortir ce que je pense être un point similaire qui concerne les prédicteurs catégoriques. Beaucoup peut dépendre de la façon dont ils sont codés . Par exemple, le codage des cellules de référence (ou «factice») utilise 0 & 1, tandis que le codage des effets utilise -1, 0 & 1. Considérons un cas simple avec deux facteurs avec deux niveaux chacun, puisx1x2pourrait être [0, 0, 0, 1] ou [1, -1, -1, 1], en fonction du schéma de codage utilisé. Je pense qu'il est possible de créer une situation dans laquelle seule l'interaction est "significative" avec un schéma de codage, alors que tous les termes sont "significatifs" en utilisant l'autre schéma. Cela implique que des décisions interprétatives significatives seraient prises sur la base d'une décision de codage arbitraire que votre logiciel aurait peut-être faite pour vous à votre insu. Je reconnais qu'il s'agit d'un petit point, mais ce n'est qu'une raison de plus pour laquelle il n'est généralement pas judicieux de conserver uniquement l'interaction (et également de ne pas sélectionner un sous-ensemble de prédicteurs basés sur les valeurs p, bien entendu).

gung - Rétablir Monica
la source
1
Les tests de signification pour les effets principaux catégoriels ne sont pas moins invariants. Un groupe peut être significativement différent du groupe de référence sous codage de traitement, mais pas de l'effet "grande moyenne" sous codage de contraste.
Probistislogic
10

Puisque vous examinez un article, vous pourriez suggérer aux auteurs de discuter de la question de la hiérarchie des modèles et de justifier leur dérogation.

Voici quelques références:

  1. Nelder JA. Le choix des termes dans les modèles de surface de réponse: quelle est la force du principe d'hérédité faible? Le statisticien américain. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Consulté le 10 juin 2010.

  2. Peixoto JL. Sélection de variables hiérarchique dans les modèles de régression polynomiale. Le statisticien américain. 1987; 41: 311-3. http://www.jstor.org/pss/2684752 . Consulté le 10 juin 2010.

  3. Peixoto JL. Une propriété des modèles de régression polynomiale bien formulés. Le statisticien américain. 1990; 44: 26-30. http://www.jstor.org/pss/2684952 . Consulté le 10 juin 2010.

Je suis généralement la hiérarchie, mais je m'en éloigne dans certaines situations. Par exemple, si vous testez l'usure des pneus par rapport au kilométrage à plusieurs vitesses différentes, votre modèle pourrait ressembler à ceci:

profondeur de sculpture = intersection + kilométrage + kilométrage * vitesse

mais cela n'aurait aucun sens physique d'inclure un effet principal de la vitesse car le pneu ne sait pas quelle sera sa vitesse à zéro mille.

(D'autre part, vous pouvez toujours vouloir tester un effet de vitesse car cela pourrait indiquer que les effets de "rodage" diffèrent à des vitesses différentes. D'autre part, une méthode encore plus efficace pour gérer le rodage serait de: récupérez les données à zéro et à un kilométrage très faible, puis testez la non-linéarité. Notez que la suppression du terme d'interception peut être considérée comme un cas particulier de violation de la hiérarchie.)

Je vais également répéter ce que quelqu'un a dit ci-dessus, car c'est très important: les auteurs doivent s'assurer qu'ils savent si leur logiciel centre les données. Le modèle de pneu ci-dessus devient physiquement insensé si le logiciel remplace le kilométrage par (kilométrage - moyenne du kilométrage).

Le même genre de choses est pertinent dans les études de stabilité pharmaceutique (mentionné de manière tangente dans "Modèles de stabilité pour stockage séquentiel", Emil M. Friedman et Sam C. Shum, AAPS PharmSciTech, vol. 12, n ° 1, mars 2011, DOI: 10.1208 / s12249-010-9558-x).

Emil Friedman
la source
1
merci, c'est une excellente réponse et m'aidera à l'expliquer à des personnes qui ne sont pas statistiquement avisées.
séance
1
+1 J'aimerais qu'il soit possible de fusionner les réponses sur SO. Ceci avec la réponse acceptée ci-dessus constitue la réponse parfaite.
Zhubarb
9

J'ai eu un cas réel qui illustre cela. Dans les données, une des variables représentées groupavec 0-contrôle et 1-traitement. L'autre prédicteur représenté time periodavec 0-avant le traitement et 1-après le traitement. L'interaction était le paramètre d'intérêt principal mesurant l'effet du traitement, la différence après le traitement dans le groupe de traitement au-dessus de tout effet du temps mesuré dans le groupe de contrôle. L'effet principal degroupmesuré la différence dans les 2 groupes avant tout traitement, donc il pourrait facilement être 0 (dans une expérience randomisée il devrait être 0, celui-ci n'était pas). Le 2e effet principal mesure la différence entre les périodes de temps avant et après dans le groupe de contrôle où il n'y a pas eu de traitement. Cela a donc également du sens qu'il puisse être 0 alors que le terme d'interaction est non nul. Bien sûr, cela dépend de la façon dont les choses ont été codées et un codage différent changerait les significations et si l’interaction a un sens sans les effets principaux. Il est donc logique d’adapter l’interaction sans les effets principaux dans des cas spécifiques.

Greg Snow
la source
Vous voulez donc dire que tout dépend des objectifs de votre étude OU en fonction de vos paramètres?
Ben
1
@Ben, cela dépend à la fois de la façon dont vous paramétrez vos variables (dans mon exemple, le passage de 0/1 à 1/0 pour l'une ou l'autre des variables changerait l'interprétation) et des questions auxquelles vous essayez de répondre et des hypothèses que vous êtes prêt à formuler. .
Greg Snow
Merci pour votre réponse. J'ai deux types d'interaction et je souhaite interagir avec une année fictive. Je veux seulement évaluer l'année 2008 (année réglementaire) sur l'interaction des deux manières. il est donc correct d’utiliser X et Z sont des variables continues, Z étant la valeur de régulation. l'année 2008 est notée 1 et 0 pour les autres années. c'est donc comme si je ne prenais que les observations de l'année 2008 sans interaction. J'ai lu sur le principe d'hérédité faible et fort, mais je n'ai pas bien compris.
Y=B0+B1X+B2Z+B3XZ2008+yeardummies
Ben
1
@Ben, Il est certainement possible d'adapter le modèle ci-dessus qui dit fondamentalement que vous pensez qu'il y a (ou pourrait être) une interaction en 2008, mais pas pour une autre année. Si vous avez une justification pour cela, alors je pense que le modèle va bien. Mais il est assez inhabituel de supposer que vous devrez probablement justifier cela auprès de tout public.
Greg Snow
merci beaucoup qui a été utile. Est-il possible de comparer le résultat de l'interaction avec que est pour toute la période et que l'interaction ne concerne que l'année 2008B 1 X
B1X
B1X
Ben
7

Je suis d'accord avec Peter. Je pense que la règle est le folklore. Pourquoi pourrions-nous concevoir une situation où deux variables n’affecteraient le modèle que par suite d’une interaction? Une analogie en chimie est que deux produits chimiques sont totalement inertes mais provoquent une explosion lorsqu'ils sont mélangés. Les subtilités mathématiques / statistiques telles que l'invariance n'ont rien à voir avec un problème réel avec des données réelles. Je pense juste que quand il y a beaucoup de variables à considérer, il y a énormément de tests à faire si vous voulez examiner tous les effets principaux et la plupart sinon toutes les interactions de premier ordre. De plus, nous n’examinons presque jamais les interactions de second ordre, même dans de petites expériences avec seulement une poignée de variables. L'idée est que plus l'ordre d'interaction est élevé, moins il y a de chances que l'effet soit réel. Alors, non Ne regardez pas les interactions de premier ou de second ordre si l’effet principal n’est pas là. Une bonne règle peut-être mais suivre religieusement signifie négliger les exceptions et votre problème peut être une exception.

Michael Chernick
la source
8
Re: "Les subtilités mathématiques / statistiques telles que l'invariance n'ont rien à voir avec un problème réel avec des données réelles" - cela a à voir avec un problème réel avec des données réelles lorsque vos valeurs, et donc votre inférence statistique "monde réel" sur l’importance d’un prédicteur), peut dépendre de quelque chose d'aussi arbitraire que la décision de centrer vos prédicteurs. p
Macro
1
Je me suis probablement mal exprimé en disant que l'invariance n'a aucune pertinence dans le monde réel. Mon intention était que certains résultats mathématiques puissent ne pas être pertinents dans un problème pratique particulier. À titre d'exemple, les estimations des moindres carrés représentent le maximum de vraisemblance dans les hypothèses d'erreur normales et, selon le théorème de Gauss, la variance minimale non biaisée dans des conditions plus faibles, mais je ne l'emploierais pas lorsqu'il y a des valeurs aberrantes dans les données. De même, une propriété comme l'invariance devrait-elle exclure l'inclusion d'une interaction lorsqu'il est logique de dire médicalement qu'elle se produirait sans les effets principaux?
Michael Chernick
6

[essayant de répondre à une partie de la question initiale qui semble laissée non couverte dans la plupart des réponses: "faut-il faire confiance à l'AIC, en tant que critère de sélection du modèle?"]

AIC devrait être utilisé plus comme une ligne directrice que comme une règle qui devrait être considérée comme un évangile.

L'efficacité de l'AIC (ou du code BIC ou de tout critère «simple» similaire pour la sélection du modèle) dépend fortement de l'algorithme d'apprentissage et du problème.

Pensez-y de cette façon: l’objectif du terme complexité (nombre de facteurs) dans la formule AIC est simple: éviter de choisir des modèles qui s’ajustent. Mais la simplicité de l’AIC ne permet souvent pas de saisir la véritable complexité du problème lui-même. C'est pourquoi il existe d'autres techniques pratiques pour éviter les sur-ajustements: par exemple, la validation croisée ou l'ajout d'un terme de régularisation.

Lorsque j'utilise SGD (descente de gradient stochastique) en ligne pour effectuer une régression linéaire sur un ensemble de données comportant un très grand nombre d'entrées, je trouve AIC comme un prédicteur terrible de la qualité du modèle car il pénalise excessivement les modèles complexes comportant un grand nombre de termes. Il existe de nombreuses situations de la vie réelle dans lesquelles chaque terme a un effet minime, mais ensemble, un grand nombre d’entre elles fournit une preuve statistique solide du résultat. Les critères de sélection de modèles AIC et BIC rejetteraient ces modèles et préféreraient les plus simples, même si les plus complexes sont supérieurs.

En fin de compte, c'est l'erreur de généralisation (en gros: performance hors échantillon) qui compte. AIC peut vous donner une idée de la qualité du modèle dans certaines situations relativement simples. Faites attention et rappelez-vous que la vie réelle est le plus souvent, plus complexe qu'une simple formule.

arielf
la source