En fait, je suis en train de passer en revue un manuscrit où les auteurs comparent 5 à 6 modèles de régression logit et AIC. Cependant, certains modèles comportent des termes d'interaction sans inclure les termes de covariable individuels. Cela a-t-il un sens de faire cela?
Par exemple (non spécifique aux modèles logit):
M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)
J'ai toujours eu l'impression que si vous avez le terme d'interaction X1 * X2, vous avez également besoin de X1 + X2. Par conséquent, les modèles 1 et 2 conviendraient, mais les modèles 3 à 5 seraient problématiques (même si la valeur AIC est inférieure). Est-ce correct? Est-ce une règle ou plus d'une ligne directrice? Quelqu'un at-il une bonne référence qui explique le raisonnement derrière cela? Je veux juste m'assurer que je ne communique rien d'important dans l'examen.
Merci pour vos pensées, Dan
la source
:
c'est pour les interactions, comme dans A: B. Et*
est à la fois pour les effets principaux et les interactions, donc A * B = A + B + A: B. Donc, si (!) Les auteurs du document suivent cette notation, je ne pense pas qu’un des modèles manque les principaux effets?Réponses:
La plupart du temps, c'est une mauvaise idée. La raison principale est que le modèle n'est plus invariant par rapport aux changements d'emplacement. Par exemple, supposons que vous ayez un seul résultat et deux prédicteurs et et spécifiez le modèle:yi xi zi
Si vous deviez centrer les prédicteurs par leur moyen, devientxizi
Ainsi, vous pouvez voir que les principaux effets ont été réintroduits dans le modèle.
J'ai donné un argument heuristique ici, mais cela pose un problème pratique. Comme indiqué dans Faraway (2005) à la page 114, un changement d'échelle supplémentaire modifie l'inférence du modèle lorsque les principaux effets sont omis du modèle, alors que cela ne se produit pas lorsque les termes d'ordre inférieur sont inclus. Il est généralement indésirable que des éléments arbitraires, comme un changement de localisation, modifient fondamentalement l'inférence statistique (et donc les conclusions de votre enquête), comme cela peut arriver lorsque vous incluez des termes polynomiaux ou des interactions dans un modèle sans les effets d'ordre inférieur.
Remarque: Dans certaines circonstances particulières, vous voudrez peut-être inclure uniquement l'interaction, si a une signification particulière ou si vous observez uniquement le produit et non les variables individuelles . Mais dans ce cas, on peut aussi bien penser au prédicteur et poursuivre avec le modèlex i , z i a i = x i z ixizi xi,zi ai=xizi
plutôt que de considérer comme un terme d'interaction.ai
la source
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the model
Le changement additif de prédicteurs modifie généralement t de leurs effets principaux (termes d'ordre inférieur) même dans un modèle complet. C'est l'ajustement global (R ^ 2) qui est préservé (mais n'est pas préservé en cas de modification additive dans un modèle avec certains effets principaux supprimés). Est-ce ce que tu voulais dire?Jusqu'à présent, toutes les réponses semblent manquer un élément fondamental: la forme fonctionnelle que vous choisissez doit être suffisamment souple pour saisir les caractéristiques scientifiquement pertinentes. Les modèles 2 à 5 imposent des coefficients nuls à certains termes sans justification scientifique. Et même si cela est scientifiquement justifié, le modèle 1 reste attrayant, car vous pourriez aussi bien tester les coefficients nuls que les imposer.
La clé est de comprendre ce que les restrictions signifient. L'avertissement typique d'éviter les modèles 3 à 5 est que, dans la plupart des applications, les hypothèses qu'ils imposent sont scientifiquement invraisemblables. Le modèle 3 suppose que X2 n'influence que la pente dY / dX1 mais pas le niveau. Le modèle 4 suppose que X1 n'influence que la pente dY / dX2 mais pas le niveau. Et le modèle 5 suppose que ni X1 ni X2 n’affectent le niveau, mais seulement dY / dX1 ou dY / dX2. Dans la plupart des applications, ces hypothèses ne semblent pas raisonnables. Le modèle 2 impose également un coefficient nul, mais présente toujours un intérêt. Il donne la meilleure approximation linéaire des données, ce qui, dans de nombreux cas, satisfait à l'objectif scientifique.
la source
+1 à @Macro. Permettez-moi de faire ressortir ce que je pense être un point similaire qui concerne les prédicteurs catégoriques. Beaucoup peut dépendre de la façon dont ils sont codés . Par exemple, le codage des cellules de référence (ou «factice») utilise 0 & 1, tandis que le codage des effets utilise -1, 0 & 1. Considérons un cas simple avec deux facteurs avec deux niveaux chacun, puisx1x2 pourrait être [0, 0, 0, 1] ou [1, -1, -1, 1], en fonction du schéma de codage utilisé. Je pense qu'il est possible de créer une situation dans laquelle seule l'interaction est "significative" avec un schéma de codage, alors que tous les termes sont "significatifs" en utilisant l'autre schéma. Cela implique que des décisions interprétatives significatives seraient prises sur la base d'une décision de codage arbitraire que votre logiciel aurait peut-être faite pour vous à votre insu. Je reconnais qu'il s'agit d'un petit point, mais ce n'est qu'une raison de plus pour laquelle il n'est généralement pas judicieux de conserver uniquement l'interaction (et également de ne pas sélectionner un sous-ensemble de prédicteurs basés sur les valeurs p, bien entendu).
la source
Puisque vous examinez un article, vous pourriez suggérer aux auteurs de discuter de la question de la hiérarchie des modèles et de justifier leur dérogation.
Voici quelques références:
Nelder JA. Le choix des termes dans les modèles de surface de réponse: quelle est la force du principe d'hérédité faible? Le statisticien américain. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Consulté le 10 juin 2010.
Peixoto JL. Sélection de variables hiérarchique dans les modèles de régression polynomiale. Le statisticien américain. 1987; 41: 311-3. http://www.jstor.org/pss/2684752 . Consulté le 10 juin 2010.
Peixoto JL. Une propriété des modèles de régression polynomiale bien formulés. Le statisticien américain. 1990; 44: 26-30. http://www.jstor.org/pss/2684952 . Consulté le 10 juin 2010.
Je suis généralement la hiérarchie, mais je m'en éloigne dans certaines situations. Par exemple, si vous testez l'usure des pneus par rapport au kilométrage à plusieurs vitesses différentes, votre modèle pourrait ressembler à ceci:
profondeur de sculpture = intersection + kilométrage + kilométrage * vitesse
mais cela n'aurait aucun sens physique d'inclure un effet principal de la vitesse car le pneu ne sait pas quelle sera sa vitesse à zéro mille.
(D'autre part, vous pouvez toujours vouloir tester un effet de vitesse car cela pourrait indiquer que les effets de "rodage" diffèrent à des vitesses différentes. D'autre part, une méthode encore plus efficace pour gérer le rodage serait de: récupérez les données à zéro et à un kilométrage très faible, puis testez la non-linéarité. Notez que la suppression du terme d'interception peut être considérée comme un cas particulier de violation de la hiérarchie.)
Je vais également répéter ce que quelqu'un a dit ci-dessus, car c'est très important: les auteurs doivent s'assurer qu'ils savent si leur logiciel centre les données. Le modèle de pneu ci-dessus devient physiquement insensé si le logiciel remplace le kilométrage par (kilométrage - moyenne du kilométrage).
Le même genre de choses est pertinent dans les études de stabilité pharmaceutique (mentionné de manière tangente dans "Modèles de stabilité pour stockage séquentiel", Emil M. Friedman et Sam C. Shum, AAPS PharmSciTech, vol. 12, n ° 1, mars 2011, DOI: 10.1208 / s12249-010-9558-x).
la source
J'ai eu un cas réel qui illustre cela. Dans les données, une des variables représentées
group
avec 0-contrôle et 1-traitement. L'autre prédicteur représentétime period
avec 0-avant le traitement et 1-après le traitement. L'interaction était le paramètre d'intérêt principal mesurant l'effet du traitement, la différence après le traitement dans le groupe de traitement au-dessus de tout effet du temps mesuré dans le groupe de contrôle. L'effet principal degroup
mesuré la différence dans les 2 groupes avant tout traitement, donc il pourrait facilement être 0 (dans une expérience randomisée il devrait être 0, celui-ci n'était pas). Le 2e effet principal mesure la différence entre les périodes de temps avant et après dans le groupe de contrôle où il n'y a pas eu de traitement. Cela a donc également du sens qu'il puisse être 0 alors que le terme d'interaction est non nul. Bien sûr, cela dépend de la façon dont les choses ont été codées et un codage différent changerait les significations et si l’interaction a un sens sans les effets principaux. Il est donc logique d’adapter l’interaction sans les effets principaux dans des cas spécifiques.la source
Je suis d'accord avec Peter. Je pense que la règle est le folklore. Pourquoi pourrions-nous concevoir une situation où deux variables n’affecteraient le modèle que par suite d’une interaction? Une analogie en chimie est que deux produits chimiques sont totalement inertes mais provoquent une explosion lorsqu'ils sont mélangés. Les subtilités mathématiques / statistiques telles que l'invariance n'ont rien à voir avec un problème réel avec des données réelles. Je pense juste que quand il y a beaucoup de variables à considérer, il y a énormément de tests à faire si vous voulez examiner tous les effets principaux et la plupart sinon toutes les interactions de premier ordre. De plus, nous n’examinons presque jamais les interactions de second ordre, même dans de petites expériences avec seulement une poignée de variables. L'idée est que plus l'ordre d'interaction est élevé, moins il y a de chances que l'effet soit réel. Alors, non Ne regardez pas les interactions de premier ou de second ordre si l’effet principal n’est pas là. Une bonne règle peut-être mais suivre religieusement signifie négliger les exceptions et votre problème peut être une exception.
la source
[essayant de répondre à une partie de la question initiale qui semble laissée non couverte dans la plupart des réponses: "faut-il faire confiance à l'AIC, en tant que critère de sélection du modèle?"]
AIC devrait être utilisé plus comme une ligne directrice que comme une règle qui devrait être considérée comme un évangile.
L'efficacité de l'AIC (ou du code BIC ou de tout critère «simple» similaire pour la sélection du modèle) dépend fortement de l'algorithme d'apprentissage et du problème.
Pensez-y de cette façon: l’objectif du terme complexité (nombre de facteurs) dans la formule AIC est simple: éviter de choisir des modèles qui s’ajustent. Mais la simplicité de l’AIC ne permet souvent pas de saisir la véritable complexité du problème lui-même. C'est pourquoi il existe d'autres techniques pratiques pour éviter les sur-ajustements: par exemple, la validation croisée ou l'ajout d'un terme de régularisation.
Lorsque j'utilise SGD (descente de gradient stochastique) en ligne pour effectuer une régression linéaire sur un ensemble de données comportant un très grand nombre d'entrées, je trouve AIC comme un prédicteur terrible de la qualité du modèle car il pénalise excessivement les modèles complexes comportant un grand nombre de termes. Il existe de nombreuses situations de la vie réelle dans lesquelles chaque terme a un effet minime, mais ensemble, un grand nombre d’entre elles fournit une preuve statistique solide du résultat. Les critères de sélection de modèles AIC et BIC rejetteraient ces modèles et préféreraient les plus simples, même si les plus complexes sont supérieurs.
En fin de compte, c'est l'erreur de généralisation (en gros: performance hors échantillon) qui compte. AIC peut vous donner une idée de la qualité du modèle dans certaines situations relativement simples. Faites attention et rappelez-vous que la vie réelle est le plus souvent, plus complexe qu'une simple formule.
la source