Quand faut-il inclure une variable dans une régression alors qu’elle n’est pas statistiquement significative?

37

Je suis un étudiant en économie avec une certaine expérience de l'économétrie et de R. J'aimerais savoir s'il existe une situation où nous devrions inclure une variable dans une régression alors qu'elle n'est pas statistiquement significative.

EconJohn
la source
1
Dans la recherche médicale, vous l'incluez si cela implique des interactions qualitatives. Voir le travail de Lacey Gunter que j'ai déjà mentionné ici. Également le livre de Chakraborty et Moodie publié par Springer en 2013. Le titre est Méthodes statistiques pour les régimes de traitement dynamiques: Apprentissage par renforcement, Inférence causale et médecine personnalisée.
Michael R. Chernick
11
Considérez également que la signification statistique est complètement arbitraire. Qu'est-ce qui est important? 0,05? 0,1? 0,001? Si la base théorique existe pour inclure un prédicteur, c'est une raison suffisante pour le conserver.
Ashe
2
Lorsque vous dites «non significatif sur le plan statistique», vous réalisez que le niveau de confiance est de 5%, ce qui est un choix arbitraire. (Et plus le nombre de variables est élevé, plus le problème des tests multiples est élevé).
smci
1
@smci 0,05 = 5% du niveau de signification correspond à 95% du niveau de confiance, une raison suffisante pour éviter de mélanger les termes dans la même phrase. Comme il existe des procédures de signification sans intervalle de confiance en vue, il est généralement plus facile d'utiliser le terme le plus pertinent. Les exceptions sont lorsque vous expliquez le lien à un niveau d'introduction.
Nick Cox

Réponses:

30

Oui!

Qu'un coefficient soit statistiquement impossible à distinguer de zéro n'implique pas que le coefficient est en réalité égal à zéro, qu'il est sans importance. Le fait qu'un effet ne dépasse pas un seuil arbitraire de signification statistique n'implique pas qu'il ne faut pas tenter de le contrôler.

De manière générale, le problème à résoudre et la conception de votre recherche doivent indiquer les éléments à inclure en tant que régresseurs.

Quelques exemples rapides:

Et ne prenez pas cela comme une liste exhaustive. Il n'est pas difficile de trouver des tonnes de plus ...

1. effets fixes

Une situation dans laquelle cela se produit souvent est une régression avec des effets fixes .

Supposons que vous avez des données de panel et que vous souhaitez estimer dans le modèle:b

yjet=bXjet+vousje+εjet

L'estimation de ce modèle avec les moindres carrés ordinaires où sont traités comme des effets fixes revient à utiliser les moindres carrés ordinaires avec une variable indicatrice pour chaque individu i .vousjeje

Quoi qu’il en soit, le fait est que les variables (c’est-à-dire les coefficients des variables indicatrices) sont souvent mal estimées. Tout effet individuel fixe u i est souvent statistiquement non significatif. Mais vous continuez d'inclure toutes les variables indicatrices dans la régression si vous prenez en compte les effets fixes.uiui

(Notez en outre que la plupart des logiciels de statistiques ne vous donneront même pas les erreurs standard pour des effets fixes individuels lorsque vous utilisez les méthodes intégrées. Vous ne vous souciez pas vraiment de la signification des effets fixes individuels. Vous vous souciez probablement de leur signification collective. .)

2. Des fonctions qui vont de pair

(a) Ajustement de courbe polynomiale (pointe du chapeau @NickCox dans les commentaires)

Si vous adaptez un polynôme de degré à une courbe, vous incluez presque toujours des termes polynômes d'ordre inférieur.k

Par exemple, si vous montez un polynôme de second ordre, vous exécuterez:

yi=b0+b1xi+b2xi2+ϵi

Habituellement, il serait assez bizarre de forcer et de lancer y i = b 0b1=0

yi=b0+b2xi2+ϵi

mais les étudiants en mécanique newtonienne pourront imaginer des exceptions.

b) Modèles AR (p):

Supposons que vous estimiez un modèle AR (p) et que vous incluez également les termes d'ordre inférieur. Par exemple, pour un AR (2), vous exécutez:

yt=b0+b1yt1+b2yt2+ϵt

Et ce serait bizarre de courir:

yt=b0+b2yt2+ϵt

c) Fonctions trigonométriques

Comme @NickCox le mentionne, les termes et sin ont également tendance à aller de pair. Pour plus d'informations à ce sujet, voir par exemple ce document .cossin

Plus généralement...

Vous souhaitez inclure des variables de droite lorsqu'il existe de bonnes raisons théoriques de le faire.

Et comme d'autres réponses ici et à travers StackExchange discutent, la sélection de variables par étapes peut créer de nombreux problèmes statistiques.

Il est également important de distinguer entre:

  • un coefficient statistiquement indiscernable de zéro avec une petite erreur type.
  • un coefficient statistiquement indiscernable de zéro avec une erreur type importante .

Dans ce dernier cas, il est problématique de dire que le coefficient n'a pas d'importance. Cela peut simplement être mal mesuré.

Matthew Gunn
la source
uibuiuiui
5
Quelques très bonnes réponses qui, néanmoins, se chevauchent déjà un peu trop, je vais donc limiter mes exemples à un commentaire ici. Ajustement polynomial : le plus souvent, un quadratique devrait presque toujours être ajusté par un double acte de termes linéaire et carré. Même si un seul terme est significatif aux niveaux conventionnels, leur effet conjoint est essentiel. Prédicteurs trigonométriques De même, les sinus et le cosinus vont généralement de pair, même si l’on ne parvient pas à se qualifier aux niveaux conventionnels. Les doubles actes doivent être adaptés comme tels.
Nick Cox
2
@ NickCox Comme il s'agit d'un wiki de communauté et que votre point est directement lié à celui soulevé ici, je pense que votre commentaire mériterait d'être intégré à la réponse à un moment approprié. Il est trop important de rester un simple commentaire, à mon avis, bien que je pense que vous avez raison de dire que ce ne serait pas mieux comme réponse autonome
Silverfish le
@ Silverfish Matthew est le bienvenu pour le copier. Il me semble toutefois un peu présomptueux de le modifier.
Nick Cox
1
@ NickCox Haha, je m'en fiche. :) J'ai ajouté vos suggestions et n'hésitez pas à éditer !.
Matthew Gunn
14

Oui il y en a. Toute variable pouvant être corrélée de manière significative avec votre variable de réponse, même à un niveau non significatif sur le plan statistique, pourrait perturber votre régression si elle n’est pas incluse. Cela s'appelle une sous-spécification et conduit à des estimations de paramètres qui ne sont pas aussi précises qu'elles le pourraient autrement.

https://onlinecourses.science.psu.edu/stat501/node/328

De ce qui précède:

Un modèle de régression est sous-spécifié (résultat 2) si une ou plusieurs variables prédictives importantes sont manquantes dans l'équation de régression. Cette situation est peut-être le pire des scénarios, car un modèle sous-spécifié génère des coefficients de régression biaisés et des prédictions biaisées de la réponse. Autrement dit, en utilisant le modèle, nous sous-estimions ou surestimions systématiquement les pentes et les moyennes de la population. Pour aggraver encore les choses, l’erreur quadratique moyenne moyenne a tendance à surestimer σ², donnant ainsi des intervalles de confiance plus larges que prévu.

double doublé
la source
4
Ce n'est pas tout à fait vrai. Pour être une variable de confusion, il faut que les variables expliquées et explicatives soient expliquées . Si les variables explicatives d'intérêt génèrent la variable et influent sur le résultat, il s'agit d'une variable intermédiaire que vous ne devez pas contrôler (à moins que vous ne souhaitiez décomposer l'effet total).
Maarten Buis
1
C'est une discussion très insuffisante sur le sujet du contrôle de la confusion. La corrélation avec le résultat n'est pas une condition suffisante pour créer de la confusion et peut conduire à une spécification erronée des modèles causaux en contrôlant les médiateurs. Le CAC est le principal moyen de fumer qui vous donne une maladie cardiaque. Voir Causality by Pearl, 2e éd, chapitre 3, section 3.
AdamO
N'hésitez pas à éditer. Je ne pensais pas qu'il recherchait ce genre de profondeur dans la réponse, excuses si ma brièveté conduisait à une inexactitude flagrante.
doubletrouble
11

Généralement, vous n'incluez ni n'excluez de variables pour la régression linéaire en raison de leur signification. Vous les incluez parce que vous supposez que les variables sélectionnées sont de (bons) prédicteurs des critères de régression. En d'autres termes, la sélection de prédicteur est basée sur la théorie.

L’insignifiance statistique dans la régression linéaire peut signifier deux choses (dont je sais):

  1. Les prédicteurs non significatifs ne sont pas liés aux critères. Excluez-les, mais gardez à l'esprit que l'insignifiance ne prouve pas qu'ils ne sont pas liés. Vérifiez votre théorie.
  2. Les prédicteurs sont non significatifs car ils peuvent être exprimés en fonction d'autres prédicteurs. L'ensemble de prédicteurs est alors appelé multicolinéaire. Cela ne rend pas les prédicteurs "mauvais" dans un sens quelconque, mais redondants.

Une raison valable pour exclure les prédicteurs non significatifs est que vous recherchez le plus petit sous-ensemble de prédicteurs expliquant la variance des critères ou la majeure partie de celle-ci. Si vous l'avez trouvé, vérifiez votre théorie.

Wolfgang
la source
[P] rédacteurs des critères de régression ? Vous voudrez peut-être reformuler ceci.
Richard Hardy
8

En économétrie, cela se produit à gauche et à droite. Par exemple, si vous utilisez les variables trimestrielles de saisonnalité Q2, Q3 et Q4, il arrive souvent qu’en tant que groupe, elles soient significatives, mais certaines d’entre elles ne le sont pas individuellement. Dans ce cas, vous les conservez généralement.

yxzzxz

MISE À JOUR: Un autre exemple courant est la prévision. L'économétrie est généralement enseignée du point de vue de l'inférence dans les départements d'économie. Dans la perspective des déductions, beaucoup d’attention est portée sur les valeurs prédictives et leur importance, car vous essayez de comprendre ce qui cause quoi et ainsi de suite. Dans les prévisions, on ne met pas beaucoup l'accent sur ce genre de choses, car tout ce qui compte pour vous, c'est de voir dans quelle mesure le modèle peut prévoir la variable d'intérêt.

Ceci est similaire aux applications d’apprentissage automatique, qui se frayent récemment un chemin dans l’économie. Vous pouvez avoir un modèle avec toutes les variables significatives qui ne prévoient pas bien. En ML, il est souvent associé à ce que l'on appelle "un ajustement excessif". De toute évidence, un tel modèle est très peu utilisé dans les prévisions.

Aksakal
la source
1
Cela semble un peu exagéré à certains moments. Par exemple, même pour un non-économiste issu de manuels scolaires, il est évident que les prévisions ont été largement enseignées aux économistes pendant au moins quelques décennies. Qu'il y ait eu une augmentation "récente" (ce qui signifie précisément?) Est un point plus subtil que je laisse aux initiés.
Nick Cox
@ NickCox, d'accord, cela sonnait comme s'il n'y avait aucune prévision dans les programmes, ce qui est faux.
Aksakal
7

Vous posez deux questions différentes:

  1. Quand la signification statistique n'a-t-elle pas d'importance?
  2. Quand devrions-nous inclure une variable dans une régression alors qu'elle n'est pas statistiquement significative?

Modifier: cela était vrai pour le message d'origine, mais pourrait ne plus l'être après les modifications.


En ce qui concerne Q1, je pense que c'est à la limite d'être trop large. Il y a beaucoup de réponses possibles, certaines déjà fournies. Un autre exemple concerne la construction de modèles de prévision (voir la source citée ci-dessous pour une explication).


En ce qui concerne la Q2, la signification statistique n'est pas un critère valable pour la construction d'un modèle. Rob J. Hyndman écrit ce qui suit dans son billet de blog "Tests statistiques pour la sélection de variables" :

La signification statistique ne constitue généralement pas une bonne base pour déterminer si une variable doit être incluse dans un modèle, malgré le fait que beaucoup de personnes qui devraient savoir mieux les utilisent à cette fin. <...> Les tests statistiques ont été conçus pour tester des hypothèses et non pour sélectionner des variables.

Notez également que vous pouvez souvent trouver certaines variables qui sont statistiquement significatives uniquement par hasard (le hasard étant contrôlé par votre choix du niveau de signification). L'observation qu'une variable est statistiquement significative ne suffit pas pour conclure que la variable appartient au modèle.

Richard Hardy
la source
4

Je vais ajouter un autre "oui". On m'a toujours enseigné - et j'ai essayé de le transmettre - que la considération primordiale dans le choix d'une covariable est la connaissance du domaine, pas les statistiques. En biostatistique, par exemple, si je modélise des résultats pour la santé d’individus, peu importe ce que que dit la régression, vous aurez besoin de sacrément de bons arguments pour ne pas inclure l'âge, la race et le sexe dans le modèle.

Cela dépend aussi du but de votre modèle. Si l'objectif est de mieux comprendre les facteurs les plus associés à vos résultats, la construction d'un modèle parcimonieux a certaines vertus. Si vous vous souciez de la prédiction et pas tant de la compréhension, éliminer les covariables peut alors être une préoccupation moins importante.

(Enfin, si vous prévoyez d'utiliser des statistiques pour la sélection de variables, consultez ce que Frank Harrell a à dire sur le sujet: http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ et son livre intitulé Regression Modeling Strategies (Stratégies de modélisation de la régression) . En résumé, au moment où vous utilisiez des stratégies pas à pas ou des stratégies similaires, basées sur des statistiques, pour choisir les meilleurs prédicteurs, tous les tests de type "sont-ils de bons prédicteurs?" sont terriblement biaisés - bien sûr, ils ' En tant que bons prédicteurs, vous les avez choisis sur cette base et les valeurs p de ces prédicteurs sont faussement basses.)

eac2222
la source
1
@EconJohn et les statistiques du modèle F ,R2s, et les effets estimés faussement élevés ... et les modèles sélectionnés par étapes ont à peu près la même probabilité de retenir les vrais prédicteurs et les faux prédicteurs, et à peu près la même probabilité de supprimer les vrais prédicteurs et les faux prédicteurs.
Alexis
4

La seule chose que le résultat de "l'insignifiance statistique" indique vraiment est que, au niveau sélectionné d'erreur de type I, nous ne pouvons même pas dire si l'effet du régresseur sur la variable dépendante est positif ou négatif (voir cet article).

Donc, si nous conservons ce régresseur, toute discussion sur son propre effet sur la variable dépendante ne dispose d'aucune preuve statistique à l'appui.

Mais cet échec de l'estimation ne dit pas que le régresseur n'appartient pas à la relation structurelle, il indique seulement qu'avec l'ensemble de données spécifique, nous n'avons pas pu déterminer avec une certaine certitude le signe de son coefficient.

Donc, en principe, si des arguments théoriques soutiennent sa présence, le régresseur doit être conservé.

D'autres réponses fournies ici ont fourni des modèles / situations spécifiques pour lesquels de tels régresseurs sont conservés dans la spécification, par exemple la réponse mentionnant le modèle de données du panneau à effets fixes.

Alecos Papadopoulos
la source
Pourquoi faire glisser "niveau de confiance" dans une discussion de signification? Je lis souvent des monstruosités dans des textes et des articles médiocres tels que "significatif au niveau de confiance de 99%". Il existe certes une relation entre les idées, mais vous n’avez pas besoin de cette formulation (qui, au niveau élémentaire, confond autant qu’elle explique).
Nick Cox
@ Nick Cox Vous avez un point. Je l'ai changé en "Erreur de type I".
Alecos Papadopoulos
1

Vous pouvez inclure une variable d'intérêt particulier si elle fait l'objet d'une recherche, même si elle n'est pas statistiquement significative. De plus, en biostatistique, la signification clinique est souvent différente de la signification statistique.

Scott Jackson
la source